專利名稱:利用音頻對象控制波場合成呈現裝置的設備和方法
技術領域:
本發明涉及波場合成領域,更具體地,涉及利用要處理的數據對波場合成呈現(render)裝置進行的控制。本發明涉及波場合成概念,具體涉及結合多呈現器系統的有效波 場合成概念。
背景技術:
對于在娛樂電子設備領域中的新技術和創新產品有著日益增長 的需求。對于新多媒體系統的成功來說,提供最佳功能或容量是非常 重要的先決條件。這通過使用數字技術、特別是使用計算機技術來實 現。其示例是提供了增強的接近現實的視聽印象的應用。在先前的音 頻系統中,實質性缺點在于自然以及虛擬環境的三維聲音再現的質量。許多年來,已知音頻信號的多信道揚聲器再現的方法并對該方法 進行了標準化。所有常用技術具有以下缺點揚聲器的地點和收聽者 的位置已經在傳輸格式中有所體現。揚聲器相對于收聽者的錯誤設置 使音頻質量顯著下降。僅在再現空間的小區域內(所謂有效點(sweet spot))可能有最佳聲音。在新技術的幫助下,可以實現較好的自然空間感以及音頻再現的 更大范圍或包層。TU Delft處已經研究了所謂波場合成(WFS)的技 術原理,并首次在80年代后期提出(Berkout,A.J.;deVries,D.; Vogel, R: Acoustic control by Wave field Synthesis. JASA93, 1993 )。由于該方法對于計算機功率和傳輸速率的極大需求,波場合成直 到現在在實際中也很少采用。目前,只有微處理器技術領域中的進步 和音頻編碼允許在具體應用中采用該技術。期望明年出現在專業領域 中的第一個成果。設想在一些年后,消費領域內的第一波場合成應用 開始投放市場。
WFS的基本思想基于波動說的惠更斯原理的應用 波所捕獲的每一點是以球或圓方式傳播的元波的起點。 應用于聲學,通過彼此相鄰設置的大量揚聲器(所謂揚聲器陣列),來復制每個到來的波陣面(wave front)的任意形狀。在最簡單 的情況下,即要再現單個點源并且揚聲器按照線性設置,則每個揚聲 器的音頻信號必須以時間延遲的方式饋入,并進行振幅縮放,從而各 個揚聲器的輻射聲場適當地重疊。利用多個聲源,對于每個源,單獨 地計算對于每個揚聲器的貢獻,并將所產生的信號相加。如果要再現 的源在具有反射壁的室內,則也必須作為附加源,經由揚聲器陣列來 再現反射。因此,在計算中的消耗很大程度上取決于聲源的個數、錄 音室的反射屬性和揚聲器的個數。具體地,該技術的優點在于,可以在大區域的再現空間上有自然 的三維聲音印象。與已知技術相反,以非常精確的方式再現聲源的方 向和距離。在有限程度上,甚至可以在真實的揚聲器陣列與收聽者之 間定位虛擬聲源。盡管波場合成很好地用于具有已知屬性的環境,但是如果屬性改 變或基于不匹配環境實際屬性的環境屬性而執行波場合成,則會出現 紊亂。周圍環境的屬性還可以由周圍環境的脈沖響應來進行描述。 這將基于后續的示例更加詳細地提出。假設揚聲器朝墻壁發出聲 音信號,但不希望有反射。使用波場合成的空間補償將包括以下事實-首先,確定該墻壁的反射,以確定在已從墻壁反射回來的聲音信號何 時再次到達揚聲器、以及該反射的聲音信號具有多大振幅。如果不期 望來自該墻壁的反射,則可以利用波場合成,通過施加具有相應振幅、 并具有與揚聲器上的反射信號相反相位的信號來消除來自該墻壁的反 射,從而傳播補償波抵消反射波,使得在所考慮的周圍環境中消除了 來自該墻壁的反射。這可以通過以下實現首先計算周圍環境的脈沖 響應,然后基于該周圍環境的脈沖響應來確定墻壁的屬性和位置,其 中,將墻壁當作鏡面源,即反射入射聲音的聲源。如果首先測量該周圍環境的脈沖響應,然后計算必須以在音頻信 號上疊加的方式施加于揚聲器上的補償信號,則將會發生來自該墻壁 反射的抵消,從而在該周圍環境中的收聽者具有該墻壁根本不存在的 聲音印象。然而,對于反射波的最佳補償,關鍵是精確地確定房間的脈沖響 應,從而不會出現過補償或欠補償。因此,波場合成允許在大的再現區域上恰當地映射虛擬聲源。同時,在非常復雜的聲音場景的創建過程中,向音響大師(sound master) 和錄音師提供了新技術和創造潛力。80年代末在TU Delft開發的波場 合成(WFS,或者也稱為聲場合成)表示聲音再現的全息方式。 Kirchhoff-Hdmholtz積分用作該方式的基礎。.它闡述了可以通過封閉 體積表面上的單極和雙極聲源(揚聲器陣列)的分布來產生該體積內 的任意聲場。在波場合成中,根據在虛擬位置處發出虛擬源的音頻信號來計算 揚聲器陣列的每個揚聲器的合成信號,其中,關于振幅和相位來形成合成信號,從而從出現在揚聲器陣列中的揚聲器所輸出的各個聲波的 疊加而產生的波與在虛擬位置處的虛擬源是具有真實位置的真實源的 情況下由虛擬位置處的虛擬源所產生的波相對應。典型地,多個虛擬源出現在各個虛擬位置上。針對每個虛擬位置 的每個虛擬源來執行合成信號的計算,從而典型地, 一個虛擬源產生 了多個揚聲器的合成信號。因而,從揚聲器角度來看,該揚聲器接收 返回各個虛擬源的多個合成信號。然后,由于線性疊加原理而導致的 這些源的可能疊加產生了實際從揚聲器發出的再現信號。揚聲器陣列越大,即提供了越多的各個揚聲器,越可以更好地利 用波場合成。然而,為此,由于典型地還必須考慮信道信息,所以波 場合成單元所必需的計算能力必須增加。詳細地,在原理上,這表示 出現從每個虛擬源至每個揚聲器的自身的傳輸信道,以及原理上,可 以是以下情況每個虛擬源產生了每個揚聲器的合成信號,和/或每個 揚聲器獲得了等于虛擬源個數的多個合成信號。如果特別地,在影院應用中的波場合成可能要用在虛擬源也可移 動的情況下,則可以看出,由于合成信號的計算、信道信息的計算以 及通過信道信息和合成信號的組合的再現信號的生成,而導致要運用 相當強的計算能力。此外,應注意,此時,音頻再現的質量隨著可用揚聲器的個數而 增加。這表示音頻再現質量變得越好并且越逼真,則在揚聲器陣列中 存在的揚聲器越多。在上述場景中,例如,可以將各個揚聲器的完全呈現并進行了模 數轉換的再現信號從波場合成中心單元經由雙線線路傳輸至各個揚聲 器。這確實具有以下優點幾乎確保了所有揚聲器同步工作,從而在 這里不再需要其它措施用于同步目的。另一方面,總是可以僅針對特 定再現室或針對利用固定個數的揚聲器的再現,對波場合成中央單元 進行再現。這表示,由于必須至少部分并行且實時地進行音頻再現信 號的計算(尤其對于許多揚聲器和/或許多虛擬源的情況),所以對于 每個再現室,必須構造它自己的波場合成中央單元,而這必須執行相 當大的計算能力。德國專利DE 10254404 B4公開了如圖7所示的系統。 一個部分 是中心波場合成模塊10。另一部分包括各個揚聲器模塊12a、12b、12c、 12d、 12e,它們與實際的物理揚聲器14a、 14b、 14c、 14d、 14e (例 如,如圖l所示)連接。應注意,多個揚聲器Ma-14e位于大于50的 范圍中,以及典型地,在典型應用中甚至在遠大于IOO的范圍中。如 果將特有的揚聲器與每個揚聲器相關聯,則也需要相應個數的揚聲器 模塊。然而,依據該應用,優選對來自揚聲器模塊的鄰接揚聲器小組 進行選址。在這個連接中,任意地,例如與四個揚聲器連接的揚聲器 模塊以相同的再現信號饋入四個揚聲器,或者針對四個揚聲器計算相 應不同的合成信號,從而這種揚聲器模塊實際包括多個單獨的揚聲器 模塊,然而這些揚聲器模塊物理上概括于一個單元中。在波場合成模塊IO和每個單獨的揚聲器12a-12e之間,存在特有 的傳輸路徑16a-16e,每個傳輸路徑與中心波場合成模塊和自己的揚聲 器模塊連接。將提供了高數據速率的串行傳輸格式(如,所謂Firewire傳輸格 式或USB數據格式)優選作為用于將數據從波場合成模塊傳輸至揚聲
器模塊的數據傳輸模式。大于每秒ioo兆比特的數據傳輸速率是有利的。因此,根據在波場合成模塊中選擇的數據格式,來相應地對從波場合成模塊10傳輸至揚聲器模塊的數據流進行格式化,并提供在常用的串行數據格式中提供的同步信息。由各個揚聲器模塊從該同步信息 中提取該同步信息,并將該同步信息用于使各個揚聲器模塊相對于它 們的再現同步,即最終用于獲得模擬揚聲器信號和為此而提供的釆樣 (再采樣)的模數轉換。中心波場合成模塊用作主模塊,而所有揚聲 器模塊用作客戶端,其中,單獨的數據流全部都獲得經由各個傳輸路徑16a-16e來自中心模塊10的相同的同步信息。這確保了所有揚聲器 模塊同步工作,即與主模塊10同步,這對于音頻再現系統不會遭受音 頻質量的損失來說非常重要,從而不會在相應的音頻呈現之后以與各 個揚聲器在時間上有偏移的方式來輻射通過波場合成模塊所計算的合 成信號。所描述的概念給波場合成系統提供了顯著的靈活性,該靈活性對 于各種方式的應用是可縮放的。但是仍然存在以下問題執行實際主 呈現(即,依據虛擬源的位置和揚聲器位置,計算揚聲器的各個合成 信號)的中心波場合成模塊表示整個系統的"瓶頸"。盡管在該系統中, 已經以分散方式執行了"后呈現"(BP,具有信道傳輸功能等的合成信 號的強加),因而已經通過選擇具有比所確定的閾值能量小的能量的合 成信號,減小了中心呈現模塊與單獨的揚聲器模塊之間的必要數據傳 輸能力,但是,仍必須針對所有揚聲器模塊,呈現所有虛擬源,即轉 換為合成信號,其中,僅在呈現之后才進行選擇。這表示,呈現仍確定了系統的整個容量。例如,如果中央呈現單 元能夠同時呈現32個虛擬源,即同時計算這32個虛擬源的合成信號, 則如果在一個音頻場景中一次有多于32個源是有效的,則出現了嚴重 的容量瓶頸。對于簡單場景,這是足夠的。對于較復雜的場景,尤其 具有融入式的聲音印象,即例如在下雨時,許多雨點表示單獨的源, 則直接顯而易見地,具有最多為32個源的容量將不再是足夠的。如果 存在大管弦樂隊,以及實際期望對每個管弦樂隊演奏者或至少每個樂
器組,作為在自己位置上的自身源進行處理,也存在相應的情形。這 里,32個虛擬源可以非常迅速地變得較少。典型地,在已知的波場合成概念中,使用了場景描述,其中,共 同定義了各個音頻對象,從而使用場景描述中的數據和用于各個虛擬 源的音頻數據,呈現器或多呈現裝置可以呈現完整的場景。這里,針 對每個音頻對象,精確地定義了音頻對象必須從哪里開始并在哪里結 束。此外,對于每個音頻對象,精確地指出要成為虛擬源的虛擬源的 位置,即要進入波場合成呈現裝置的位置,從而針對每個揚聲器生成 相應的合成信號。這導致了以下的事實通過作為對合成信號的作用, 將從單獨的揚聲器輸出的聲波疊加,對于收聽者的印象如同聲源位于 再現室內或再現室外,這通過虛擬源的源位置來定義。如已經解釋的,先前的波場合成系統包括創作工具60 (圖6)、控制/呈現模塊62 (圖6)、以及音頻服務器64 (圖6)。創作工具允許 用戶創建并編輯場景、以及控制基于波場合成的系統。場景包括與單 獨的虛擬音源有關的信息和音頻文件。將音頻源的屬性及其對音頻數 據的引用存儲在XML場景文件中。音頻數據本身被提交到音頻服務 器上,并從此處傳遞至呈現模塊。在該系統概念中問題在于,不能總是保證場景數據與音頻數據之 間的一致性,這是由于這些數據被彼此獨立地存儲,并且被彼此獨立 地傳遞至控制/呈現模塊。這是由于以下事實為了計算波場,呈現模塊需要諸如音頻源位 置之類的與各個音頻源有關的信息。為此,也將場景數據作為控制數 據傳遞至呈現模塊。基于控制數據和伴隨的音頻數據,呈現模塊能夠 計算每個單獨的揚聲器的相應信號。已經發現,由于呈現模塊仍然正在對根據先前的源位置所設置的 先前源的音頻數據進行處理的事實,而導致會出現明顯可感知的人工 信號(artifact)。在呈現模塊獲得新源的新位置數據(不同于舊源的位 置數據)時,會出現以下情況呈現模塊接收新位置數據,因而對仍 從先前源中出現的音頻數據的剩余部分進行處理。對于再現室中的可感知的聲音印象,這導致了以下事實源從一個位置"跳"至另一位
置,這會非常干擾收聽者,尤其如果源是相對嘈雜的源、以及如果所 考慮的兩個源(即先前源和當前源)非常不同。
該概念的另一缺點在于以下事實:XML文件形式的場景描述的靈 活性和/或可移植性很低。尤其由于呈現模塊包括朝向彼此的兩個輸入 的這一事實(這對于同步很關鍵),將相同場景描述應用于另一系統是 存在問題的。對于兩個輸入的同步,為了盡可能地避免所描述的人工 信號,應指出,以相對較大的努力,即通過采用時間戳或類似物,顯 著地降低了比特流效率。在該點上,當考慮音頻數據至呈現器的傳輸、 以及呈現器對音頻數據的處理由于所需極大數據速率而導致無論如何 都存在問題時,可以看出,在這一敏感點上,可移植接口對于實現非 常關鍵。
發明內容
本發明的目的是提供了一種用于控制波場合成呈現裝置的靈活 概念,進一步實現了場景描述對于另一系統的可移植性。
通過如權利要求1所述的用于控制波場合成呈現裝置的設備、如 權利要求11所述的用于控制波場合成呈現裝置的方法、或者如權利要求12所述的計算機程序來實現本發明的目的。
本發明基于以下發現可以通過一方面根據場景、另一方面根據 音頻數據來創建包括音頻文件和與虛擬源有關的位置信息的公共輸出 數據流, 一方面消除關于同步的問題,另一方面消除關于缺乏靈活性 的問題,其中,例如,在與輸出數據流中的音頻文件相關聯而相應地 位于數據流中的報頭處,引入虛擬源的位置信息。
根據本發明,因而波場合成呈現裝置仍僅獲得包括所有信息(即, 包括與音頻數據相關聯的音頻數據和元數據,如位置信息和時間信息、 源標識信息或源類型定義)的單個數據流。
因此,給出了位置信息與音頻數據的唯一且不變地關聯,從而對 于使用音頻文件的錯誤位置信息所描述的問題可以不再出現。
此外,根據場景描述和音頻文件生成公共輸出數據流的本發明的 處理裝置對于其它系統產生了高度靈活性和可移植性。作為呈現裝置 的控制數據流,創建了自身自動同步的單個數據流,其中,每個音頻 對象的音頻數據和位置信息彼此固定關聯。根據本發明,保證了呈現器以唯一關聯方式獲得了音頻源的位置 信息以及音頻源的音頻數據,從而不再出現同步問題,否則同步問題 會由于"跳動源"而降低聲音再現質量。優選地,集中處理音頻和元數據。由此,通過本發明的處理裝置, 實現了在數據流中與它們的時間參考相對應地共同傳輸這些數據。從 而,由于不再需要給數據配備上時間戳,所以也增加了比特流效率。 此外,本發明的概念還提供了呈現器的簡化,由于呈現器不再必須保 存如同兩個單獨的數據流將會到來的那么多的數據,所以可以減小呈 現器的輸入緩沖器大小。根據本發明,因而實現了處理裝置形式的中央數據建模和數據管 理模塊。優選地,該模塊管理音頻數據、場景數據(位置、時間、以 及輸出條件,如源對于彼此的相對空間和時間的關系、或者關于源再 現的質量需求)。處理裝置還能夠將場景數據轉換為時間和空間輸出條 件,并實現將音頻數據通過與之一致的輸出數據流傳遞至再現單元。
將參照附圖,在以下對本發明的優選實施例進行更加詳細的描 述,其中圖1是用于控制波場合成呈現裝置的本發明的設備的電路框圖;圖2示出了示例性音頻對象;圖3示出了示例性場景描述;圖4a示出了比特流,其中具有當前時間數據和位置數據的報頭 與每個音頻對象相關聯;圖4b示出了輸出流的可選實施例;圖4c再次示出了數據流的可選實施例;圖4d再次示出了輸出流的可選實施例;圖5示出了嵌入到了整個波場合成系統中的本發明概念;圖6是已知波場合成概念的示意性示例;以及
圖7是已知波場合成概念的另一示例。
具體實施方式
圖1示出了利用音頻對象控制波場合成呈現裝置的設備,從而波 場合成呈現裝置根據音頻對象生成可由在再現室內附著的多個揚聲器 再現的合成信號。具體地,本發明的設備因而包括用于提供場景描述 的裝置8,其中,場景描述定義了音頻場景內音頻對象的時間序列, 以及音頻對象包括與虛擬源的源位置有關的信息、或者指向虛擬源的 音頻文件的虛擬源或參考信息的音頻文件。將至少音頻對象的時間序列提供給用于處理來自裝置8的音頻對象的裝置0。本發明的設備還可以包括音頻文件數據庫1,通過該音頻文件數據庫1,將音頻文件提供給用于處理音頻對象的裝置0。用于處理音頻對象的裝置O特別形成用于生成可以提供給波場合 成呈現裝置3的輸出數據流2。具體地,輸出數據流包含音頻對象的 音頻文件、以及與音頻文件相關聯的與虛擬源的位置有關的信息及優 選關于虛擬源的起點和/或終點的時間信息。將附加信息(即位置信息, 也可能是時間信息)以及其它元數據寫入與相應音頻對象的音頻文件 相關聯的輸出數據流。要指出的是,波場合成呈現裝置3可以是單個模塊、或者還可以 包括與一個或多個揚聲器陣列4相連的許多不同模塊。因此,根據本發明,針對音頻場景,將具有自身屬性以及關聯音 頻數據的所有音頻源存儲在用于提供給呈現器或單個呈現模塊的單個 輸出數據流中。由于這種場景非常復雜,所以這通過用于處理音頻對 象的裝置0而有創造性地實現,裝置0與用于提供場景描述的裝置8 和音頻文件數據庫1合作,并優選形成使得其用作在存儲了音頻文件 的智能數據庫的輸出處的中心數據管理器。基于場景描述,在數據庫的幫助下進行數據的時間和空間建模。 通過相應的數據建模,保證了在時間和空間條件下音頻數據與它的輸 出的一致性。在本發明的優選實施例中,當將數據分配給呈現器時, 基于調度來檢査并確保這些條件。為了能夠利用波場合成實時再現復
雜的音頻場景、并為了能夠同時靈活地工作(即能夠將一個系統所考 慮的場景描述也轉移至另一系統),在音頻數據庫的輸出處提供處理裝置。優選地,尤其在基于硬盤的解決方案中,為了將對音頻數據的訪 問時間最小化,采用特定的數據結構。基于硬盤的解決方案具有以下優點它允許比當前利用CD或DVD可獲得的轉移速率更高的轉移 速率。接下來,參照圖2,圖2指出了音頻對象應當有利地具有的信息。 因此,音頻對象要規定音頻文件,從而使音頻文件表示虛擬源的音頻 內容。但是,音頻對象并不必包括音頻文件,而是可以具有指向在存 儲了實際音頻文件的數據庫中的所定義位置的索引。此外,音頻對象優選包括虛擬源的識別,例如,這可以是源編號 或有意義的文件名等。此外,在本發明中,音頻對象規定了虛擬源(即, 音頻文件)的開始和結束的時間間隔。如果僅規定了開始的時間間隔, 則這表示可以在該時間間隔內由呈現器來改變該文件的呈現的實際起 點。如果另外給出了結束的時間間隔,則這表示該結尾也可以在時間 間隔內改變,依據實施方式,這將共同導致音頻文件關于其長度的變 化。任何實施方式都是可能的,如音頻文件開始/結束時間的定義,從 而實際上允許起點發生平移,但在任何情況下,必須不改變長度,從 而音頻文件的結束也自動地發生平移。然而,具體地,對于噪聲,由 于典型地,例如風聲將早一些或晚一些開始、還是早一些或晚一些結 束都不成問題,所以優選使結束可變。依據實施方式,其它的規定也 是可以的和/或所期望的,如實際上允許起點改變而不允許終點改變的 規定等。優選地,音頻對象還包括用于位置的位置間隔。因此,對于特定 音頻對象,它們是來自例如左前、還是前中、還是相對于再現室中的 參考點移動了某個(小)角度都不重要。然而,如己經解釋的,還存 在再次來自噪聲區域的音頻對象,它們可以位于任何任意的位置并因而具有最大位置間隔,例如,可以通過音頻對象中的"任意"代碼或 不通過代碼(隱性)來規定。 音頻對象可以包括其它信息,如虛擬源類型的指示,即,虛擬源 必須是聲波的點源、還是必須是平面波的源、還是必須是產生任意波 陣面的源(只要呈現模塊能夠處理這種信息)。圖3示例性地示出了場景描述的示意性示例,其中,示出了各種音頻對象AOl、 ...、 AOn+l的時間序列。具體地,如圖3所示,指出 了定義了時間間隔的音頻對象A03。因此,圖3中的音頻對象A03 的起點和終點可以平移時間間隔。然而,音頻對象A03的定義是,必 須不改變長度,然而該定義對于不同音頻對象是可變的。因此,通過沿正時間方向平移音頻對象A03,可以看出,可以達 到以下的情況音頻對象A03直至音頻對象A02之后才會開始。如 果這兩個音頻對象均在相同的呈現器上播放,則可以通過該措施避免 否則將會出現的短重疊20。如果音頻對象A03已經是在現有技術中 超過呈現器容量的音頻對象,則由于在呈現器上已經要處理的所有其 它音頻對象(如音頻對象A02和AOl),所以在沒有本發明的情況下, 將會出現音頻對象A03的完全抑制,但是時間間隔20非常小。根據 本發明,通過音頻對象處理裝置3來平移音頻對象A03,從而沒有超 過容量,因而不再出現對音頻對象A03的抑制。在本發明的優選實施例中,使用具有相對指示的場景描述。因此, 通過不再以絕對時間點給出、而是以相對于音頻對象A01的相對時間 段來給出音頻對象A02的開始,增加了靈活性。因此,位置指示的相 對描述是優選的,即,不是要在再現室內的特定位置xy處設置音頻對 象的事實,而是例如,將另一音頻對象或參考對象偏移一矢量。從而,可以非常有效地提供時間間隔信息和/或位置間隔信息,即 簡單地通過固定時間間隔,從而音頻對象A03可以在音頻對象AOl 開始之后的兩分鐘與兩分鐘二十秒之間的時間段內開始。這種空間和時間條件的相對定義導致了如在例如"Modeling Output Constraints in Multimedia Database Systems", T. Heimrich, 1th International Multimedia Modelling Conference, IEEE, 2005年1月2日 至2005年1月14日,Melbourne中所描述的約束條件(constrain)形 式的數據庫有效表達。這里,示出了數據庫系統中約束條件的使用,
以定義連續的數據庫狀態。具體地,使用Allen關系來描述時間約束 條件,并使用空間關系來描述空間約束條件。由此,可以針對同步目 的來定義有利的輸出約束條件。這種輸出約束條件包括對象之間的時 間或空間條件,在違反約束條件的情況下的反應、以及在必須檢查這 種約束條件時的檢查時間。在本發明的優選實施例中,相對于彼此,對每個場景的空間/時間 輸出對象進行建模。音頻對象處理裝置實現了這些相對和可變定義至 絕對空間和時間順序的轉譯。該順序表示在圖1中示出的系統的輸出 6a處獲得的、并定義了如何對波場合成系統中的呈現模塊進行特別尋 址的輸出調度。因此,該調度是在與輸出條件相對應的音頻數據中設 置的輸出計劃。接下來,基于圖4a,將會提出這種輸出調度的優選實施例。具體 地,圖4a示出了根據圖4a從左至右傳輸的數據流,B卩,從圖1的音 頻對象處理裝置3傳輸至圖1的波場系統0的一個或多個波場合成呈 現器的數據流。具體地,對于在圖4a中示出的實施例中的每個音頻對 象,數據流包括首先是位置信息和時間信息所在的報頭H,以及特 定音頻對象的下游音頻文件,在圖4a中,以A01指示第一音頻對象, A02指示第二音頻對象等。然后,波場合成呈現器獲得數據流,并根據例如出現并一致同意 的同步信息,識別出報頭的到來。然后,基于另一同步信息,呈現器 識別出報頭結束。可選地,對于每個報頭,可以同意以比特為單位的 固定長度。在接收了報頭之后,圖4a中示出的本發明的優選實施例中的音 頻呈現器自動得知后續音頻文件(即,AOl)屬于音頻對象(即,在 報頭中識別的源位置)。圖4a示出了串行數據至波場合成呈現器的傳輸。當然,同時在 呈現器中播放多個音頻對象。為此,呈現器在數據流讀取裝置之后需 要輸入緩沖器,以對數據流進行解析。然后,數據流讀取裝置將解譯 報頭并相應地存儲伴隨的音頻文件,從而當要呈現音頻對象時,呈現 器從輸入緩沖器中讀取正確的音頻文件和正確的源位置。當然,也可
以是用于數據流的其它數據。還可以使用時間/位置信息和實際音頻數 據的單獨傳輸。然而,由于通過位置/時間信息與音頻文件的串聯而消 除了數據一致性問題,由于總是確保了呈現器還具有音頻數據的正確 源位置、并不呈現例如先前源的音頻文件、而是使用新源的位置信息來呈現,所以在圖4a中示出的組合傳輸是優選的。盡管圖4a示出了串聯形成的數據流,并在其中關聯報頭在每個 音頻對象的每個音頻文件之前(如音頻文件AOl的報頭H1),但是為 了將音頻對象1傳送至呈現器,圖4b示出了在其中選擇了多個音頻對 象的公共報頭的數據結構,每個音頻對象的公共報頭具有自己的條目, 再次由Hl、 H2和H3來指示音頻對象AOl、 A02和A03的音頻文件 的報頭。圖4c再次示出了可選的數據結構,其中,將報頭放置在相應的 音頻對象的下游。該數據格式還考慮到了音頻文件與報頭之間的時間 關聯,這是由于呈現器中的解析器總是能夠基于例如特定比特圖案或 其它同步信息來發現報頭的開始。然而,僅在呈現器具有足夠大的輸 入緩沖器,S卩,能夠在關聯報頭到來之前存儲整個音頻文件的情況下, 圖4c中的實施方式才是可行的。為此,圖4a或4b中的實施方式是優 選的。圖4d再次示出了可選實施例,其中,例如,數據流通過調制方 法而包括多個并行傳輸信道。優選地,對于每個數據流,即對于從數 據處理裝置至呈現器的每個數據傳輸,提供了與可以由呈現器呈現的 音頻源一樣多的傳輸信道。例如,如果呈現器可以呈現最多32個音頻 源,則在本實施例中提供具有至少32個信道的傳輸信道。這些信道可 以通過任何已知的FDMA、 CDMA或TDMA技術來實現。還可以使 用并行物理信道的提供。在這種情況下,并行地,即利用最少量的輸 入緩沖器,來饋入呈現器。作為替代,呈現器經由輸入信道接收例如 音頻源的報頭(即音頻源AOl的報頭H1),以在第一數據到達之后立 即開始呈現。由于以在呈現器中不具有或僅具有極少的"中間存儲器" 的方式來處理數據,所以通常當然可以以更加密集的調制技術或更加 密集的傳輸路徑為代價來實現具有極低存儲器需求的呈現器。 因此,本發明基于面向對象的方式,即將單獨的虛擬源理解為特 征在于音頻對象和空間中虛擬位置、以及可能的源類型(即,它是聲 波的點源、還是平面波的源、還是其它形狀的源)的對象。如已經提出的,波場的計算是計算時間密集的,并且需要所使用 的硬件(如聲卡和計算機)能力與計算算法的效率結合。在要同時表 示多個所要求的聲音事件時,甚至基于最佳配置的PC的解決方案也 會在波場合成計算過程中迅速到達它的界限。因此,在混頻和再現過 程中,所使用的軟件和硬件的能力限制給出了相對于虛擬源個數的限 制。圖6示出了能力受限的已知波場合成概念,包括創作工具60、控 制呈現模塊62和音頻服務器64,其中,控制呈現模塊形成用于向揚 聲器陣列66提供數據,從而揚聲器陣列66通過各個揚聲器70的各個 波的疊加來產生所期望的波陣面68。創作工具60使用戶能夠創建并 編輯場景,并控制基于波場合成的系統。因此,場景包括與各個虛擬 音頻源有關的信息和音頻數據。將音頻源的屬性和對音頻數據的引用 存儲在XML場景文件中。音頻數據本身被提交到音頻服務器64上, 并從此處被傳輸至呈現模塊。同時,呈現模塊從創作工具中獲得控制 數據,從而以集中化方式具體化的控制呈現模塊62可以產生用于各個 揚聲器的合成信號。圖6中示出的概念在"Authoring System for Wave Field Synthesis" , F. Melchior, T. R6der, S. Brix, S. Wabnik and C. Riegel, AES Convention Paper, 115th AES convention, 2003年10月10日,紐約 中有所描述。如果波場合成系統利用多個呈現器模塊進行操作,則向每個呈現 器提供相同的音頻數據,無論呈現器是否由于與之關聯的有限個數的 揚聲器而需要該數據用于再現。由于當前計算機中的每個能夠計算32 個音頻源,所以這表示對于系統的限制。另一方面,要以有效的方式 顯著增加可以在整個系統中呈現的源的個數。這是復雜應用(如電影)、 具有融入式氛圍的場景(如雨或歡呼)、或者其它復雜音頻場景的實質 性先決條件之一。根據本發明,在波場合成多呈現器系統中實現了冗余數據傳輸過
程和數據處理過程的減少,這導致了計算能力和/或同時可計算的音頻 源個數的增加。為了減小對多呈現器系統的各個呈現器的音頻和元數據的冗余 傳輸和處理,通過數據輸出裝置擴展音頻服務器,這能夠確定哪個呈 現器需要哪些音頻和元數據。在優選實施例中,可能由數據管理器來進行幫助的數據輸出裝置 需要多條信息。該信息首先是音頻數據,然后是源的時間和位置數據, 最后是呈現器的配置,即與所連接的揚聲器和它們的位置、以及它們 的容量有關的信息。在數據管理技術和輸出條件的定義的幫助下,利 用音頻對象的時間和空間設置,通過數據輸出裝置來產生輸出調度。 根據空間設置、時間調度和呈現器配置,數據管理模塊計算在特定時 刻哪個源與哪個呈現器相關。圖5中示出了優選的整體概念。通過輸出側上的數據輸出裝置24 來補充數據庫22,其中,也將數據輸出裝置稱為調度器。然后,該調 度器在輸出20a、20b、20c處生成用于各種呈現器50的呈現輸入信號, 從而提供給揚聲器陣列的相應揚聲器。優選地,為了通過RAID系統和相應的數據結構缺省值來配置數 據庫42,由存儲管理器52來幫助調度器24。在輸入側,存在數據生成器54,例如,可以是用于以面向對象方 式建模或描述的音頻場景的音響大師或音頻工程師。這里,給出了包 括相應輸出條件56的場景描述,如果必要,在變形58之后,將這些 輸出條件與音頻數據一起共同存儲在數據庫22中。可以通過插入/更 新工具59來處理和更新音頻數據。依據條件,可以以硬件或軟件來實現本發明的方法。可以在數字 存儲介質、尤其是軟盤或CD上,利用能夠與可編程計算機系統合作 的電可讀控制信號來實現,從而執行本發明的方法。通常,本發明還 包括一種計算機程序產品,具有存儲在機器可讀載體上的程序代碼, 當在計算機上執行計算機產品時,用于執行本方法。換言之,本發明 還可以實現為一種具有程序代碼的計算機程序,當在計算機上執行計 算機程序時,用于執行本方法。
權利要求
1、一種設備,用于利用音頻對象來控制波場合成呈現裝置(3),從而波場合成呈現裝置根據音頻對象,生成可由在再現室中附著的多個揚聲器(4)再現的合成信號,所述設備包括提供裝置(8),用于提供場景描述,所述場景描述在音頻場景中定義了音頻對象的時間序列,音頻對象包括與虛擬源的源位置有關的信息、以及用于虛擬源的音頻文件、或者指向虛擬源的音頻文件的參考信息;以及處理裝置(0),用于處理音頻對象,以生成能夠饋入波場合成呈現裝置(3)的輸出數據流,所述輸出數據流包括音頻對象的音頻文件、以及與音頻文件相關聯且與音頻對象的虛擬源的位置有關的信息。
2、 如權利要求l所述的設備,其中,場景描述中的音頻對象所 指向的、或者包含在場景描述中的音頻對象的音頻文件是壓縮音頻文 件,以及處理裝置(0)形成用于生成輸出數據流(2),以使音頻文件包 括解壓縮音頻數據。
3、 如權利要求1或2所述的設備,其中,波場合成呈現裝置(3) 包括所有揚聲器都能夠與之連接的單個呈現模塊,并且處理裝置(0) 形成用于生成數據流,在所述數據流中,包含了與虛擬源的位置以及 要由呈現模塊處理的所有數據的音頻文件有關的信息,或者波場合成呈現裝置包括能夠與不同揚聲器連接的多個呈現模塊, 并且處理裝置(0)形成用于針對每個呈現模塊來生成輸出數據流,在 所述輸出數據流中,包含了與虛擬源的位置以及要由提供有輸出數據 流的一個呈現模塊呈現的音頻對象的音頻數據有關的信息。
4、 如前述權利要求之一所述的設備,其中,處理裝置(0)形成 用于生成輸出數據流,以使包含虛擬源的位置信息的報頭(H)在虛 擬源的音頻文件之前,使得波場合成呈現裝置(3)能夠基于關于音頻 文件的報頭的時間位置,來確定要利用報頭中的位置信息來呈現音頻 文件。
5、 如權利要求1至3之一所述的設備,其中,處理裝置(0)形 成用于以生成輸出數據流,以便生成用于多個音頻文件的公共報頭, 對于每個音頻文件,所述公共報頭包括標識了每個虛擬源的位置信息、 以及還指示了將虛擬源的音頻文件設置在數據流中的何處的條目。
6、 如權利要求1至4之一所述的設備,其中,處理裝置(0)形成用于將報頭設置在數據流中的固定缺省、絕對或相對位置處。
7、 如前述權利要求之一所述的設備,其中,在處理裝置(0)和 波場合成呈現裝置之間,能夠使用與多個傳輸信道結合的并行數據, 其中,處理裝置(0)形成用于將在時間上以并行方式出現的音頻對象 分布至并行傳輸信道,其中,處理裝置(0)還形成用于使得傳輸信道 獲得了音頻文件和音頻文件與之相關聯的虛擬源的位置有關的信息。
8、 如前述權利要求之一所述的設備,其中,處理裝置(0)還形 成用于由于場景描述而獲得與開始時刻或結束時刻有關的信息,并將 該信息引入與音頻文件相關聯的輸出數據流。
9、 如前述權利要求之一所述的設備,其中,提供裝置(8)形成用于將具有音頻對象的相對時間信息或位置 信息的場景描述提供給另一音頻對象或參考音頻對象,以及處理裝置(0)形成用于根據相對時間信息或相對位置信息,來 計算再現室中虛擬源的絕對位置、或者實際開始時刻或實際結束時刻, 并將它們引入與音頻文件相關聯的輸出數據流。
10、如前述權利要求之一所述的設備,其中,提供裝置(8)包括存儲了音頻對象的音頻文件的數據庫(1),以及處理裝置(0)形成為數據庫輸出部署裝置。
11、 一種方法,用于利用音頻對象來控制波場合成呈現裝置(3), 從而波場合成呈現裝置根據音頻對象,生成可由在再現室中附著的多 個揚聲器(4)再現的合成信號,所述方法包括提供(8)場景描述,所述場景描述在音頻場景中定義了音頻對 象的時間序列,以及音頻對象包括與虛擬源的源位置、以及用于虛擬 源的音頻文件有關的信息、或者指向虛擬源的音頻文件的參考信息;以及處理(0)音頻對象,以生成能夠饋入波場合成呈現裝置(3)的 輸出數據流,所述輸出數據流包括音頻對象的音頻文件、以及與音頻 文件相關聯且與音頻對象的虛擬源的位置有關的信息。
12、 一種具有程序代碼的計算機程序,當在計算機上執行計算機 程序時,用于執行如權利要求11所述的方法。
全文摘要
一種利用音頻對象來控制波場合成呈現裝置(3)的設備,包括提供場景描述的提供裝置(8),其中,場景描述定義了音頻場景中的音頻對象的時間序列,還包括與虛擬源的源位置以及虛擬源的開始和結束有關的信息。此外,音頻對象包含對與虛擬源相關聯的音頻文件的至少一個引用。通過處理裝置(0)來處理音頻對象,以針對每個呈現模塊(3)生成單個輸出數據流,其中,與虛擬源的位置有關的信息和音頻文件自身均相互關聯地包含在該輸出數據流中。據此,一方面獲得了高的可移植性,另一方面獲得了由于確保數據一致性而產生的高質量。
文檔編號H04S3/00GK101129089SQ200680005932
公開日2008年2月20日 申請日期2006年2月16日 優先權日2005年2月23日
發明者加布里埃爾·加茨舍, 卡特里·賴歇爾特, 桑德拉·布里克斯 申請人:弗勞恩霍夫應用研究促進協會