用于產生、存儲或加工音頻場景的音頻表示的設備和方法

文檔序號：7607973閱讀：258來源：國知局

專利名稱：用于產生、存儲或加工音頻場景的音頻表示的設備和方法
技術領域：
本發明涉及波場合成領域，尤其涉及用于產生、存儲或加工音頻場景的音頻表示的設備和方法。
背景技術：
在娛樂電子領域中越來越需要新技術和創新產品。新的多媒體系統成功的一個重要先決條件就是提供最佳的功能或性能。這通過使用數字技術，尤其是使用計算機技術而獲得。一個例子就是提供增強的逼真視聽印象的應用。在以前的音頻系統中，主要的缺點在于自然以及虛擬環境的空間聲音再現的質量。
音頻信號的多信道揚聲器再現的方法已經眾所周知并且已經被標準化很多年了。所有常用技術的缺點在于揚聲器的安裝位置和聽眾的位置已經印記在傳輸格式中。如果相對于聽眾，揚聲器的排列是錯誤的，那么音頻質量就非常差。最佳聲響僅僅在再現空間的小區域中是可能的，即所謂的最佳聽音位置(sweet spot)。
借助新技術可以在音頻再現中實現更好的自然立體感和更好的包圍。該技術的原理，即所謂的波場合成(WFS)，已經被TU Delft研究，并在80年代末首次出現(Berkout，A.J.；de Vries，D.；Vogel，P.；Acoustic control by Wave-field Synthesis.JASA 93，993)。
因為該方法需要強大的計算機性能和傳輸速率，所以波場合成至今還很少用于實踐中。如今，只有微處理器技術和音頻編碼領域的發展才能允許在具體應用中使用該技術。在專業領域中的首個產品預計明年出現。用于消費領域的首個波場合成應用也應該在幾年后進入市場。
WFS的基本思想基于波動理論的惠更斯(Huygens)原理的應用。
波所捕捉的每個點是以球或圓形方式傳播的元波的起點。
應用于聲學，每個任意形狀的輸入波陣面可以被大量相鄰設置的揚聲器(所謂的揚聲器陣列)復制。在最簡單的情況中，要被再現的單個點源和線性排列的揚聲器，每個揚聲器的音頻信號必須被以一定時延和振幅定標被饋送，使得各個揚聲器的輻射聲場能夠正確地重疊。在多個聲源時，為每個源分別計算對每個揚聲器的值，并將所得到的信號相加。如果要被再現的源位于具有反射墻的空間內，那么作為附加源的反射也必須通過揚聲器陣列被再現。因此，計算開銷非常依賴于聲源的數量、錄音房的反射屬性以及揚聲器的數量。
更具體而言，該技術的優點在于在再現空間的大區域上可以實現自然的立體聲音感。與已知技術相比，聲源的方向和距離被非常精確地再現。在受限的程度內，虛擬聲源甚至可以位于真實的揚聲器陣列和聽眾之間。
雖然波場合成對于屬性已知的環境來說起很好的作用，但是如果屬性改變或者如果基于與環境的實際屬性不一致的環境屬性而執行波場合成，就不再有規律。
然而，同樣可以有利地使用波場合成技術，以為視覺補充相應的立體聽覺。以前，在虛擬工作室的產品中，虛擬場景的可信視覺的傳輸是重要的。與圖像匹配的聽覺通常事后在所謂的后期制作中通過手動步驟印記在音頻信號上，或者在現實中被歸為昂貴和耗時的并因此被省略。因此，通常出現單獨感覺的矛盾，其導致了設計的空間-即設計的場景-感覺不那么真實。
通常，音頻材料-例如電影的音頻材料-包括多個音頻對象。其中，音頻對象是電影背景(Film-Setting)中的聲源。如果例如在一個電影場景中，兩個人面對面站著講話，同時例如騎馬者和火車靠近，那么在某段時間內該場景中共存在四個聲源，即兩個人、靠近的騎馬人、和駛來的火車。假設對話中的兩個人同時不講話，那么如果在一個時刻，兩個人正好是沉默的，則總是至少兩個音頻對象，即騎馬者和火車，應該是活動的。但是如果一個人在另一個時刻講話了，那么就有3個音頻對象是活動的，即騎馬者、火車和這個人。如果這兩個人實際上同時講話，那么在這個時刻就有4個音頻對象是活動的，即騎馬者、火車、第一個人和第二個人。
一般來講，音頻對象這樣表示，使得該音頻對象描述電影背景中的一個聲源，其在某個時刻是活動的或者是“活的”。這表示，音頻對象還由開始時刻和結束時刻來特征化。在前一個例子中，騎馬者和火車例如在整個背景過程中都是活動的。當兩個靠近時，聽眾將感覺到騎馬者的聲音以及火車的聲音越來越大，并且在可能的情況下-在最佳波場合成背景中-這些聲源的位置也相應地改變。另一方面，正在對話的兩個人不斷地產生新的音頻對象，因為總是當一個說話者停止說話時，當前的音頻對象結束，而當另一個說話者開始說話時，新的音頻對象開始，當該另一個說話者停止說話時，這個音頻對象又結束，其中當第一說話者再一次開始說話時，新的音頻對象再一次開始。
現有的波場合成播放設備能夠從一定數量的輸入信道中產生一定量的揚聲器信號，即知道波場合成揚聲器陣列中揚聲器的各個位置。
波場合成播放器某種程度上是波場合成系統的“心臟”，其為揚聲器陣列的多個揚聲器計算出振幅和相位正確的揚聲器信號，使得用戶不僅具有最佳視覺還具有最佳聽覺。
自從60年代末在電影中引入多信道音頻，讓聽眾覺得他們真正處于場景中是錄音師們一直的目標。為再現系統引入環繞信道又是一個里程碑。新的數字系統出現在90年代，其使得音頻信道的數量有所增加。如今，5.1或7.1系統是電影再現的標準系統。
這些系統已經證明在許多情況下作為創造性地支持電影感覺的好潛力，并為音效、氣氛或混合環繞音樂提供好的可能性。另一方面，波場合成技術如此靈活，使得在這個方面提供最大自由度。
但是，5.1或7.1系統的使用已經產生了多種處理電影聲軌的混合的“標準化”方法。
再現系統通常具有固定的揚聲器位置，諸如在5.1的情況中，左信道(“左”)、中間信道(“中央”)、右信道(“右”)、環繞左信道(“環繞左”)、和環繞右信道(“環繞右”)。作為這些固定的(幾個)位置的結果，錄音師所追求的理想聲音圖像被限制到少量的座位上，即所謂的最佳聽音位置。在上述5.1位置之間使用假想源盡管在特定情況下確實得到改善，但并不總獲得滿意的結果。
電影的聲音通常包括對話、音效、氣氛和音樂。在考慮到5.1和7.1系統的限制的情況下，這些元素的每一個被混合。典型地，對話被混合在中央信道中(在7.1系統中也混合到半左位置和半右位置)。這說明，當演員在屏幕上運動時，聲音并沒有跟隨。如果他們很快運動，則只能實現運動聲音對象效果，使得聽眾不能識別聲音何時從一個說話者過渡到另一個說話者。
因為在前面揚聲器和環繞揚聲器之間存在大的可聽見的間隙，所以側面源同樣不能被定位，使得對象不能從后向前或者從前向后緩慢移動。
此外，環繞揚聲器被放置于擴散的揚聲器陣列中，因此產生對于聽眾表示一種包圍的聲音圖像。因此，避免聽眾后面的精確定位的聲源，以便避免伴隨著該精確定位聲源的不舒服的聲干涉場。
作為用于構建聽眾所感覺的聲場的完全新的方式方法的波場合成克服了這些主要的缺點。影院應用的結果就是可以獲得精確的聲音圖像，而沒有關于對象的2維定位的限制。這在為影院目的而設計和混合聲音方面提供了多種可能性。由于通過波場合成技術所實現的完全聲音圖像再現，所以現在聲源可以被自由地定位。此外，聲源可以作為聚焦源放置在聽眾空間內，也可以放置在聽眾空間之外。
此外，可以通過使用點形輻射源或者平面波產生穩定的聲源方向和穩定的聲源位置。最后，聲源可以在聽眾空間之內、之外、或跨越內外自由地運動。
這導致巨大的創造性可能性的潛力，也導致精確地根據屏幕上的圖像-例如對于整個對話-放置聲源。由此，聽眾確實可以不僅在視覺上而且在聲音上融入電影中。
由于歷史的情況，聲音設計-即錄音師的行為-基于信道或軌道范例。這意味著，編碼格式或揚聲器數量-即5.1系統或7.1系統-確定再現配置。尤其地，特定聲音系統還需要特定編碼格式。因此，不可能在不重新執行完全混合的情況下進行關于主文件的任何變化。例如，不能在最終的主文件中選擇性地改變對話軌道，即改變一個對話軌道而不改變該場景中的所有其他聲音。
另一方面，觀眾/聽眾對于信道無所謂。他們不關心聲音從哪個聲音系統產生、原始聲音記載是以面向對象的方式呈現還是以面向信道的方式呈現的等等。聽眾也不關心音頻背景是否以及如何混合。對于聽眾而言重要的是聽覺，即他們是否喜歡電影的音頻背景、或者不帶有影片的音頻背景。
另一方面，重要的是讓應該以新概念工作的人接收新概念。錄音師負責混音。由于面向信道的范例，錄音師被“校準”以便以面向信道的方式工作。例如對于具有5.1聲音系統的影院，他們的目的就是混合6個信道。其中，他們使用例如在虛擬工作室中所記錄的音頻信號，并混合最終的例如5.1或7.1揚聲器信號。這不涉及音頻對象，而是涉及面向信道。因此，在這種情況下，音頻對象通常沒有開始時刻或者沒有結束時刻。相反，揚聲器的信號從影片的第一秒開始活動，直到影片的最后一秒。這是因為，經由典型影院聲音系統的(幾個)揚聲器中的一個，總是產生一些聲音，因為總是存在經由特定揚聲器輻射的聲源，即使其僅僅是背景音樂。
因此，按如下方式使用現有波場合成播放單元，即其以面向信道的方式工作，其也具有一定數量的輸入信道，當音頻信號連同相應的信息被輸入到輸入信道時，就從輸入信道產生波場合成揚聲器陣列的各個揚聲器或者揚聲器組的揚聲器信號。
另一方面，波場合成技術使得音頻場景基本上“更透明”，即原則上可以存在無限多數量的音頻對象通過影片被觀察-即通過音頻場景被觀察。如果音頻場景中音頻對象的數量超過音頻處理設備的輸入信道的通常總是預先給定的最大值，則面向信道的波場合成播放設備可能出問題。此外，對于用戶，即對于例如產生音頻場景的音頻表示的錄音師，大量在某些時刻存在而在其他時刻又不存在的、即具有定義的開始和定義的結束時刻的音頻對象將是紛亂的，這又可能導致在錄音師和波場合成之間構建心理閾值，該閾值應該正好給錄音師帶來顯著的創造性潛力。

發明內容
本發明的目的是提供一種用于產生、存儲或加工音頻場景的音頻表示的概念，其在用戶方面具有高的贊同度，還為其考慮相應的工具。
該目的通過如權利要求1所述的用于產生、存儲或加工音頻場景的音頻再現的設備、如權利要求15所述的用于產生、存儲或加工音頻場景的音頻再現的方法，或如權利要求16所述的計算機程序來實現。
本發明基于這樣的知識對于音頻對象，如他們在典型電影背景中出現那樣，只有面向對象的記載可以以清楚、有效的方式被處理。帶有具有音頻信號、并且定義的開始和定義的結束時刻與其相對應的對象的音頻場景的面向對象的記載對應于其中很少發生聲音從頭到尾都存在的、真實世界的典型環境。相反，例如在對話中，通常是一個對話方開始講話和停止講話，或者聲音通常具有開始和結束。就這點來說，用于將獨立的對象對應于真實生活的每個聲源的面向對象的音頻場景記載與自然環境匹配，因此在透明度、清楚度、效果和可懂度方面是最優的。
另一方面，由于信道范例，例如希望從音頻場景中產生音頻表示-即希望涉及他們的創造潛力-以便在影院中在考慮特定音效的情況下盡可能“合成”音頻場景的音頻表示的錄音師習慣以硬件或軟件實現的混音臺工作，其是面向信道工作方法的結果轉化。在硬件或軟件實現的混音臺中，每個信道具有調節器、按鈕等等，通過其可以操縱-即“混合”-該信道中的音頻信號。
根據本發明，通過使用映射設備以將音頻場景的面向對象的記載映射到音頻處理設備-例如波場合成播放單元-的多個輸入信道上，從而實現了在正確對待生活的面向對象的音頻表示和正確對待錄音師的面向信道的表示之間的平衡。根據本發明，映射設備被構造，以便將第一音頻對象分配給一個輸入信道，并將開始時刻位于第一音頻對象的結束時刻之后的第二音頻對象分配給同一輸入信道，將開始時刻位于第一音頻對象的開始時刻之后并位于第一時間對象的結束時刻之前的第三音頻對象分配給多個輸入信道中的另一輸入信道。
這種將同時發生的音頻對象分配給波場合成播放單元的不同輸入信道、但是將依次發生的聲音對象分配給相同輸入信道的時間分配已經證明非常有效率。這意味著，平均起來，波場合成播放單元的相對少量的輸入信道被占用，這一方面是為了清楚的目的，另一方面是迎合總是計算消耗大的波場合成播放單元的計算效率。由于平均起來相對少量的同時被占用信道，因此用戶-例如錄音師-能夠快速地瀏覽某時刻的音頻場景的復雜性，而不需要從大量輸入信道中查找哪些對象正好是活動的或者哪些對象正好不是活動的。另一方面，用戶可以沒有困難地通過其習慣的信道調節器來如面向對象的表示中那樣操作音頻對象。
根據期望，這將通過以下方式提高根據本發明的概念的接受度，即為具有根據本發明的概念的用戶提供熟悉的工作環境，但是這個工作環境包含不一樣的更高的創新潛力。根據本發明的概念基于將面向對象的音頻途徑映射到面向信道的播放途徑，因此其勝任所有要求。一方面，音頻場景的面向對象的記載-如其已經被執行的那樣，最適合自然，因此是有效的并且是清楚的。另一方面，還考慮用戶的習慣和需求，如下技術取決于用戶，而不是相反。

以下將參考附圖更詳細的描述本發明的優選實施例，其中圖1是根據本發明的用于產生音頻表示的設備的電路框圖；圖2是用于圖1所示概念的用戶接口的示意圖；圖3a是根據本發明一個實施例的圖2的用戶接口的示意圖；圖3b是根據本發明另一實施例的圖2的用戶接口的示意圖；
圖4是根據優選實施例的本發明設備的電路框圖；圖5是具有各種不同音頻對象的音頻場景的時間示圖；圖6是根據本發明的用于圖5所示的音頻場景的在對象和信道之間1:1轉換和對象信道分配的比較。
具體實施例方式
圖1表示根據本發明的用于產生音頻場景的音頻表示的設備的電路框圖。根據本發明的設備包括用于提供音頻場景的面向對象的記載的裝置10，其中音頻場景的面向對象的記載包括多個音頻對象，其中一個音頻對象與至少一個音頻信號、開始時刻和結束時刻相關聯。根據本發明的設備還包括音頻處理裝置12，用于產生多個揚聲器信號LSi 14，其中音頻處理裝置12是面向信道的，并且從多個輸入信道EKi中產生多個揚聲器信號14。在提供裝置10和面向對象的音頻信號處理裝置之間設置映射裝置18，用于將音頻場景的面向對象的記載映射到面向信道的音頻信號處理裝置12的多個輸入信道16上，其中音頻信號處理裝置例如被構造為WFS播放單元，映射裝置18被構造以便將第一音頻對象分配給一個輸入信道-諸如EK1，并將開始時刻位于第一音頻對象的結束時刻之后的第二音頻對象分配給同一輸入信道-諸如EK1，并將開始時刻位于第一音頻對象的開始時刻之后并位于第一音頻對象的結束時刻之前的第三音頻對象分配給多個輸入信道中另一輸入信道-諸如EK2。映射裝置18因此被被構造以便將時間上不重疊的音頻對象分配給同一輸入信道，并且將時間上重疊的音頻對象分配給不同的并行輸入信道。
在一個優選實施例-其中面向信道的音頻信號處理裝置12包括波場合成播放單元-中，音頻對象也被這樣指定，使得他們與虛擬位置相關聯。對象的虛擬位置可以在對象的生存期內改變，這對應于一種情況，在該情況中，例如騎馬者接近屏幕正中央，使得騎馬者的飛馳聲變得越來越大，尤其是越來越靠近收聽空間。在該情況中，音頻對象不僅僅包括與該音頻對象相關聯的音頻信號、開始時刻和結束時刻，還包括可以隨著時間變化的虛擬聲源的位置，在可能的情況下還包括音頻對象的其他屬性，諸如其是否應具有點源屬性或者是否應發射平面波，這將對應于距離觀眾有限遠的虛擬點。技術上，聲源-即音頻對象-的更多屬性是已知的，其可以根據圖1的面向信道的音頻信號處理裝置12的裝備來考慮。
根據本發明，設備的結構被分層構造，如下用于接收音頻對象的面向信道的音頻信號處理裝置不直接與提供裝置組合，而是經由映射裝置與其組合。這導致了這樣的事實，即整個音頻場景僅僅在提供裝置中應該是已知的和被存儲，但是映射裝置、甚至面向信道的音頻信號處理裝置必須知道整個音頻背景。相反，映射裝置18和音頻信號處理裝置12在由提供裝置10所提供的音頻場景指令下工作。
在本發明一個優選實施例中，圖1所表示的裝置還配備有用戶接口，如圖2中20所示。用戶接口20被構造以便每個輸入信道具有一個用戶接口信道，以及優選地具有用于每個用戶接口信道的操縱器。用戶接口20通過其用戶接口輸入22連接到映射裝置18，以便從映射裝置獲得分配信息，因為輸入信道EK1至EKm的占用是由接口20顯示的。在輸出側，當用戶接口具有用于每個用戶接口信道的操縱器特征時，用戶接口20被連接到提供裝置10。特別地，用戶接口20被構造以便通過其用戶接口輸出24為提供裝置10提供關于原始版本的被操縱的音頻對象，提供裝置10由此獲得被改變的音頻場景，被改變的音頻場景隨后再一次被提供給映射裝置18以及-相應地分到輸入信道-提供給面向信道的音頻信號處理裝置12。
根據實現，用戶接口20被構造為如圖3a所示的用戶接口，即總是僅僅顯示當前對象的用戶接口。可選地，用戶接口20被配置，以便如圖3b那樣構建，即使得總是顯示輸入信道中的所有對象。圖3a和圖3b中，顯示了時基線(Zeitlinie)30，其按時間順序包括對象A、B、C，其中對象A包括開始時刻31a和結束時刻31b。在圖3a中，偶然地，第一對象A的結束時刻31b與第二對象B的開始時刻相同，第二對象B的結束時刻為32b，該結束時刻又偶然地與第三對象C開始時刻相同，而第三對象C具有結束時間33b。開始時刻32a和33b對應于結束時刻31b和32b，而為了清楚的目的在圖3a和3b中并沒有顯示。
在圖3a表示的模式-其中只有當前對象被顯示為用于接口信道-中，混音臺信道符號34被顯示在圖3a的右邊，其包括滑動頭(Schieber)35和固定格式的(stilisiert)按鈕36，通過它們可以改變對象B的音頻信號屬性或虛擬位置等。只要在圖3中37所表示的時間標記到達對象B的結束時刻32b，那么固定格式的信道圖示34將不顯示對象B，而顯示對象C。例如當對象D與對象B同時發生時，圖3a中的用戶接口將顯示多一個信道，諸如輸入信道i+1。圖3a顯示的圖示為錄音師提供了關于一個時刻點上并行音頻對象數量的簡單概述，即被顯示的活動信道的數量。在圖3a中所示的圖2的用戶接口20的實施例中不顯示非活動輸入信道。
在圖3b中所示的實施例-其中一個輸入信道中的所有對象被并排顯示-中，也不顯示未占用的輸入信道。然而，以先后順序在時間上被分配的信道所屬于的輸入信道i被顯示3次，即一次作為對象信道A，另一次作為對象信道B，再一次作為對象信道C。根據本發明，優選的是，例如彩色或高亮地突出信道-諸如對象B的輸入信道i(在圖3b中為參考符號38)，以便一方面讓錄音師清楚地看到哪個對象正在相關信道i上被饋送，以及哪些對象例如更早或更晚地在該信道上運行，使得錄音師已經可以有遠見地經由相應的軟件或硬件調節器通過該信道調節器或信道開關提前操縱一個對象的音頻信號。因此，圖2的用戶接口20并且尤其是圖3a和圖3b的實施例被構造，以便根據對于“占用”面向信道的音頻信號處理裝置的輸入信道的希望來提供可視的表示，其由映射裝置18產生。
隨后，參考圖5，給出圖1的映射裝置18的功能簡單實例。圖5顯示了具有各種音頻對象A、B、C、D、E、F和G的音頻場景。可以看出，對象A、B、C和D在時間上重疊。換句話說，這些對象A、B、C和D在某時刻50上都是活動的。相反，對象E與對象A、B不重疊。對象E只與對象C和D重疊，如可以在時刻52處看到。此外例如，可以在時刻54看出對象F和對象D重疊。對象F和G同樣如此，其例如在時刻56處重疊，而對象G不與對象A、B、C、D和E重疊。
一個簡單的并且在許多方面不利的通道調度(Kanalzuordnung)在于，在圖5所示的實例中，將每個音頻對象分配給一個輸入信道，使得獲得圖6中表格左邊的1:1變換。這種概念的缺點在于，需要許多輸入信道，或者當存在許多音頻對象-這在影片中很常見-時，波場合成播放單元的輸入信道的數量將限制在實際電影背景中的可處理虛擬聲源的數量，這當然是不希望的，因為技術限制不應該妨礙創造潛力。另一方面，1:1變換非常不清楚，因為有時通常每個輸入信道獲得一個音頻對象，但是如果考慮特定音頻場景，則通常相對少的輸入信道是活動的，但用戶可能并不容易判斷這一點，因為他總是必須瀏覽所有的音頻通道。
此外，音頻對象和音頻處理裝置的輸入信道的1:1分配產生這樣的事實，即為了盡可能少或不存在對音頻對象數量的限制，必須提供具有非常多輸入信道的音頻處理裝置，這導致直接提高音頻處理裝置的計算復雜性、所需的計算能量和所需的存儲容量，以便計算各個揚聲器信號，這直接導致該系統價格更高。
圖5所示實例的根據本發明的分配對象-信道，如通過根據本發明的映射裝置18所實現的那樣，顯示在圖6的表格的右邊。因此，并行的音頻對象A，B，C和D被相繼分配到輸入信道EK1，EK2，EK3或EK4。但是對象E不再必如圖6左半部分那樣被分配到輸入信道EK5，而可以被分配到空閑信道-諸如輸入信道EK1，或如括號里建議的那樣被分配到輸入信道EK2。對象F也是如此，其原則上可以被分配到除了輸入信道EK4之外的所有信道。對象G同樣如此，其也可以被分配到除了對象F之前已經被分配的那個信道(在該例子中是輸入信道EK1)之外的所有信道。
在本發明的一個優選實施例中，映射裝置18被構造，以便總是占用盡可能低序數的信道，并且盡可能總是占用相鄰輸入信道EKi和EKi+1，因此不出現缺口(Loecher)。另一方面，該“鄰近特征”不是重要，因為對于根據本發明的音頻創作者(Autoren)系統的用戶來說，他正操作音頻處理裝置的第一或第七個或者其他任何一個輸入信道是無所謂的，只要他通過根據本發明的用戶接口能夠精確地操作該信道，例如通過調節器35或者通過恰好當前信道的混音臺信道表示34的按鈕。因此，用戶接口信道i不必須對應于輸入信道i，而是可以進行信道分配，使得用戶接口信道i例如對應于輸入信道EKm，而用戶接口信道i+1對應于輸入信道k，等等。
因此，通過用戶接口信道重映射(Umabbildung)避免了存在信道缺口，即，錄音師總是能夠立即并清楚地看到并排的當前用戶接口信道。
根據本發明的用戶接口概念當然也可以應用到現有的硬件混音臺，其包括真實的硬件調節器和硬件按鈕，錄音師手動地操作其以獲得最佳混音。本發明的優點在于，通過例如由混音臺上通常存在的指示符-諸如LED-總是為錄音師清楚地標記正好當前的信道，同樣可以使用錄音師非常熟悉的并對錄音師來說非常重要的硬件混音臺。
本發明還是靈活的，其可以處理這樣的情況，其中用于制作的波場合成揚聲器設置偏離例如影院中的再現設置。因此，根據本發明，音頻內容以可以由各種系統預加工(aufbereiten)的格式編碼。該格式是音頻場景，即面向對象的音頻表示，而不是揚聲器信號表示。在這點上，預加工方法被理解為使內容適應再現系統。根據本發明，在波場合成再現過程中不僅僅處理一對幾個主信道，而是整個面向對象的場景記載。為每個再現預加工場景。這通常被實時地執行，以便實現對當前條件的適應。通常，該適應考慮揚聲器的數量和它們的位置、再現系統的特性-諸如頻率響應、聲壓電平等、房間聲學環境或者其他圖像再現條件。
波場合成混合與當前系統的基于信道的方法的主要區別在于聲音對象自由可用的定位。在通常的基于立體聲原理的再現系統中，聲源的位置被相對編碼。這對于屬于可視內容-諸如例如電影-的混合概念來說是重要的，因為試圖通過正確的系統設置來近似關于圖像的聲源的定位。
相反，波場合成系統需要聲音對象的絕對位置，除了音頻對象的開始時刻和結束時刻，絕對位置作為音頻對象的音頻信號的附加信息也被提供給音頻對象。
在傳統的面向信道的方法中，基本的思想就是減少多個預混合途徑中(Pre-Mix-Durchlauf)中的軌道(Spur)數量。這些預混合途徑以類別被組織，諸如對話、音樂、聲音、音效等等。在混合過程中，所有所需的音頻信號被饋送到混音臺中，并同時被不同錄音師混合。每個預混合減少軌道的數量，直到每個再現揚聲器存在僅僅一個軌道。這些最終的軌道形成最終的主文件(最后的主文件)。
所有相關混合任務，諸如平衡、動態、定位等等，是在混音臺上執行的，或者通過使用特定附加設備而執行。
后期制作過程的重建的目的是使用戶訓練最小化以及將新的根據本發明的系統的綜合(Integration)集成到用戶的現有知識中。在本發明的波場合成技術的應用中，在不同位置上預加工的所有軌道或對象存在于主文件/分布格式中，這與傳統制作設備相比，其在制作過程中減小軌道數量方面是最佳的。另一方面，由于時間的原因，再錄音工程師需要使用現有的混音臺用于波場合成制作。
因此，根據本發明，現有的混音臺被用于傳統的混合任務，其中這些混音臺的輸出然后被引入到根據本發明的系統中，以便產生音頻場景的音頻表示，其中執行空間混合。這意味著，根據本發明的波場合成制作者工具被實現為工作站，其能夠記錄最后混合的音頻信號并在另一步驟中將其轉換成分布格式。因此，根據本發明，考慮兩個方面。第一方面就是所有的音頻對象或軌道仍然存在于最后的主文件中。第二方面在于定位不是在混音臺中執行的。這意味著，所謂的制作，即錄音師后期制作，是制作鏈的最后一個步驟。根據本發明，根據本發明的波場合成制作系統，即根據本發明的用于產生音頻表示的設備被實現為獨立的工作站，其可以通過將來自混音臺的音頻輸出饋送到系統中而被集成在不同制作環境中。在這點上，混音臺表示連接到用于產生音頻場景的音頻表示的用戶接口。
根據本發明一個優選實施例的根據本發明的系統由圖4示出。與圖1和2中相同的參考數字表示相同的元件。基本的系統設計基于模塊化(Modularitaet)的目的和將現有混音臺作為用戶接口集成到根據本發明的波場合成制作者系統中的可能性。
因此，在音頻處理裝置12中構造與其他模塊通信的中央控制器120。這使得能夠使用某些模塊的替換模塊，只要所有模塊使用相同的通信協議。如果圖4所示的系統被認為是黑盒子，那么通常看到一定數量的(來自提供裝置10的)輸入和一定數量的輸出(揚聲器信號14)以及用戶接口20。集成在該與用戶接口相鄰的黑盒子中的是真實的WFS播放器122，其通過使用多個輸入信號來執行揚聲器信號的真實波場合成計算。此外，設置空間模擬(Raumsimulation)模塊124，其被構造以便執行某種空間模擬，從而產生錄音房的空間屬性或者操縱錄音房的空間屬性。
此外，設置錄音裝置126和記錄播放裝置(也是126)。裝置126優選地配備外置輸入。在這種情況下，已經面向對象地或者還面向信道地提供和饋送整個音頻信號。于是，音頻信號不是來自只注意控制任務的場景協議。然后，被饋入的音頻數據從裝置126出發在可能的情況下被轉換成面向對象的表示，并且然后內部地被饋入到映射裝置18，映射裝置18然后執行對象/信道映射。
模塊之間的所有音頻連接(Audioverbindung)可由矩陣模塊128切換，以便根據中央控制器120的要求將相應的信道連接到相應的信道。在一個優選實施例中，用戶能夠將64個具有用于虛擬源的信號的輸入信道饋入到音頻處理裝置12，因此，在這個實施例中存在64個輸入信道EK1-EKm。由此，現有的控制臺可以用作用戶接口，用于預混合虛擬源信號。然后，由波場合成制作者系統、并且尤其是由重要部件(Herzstueck)WFS播放器122執行空間混合。
完整的場景記載被存儲在提供裝置10中，其也被稱為場景協議。相反，主要通信或者需要的數據通信(Datenverkehr)由中央控制器120執行。可以通過用戶接口控制器204將場景記載的變化-如它們例如通過用戶接口20、尤其是通過硬件混音臺200或者軟件GUI，即圖形軟件用戶接口202可以實現的那樣-作為改變后的場景協議輸入到提供裝置10中。通過提供改變后的場景協議，場景的整個邏輯結構被唯一地表示。
為了實現面向對象的解決方法，映射裝置18為每個聲音對象分配對象在其中存在一段時間的預加工信道(輸入信道)。通常，在某個信道上按次序存在一定數量的對象，如借助于圖3a，3b和6所示。雖然根據本發明的制作者系統支持面向對象，但是波場合成播放器不必須知道對象本身。其僅僅接收音頻通道中的信號，以及預加工這些信道所必須的方式方法的描述。具有場景協議-即知道對象和相應信道-的提供裝置可以執行將與對象相關的元數據(例如源位置)變換為與信道相關的元數據，并將他們傳輸到WFS播放器122。由特定協議以一種方式方法執行其他模塊之間的通信，使得其他模塊只包含必需的信息，如圖4中方框功能協議129所示意示出。
根據本發明的控制模塊還支持場景記載的硬盤存儲。其優選地區別兩種文件格式。一種文件格式是制作者格式，其中音頻數據被存儲為未壓縮PCM數據。此外，與會話相關的信息，諸如音頻對象-即源-的分組、層信息等等，也被使用，以便被以基于XML的特定文件格式存儲。
另一種類型是分布文件格式。在該格式中，音頻數據可以以壓縮的方式方法被存儲，并且不需要額外地存儲與會話相關的數據。應當注意的是，音頻對象仍然以該格式存在，并且MPEG-4標準可用于分布。根據本發明，優選地總是實時地進行波場合成預加工。這使得沒有任何被預播放的音頻信息-即已經完成的揚聲器信號-必須以任何文件格式被存儲。這具有很大優點，因為揚聲器信號可能需要大量的數據，這最后不歸因于波場合成環境中的大量被使用的揚聲器。
這一個或多個波場合成播放器模塊122通常被輸入虛擬源信號和面向信道的場景記載。波場合成播放器根據波場合成理論為每個揚聲器計算驅動信號，即圖4的揚聲器信號14中的一個揚聲器信號。波場合成播放器將進一步計算用于亞低音揚聲器(Sobwoofer-Lautsprecher)的信號，這些信號同樣是必需的以便在低頻時支持波場合成系統。通過使用一定數量(通常是8到12個)的穩定平面波來播放來自空間模擬模塊124的空間模擬信號。基于這個概念，可以集成用于空間模擬的不同解決方案。不使用空間模擬模塊124，波場合成系統已經產生具有對于聽覺范圍穩定感覺聲源方向的可接受的聲音圖像。但是，存在對于感覺源深度方面的一定缺乏，因為通常沒有將先前的空間反射或混響加到源信號上。根據本發明，優選地使用再現墻反射的空間模擬模塊，墻反射例如被如下建模，即使用鏡像源模塊以產生先前的反射。這些鏡像源又可以作為場景協議的音頻對象被對待，或者實際上僅僅由音頻處理裝置本身補充。記錄/播放工具126表示有用的補充。音頻對象-其被完成以在預混合期間以傳統方法混合，使得只還必須執行空間混合-可以從傳統混音臺傳送到音頻對象再現設備。此外，優選地還具有音頻錄制模塊，其以時間碼控制的方式錄制混音臺的輸出信道，并將音頻數據存儲在再現模塊中。再現模塊將接收開始時間碼，以便播放某一音頻對象，即與由映射裝置18向再現設備126提供的相應輸出信道相連接。根據對應于音頻對象的開始時刻和結束時刻的記載，記錄/再現設備可以相互獨立地開始和停止播放各個音頻對象。一完成混合程序，音頻內容就可以被再現設備模塊取出并輸出到分布文件格式中。因此，分布文件格式包含已經混合的場景的完成的場景協議。根據本發明的用戶接口概念的目的是實現與影院混合過程的任務相匹配的分層結構。這里，音頻對象被看作在給定時間上作為單個音頻對象的表示而存在的源。開始時間和停止/結束時間對于源-即對于音頻對象-是典型的。源或音頻對象在對象或源“活著”期間需要系統資源。
優選地，每個聲源除了包括開始時間和停止時間之外還包括元數據。這些元數據是“類型”(在某一時刻是平面波或者點源)、“方向”、“音量”、“靜噪”和依賴于方向的響度和依賴于方向的延遲的“標記”。所有這些元數據可以被自動地使用。
此外，優選地，盡管面向對象的解決方法，根據本發明的制作者系統還服務于傳統的信道概念，因為例如在整個電影期間或者通常在整個場景中“活著”的對象也獲得自己的信道。這意味著，這些對象原理上以1∶1的變換表示簡單的信道，正如借助于圖6所述的那樣。
在本發明的一個優選實施例中，至少兩個對象可以被分組。對于每一組，可以選擇哪些參數應該被分組以及通過使用組的主文件應該以何種方法計算這些參數。聲源組在由成員的開始時間和結束時間所限定的給定時間內存在。
一個使用分組的例子是將它們用于虛擬標準環境設置。這可用于場景的虛擬淡出或者場景的虛擬放大(Heineinzoom)。可選地，分組也可以用于集成環繞混響效果以及記錄WFS混音。
此外，優選地形成另一邏輯實體，即層。為了對混音或場景結構化，在本發明的一個優選實施例中，分組和源被設置在不同層中。通過層的使用，可以在音頻工作室中模擬預配音。層也可以被使用，以便在創作過程中改變顯示屬性，例如以便顯示或者隱藏當前混合主題的不同部分。
一個場景在給定時間段內包括所有之前提到的成分。該時間段可以是影片卷軸(Filmspule)，或者例如整個電影，或者例如僅僅是特定時間段-例如5分鐘-的電影片段。場景還包括多個層、分組、和源，這些都屬于場景。
優選地，完整的用戶接口20應該包括圖形軟件部分和硬件部分以便允許觸覺控制。雖然這是優選的，但是用戶接口也可以因為經濟原因而完全用軟件實現。
使用圖形系統的設計概念，其基于所謂的“空間”。在用戶接口中，存在少量的不同空間。每個空間是表示來自不同方法的工程的特定編輯環境，其中提供空間所需的所有工具。因此，不再需要注意不同窗口。環境所需的所有工具位于相應的空間中。
為了為錄音師提供給定時刻上所有音頻信號的概況，使用已經借助于圖3a和圖3b描述的自適應混合空間。它們可以與僅僅顯示活動信道的傳統混音臺比較。在自適應混合空間中，不僅僅是信道信息，還表現了音頻對象信息。如之前所述，圖1的映射裝置18為這些對象分配WFS播放單元的輸入信道。除了自適應混合空間，還存在所謂的時基線空間，其提供關于所有輸入信道的概況。每個信道以它相應的對象被示出。用戶能夠使用對象-通道調度，雖然為了簡單的目的優選地使用自動通道調度。
另一空間是定位和編輯空間，其顯示3維空間的場景。該空間使用戶能夠記錄或編輯源對象的運動。通過使用例如操縱桿或通過使用其他輸入/顯示設備，如它們對圖形用戶接口所已知的那樣，可以產生運動。
最后，存在空間空間，其支持圖4的空間模擬模塊124，以便也提供空間編輯可能性。每個空間由存儲在空間預設置庫中的某參數組描述。根據空間模型，可以使用各種參數組以及不同的圖形用戶接口。
根據條件，根據本發明的用于產生音頻表示的方法可以以硬件或軟件實現。可以在數字存儲介質上實現，尤其是具有電可讀控制信號的軟盤或CD，其可以與編程計算機系統共同工作以便執行本發明方法。本發明因此還包括具有存儲在機器可讀載體上的存儲程序代碼的計算機程序產品，用于在計算機程序產品在計算機上運行時執行根據本發明的方法。換句話說，本發明還是一種具有用于當計算機程序在計算機上運行時執行本方法的程序代碼的計算機程序。
權利要求
1.一種用于產生、存儲或加工音頻場景的音頻表示的設備，包括音頻處理裝置(12)，用于從多個輸入信道(EK1，EK2，...，EKm)(16)中產生多個揚聲器信號，用于提供音頻場景的面向對象的記載的裝置(10)，其中所述音頻場景的面向對象的記載包括多個音頻對象，其中音頻對象和音頻信號、開始時刻和結束時刻相關聯；和映射裝置(18)，用于將音頻場景的面向對象的記載映射到音頻處理裝置的多個輸入信道上，其中所述映射裝置被構造以便將第一音頻對象分配到一個輸入信道，將開始時刻位于第一音頻對象的結束時刻之后的第二音頻對象分配到同一輸入通道，并將開始時刻位于第一音頻對象的開始時刻之后但在第一音頻對象的結束時刻之前的第三音頻對象分配到所述多個輸入通道中的另一個。
2.如權利要求1的設備，其中所述音頻處理裝置(12)包括波場合成裝置(122)，所述波場合成裝置(122)被構造以便通過了解多個揚聲器的位置而為所述揚聲器計算多個揚聲器信號。
3.如權利要求1或2的設備，其中音頻對象還與虛擬位置相關聯，其中所述音頻處理裝置(12)被構造使得在產生多個揚聲器信號時考慮音頻對象的虛擬位置。
4.如前述權利要求中任一項的設備，其中所述音頻處理裝置(12)僅僅通過所述映射裝置(18)連接到所述提供裝置(10)，以便接收要被處理的音頻對象數據。
5.如之前任何一個權利要求所述的設備，其中所述音頻處理裝置的輸入信道的數量是預定的，并且小于音頻場景中允許的音頻對象的數量，其中存在至少兩個時間上不重疊的音頻對象。
6.如之前任何一個權利要求所述的設備，還包括用戶接口(20)，其中所述用戶接口包括多個獨立的用戶接口信道，其中一個用戶接口信道和所述音頻處理裝置的一個輸入信道相關聯，并且其中所述用戶接口(20)連接到所述映射裝置(80)以便在一個時刻識別剛分配給所述用戶接口信道的音頻對象。
7.如權利要求6的設備，其中所述用戶接口(20)被構造使得識別與所述音頻處理裝置的剛被分配了音頻對象的輸入信道相關聯的用戶接口信道。
8.如權利要求7的設備，其中所述用戶接口被構造為對于每個用戶接口信道具有硬件操縱裝置的硬件混音臺，并且其中所述每個硬件操縱裝置與一個指示符相關聯，以便識別當前活動的用戶接口信道。
9.如權利要求7的設備，其中所述用戶接口包括圖形用戶接口，所述圖形用戶接口被構造使得在電子顯示設備上只顯示與所述音頻處理裝置的剛被分配了音頻對象的輸入信道相關聯的用戶接口信道。
10.如權利要求6到9其中之一所述的設備，其中所述用戶接口(20)還包括用于用戶接口信道的操縱裝置，所述操縱裝置被構造用于操縱被分配給所述音頻處理裝置(12)的對應于所述用戶接口信道的輸入信道的音頻對象，其中所述用戶接口連接到所述提供裝置(10)，以便將音頻對象替換成其被操縱的版本，并且其中所述映射裝置(18)被構造使得將音頻對象的被操縱版本而不是將音頻對象分配到所述音頻處理裝置(12)的輸入信道。
11.如權利要求10所述的設備，其中所述操縱裝置被構造用于改變音頻對象的位置、類型或音頻信號。
12.如權利要求6到9其中之一所述的設備，其中所述用戶接口被構造用于為用戶接口信道顯示時間上的占用，其中所述時間上的占用表示分配給用戶接口信道的音頻對象的時間序列，并且其中所述用戶接口還被構造用于在時間上的占用中標記當前時刻(37)。
13.如權利要求12所述的設備，其中所述用戶接口(20)被構造使得將時間上的占用顯示為時間軸，其包括與他們的長度成比例的被分配的音頻對象以及隨時間進展而移動的指示符(37)。
14.如之前任何一個權利要求所述的設備，其中所述提供裝置(10)被構造使得允許對音頻對象分組，使得用關于其組成員狀態的分組信息來標記被分組的音頻對象，以及其中所述映射裝置(18)被構造使得保持所述分組信息，使得對組特性的操縱對組的所有成員起作用，而與組的音頻對象和音頻處理裝置的哪個輸入信道相關聯無關。
15.一種用于產生、存儲或加工音頻場景的音頻表示的方法，包括以下步驟從多個輸入信道(EK1，EK2，...，EKm)(16)中產生(12)多個揚聲器信號，提供(10)音頻場景的面向對象的記載，其中所述音頻場景的面向對象的記載包括多個音頻對象，其中音頻對象與音頻信號、開始時刻和結束時刻相關聯；和將音頻場景的面向對象的記載映射(18)到音頻處理裝置的多個輸入信道，方法是將第一音頻對象分配到一個輸入信道，并將開始時刻位于第一音頻對象的結束時刻之后的第二音頻對象分配到同一輸入通道，將開始時刻位于第一音頻對象的開始時刻之后但是在第一音頻對象的結束時刻之前的第三音頻對象分配到所述多個輸入通道中的另一個。
16.一種具有程序代碼的計算機程序，當在計算機上運行所述程序時，執行如權利要求15所述的方法。
全文摘要
一種用于產生、存儲或加工音頻場景的音頻表示的設備，包括用于從多個輸入信道(16)中產生多個揚聲器信號的音頻處理裝置(12)，和提供音頻場景的面向對象的記載的裝置(10)，其中該音頻場景的面向對象的記載包括多個音頻對象，其中音頻對象與音頻信號、開始時刻和結束時刻相關聯。該用于產生的設備的特征還在于映射裝置(18)，該映射裝置(18)用于將音頻場景的面向對象的記載映射到音頻處理器的多個輸入信道，其中通過映射裝置將時間上重疊的音頻對象分配到并行的輸入信道，而時間上順序的音頻對象被分配給同一信道。因此，面向對象的表示被轉換到面向信道的表示，從而在面向對象側可以使用場景的最佳表示，而在面向信道側可以保持用戶所習慣的面向信道的概念。
文檔編號H04R3/12GK1849845SQ200480026401
公開日2006年10月18日申請日期2004年8月2日優先權日2003年8月4日
發明者桑德拉·布瑞克斯, 弗蘭克·梅爾基奧爾, 簡·蘭格哈默爾, 托馬斯·羅德, 凱瑟琳·繆尼奇申請人:弗蘭霍菲爾運輸應用研究公司

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：桑德拉.布瑞克斯;弗蘭克.梅爾基奧爾;簡.蘭格哈默爾;托馬斯.羅德;凱瑟琳.繆尼奇
技術所有人：弗蘭霍菲爾運輸應用研究公司
我是此專利的發明人

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、王老師：1.數字信號處理 2.傳感器技術及應用 3.機電一體化產品開發 4.機械工程測試技術 5.逆向工程技術研究
2、王老師：1.機器人 2.嵌入式控制系統開發
3、孫老師：1.振動信號時頻分析理論與測試系統設計 2.汽車檢測系統設計 3.汽車電子控制系統設計
4、畢老師：機構動力學與控制
5、袁老師：1.計算機視覺 2.無線網絡及物聯網
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！