用于生成和渲染具有條件渲染元數據的基于對象的音頻的方法和系統對相關申請的交叉引用本申請要求2013年4月3日提交的美國臨時專利申請No.61/807922和2013年6月7日提交的美國臨時專利申請No.61/832397的申請日權益。技術領域本發明涉及音頻信號處理,并且更特別地,涉及包括音頻內容(指示至少一個揚聲器聲道和至少一個音頻對象聲道)和支持以依賴于回放有事情配置的方式對音頻內容的條件渲染(conditionalrendering)的元數據的音頻數據比特流的編碼、解碼和交互式渲染。本發明的一些實施例以被稱為杜比數字(DolbyDigital,AC-3)、杜比數字加(DolbyDigitalPlus,增強版AC-3或E-AC-3)或者杜比E(DolbyE)的格式之一來生成、解碼和/或渲染音頻數據。
背景技術:杜比、杜比數字、杜比數字加以及杜比E是杜比實驗室授權許可公司(DolbyLaboratoriesLicensingCorporation)的商標。杜比實驗室提供分別被稱為杜比數字和杜比數字加的AC-3和E-AC-3的專有實現。盡管本發明不限于在根據E-AC-3(或者AC-3或杜比E)格式對音頻數據進行編碼時或者在傳送、解碼或渲染E-AC-3、AC-3或杜比E編碼數據時使用,但是為了方便,在實施例中將描述本發明根據E-AC-3、AC-3或杜比E格式對音頻比特流進行編碼并且傳送、解碼和渲染這種比特流典型的音頻數據流包括音頻內容(例如,音頻內容的一個或更多個聲道)和指示音頻內容的至少一個特性的元數據。例如,在AC-3比特流中,存在若干個專用于改變被傳送給收聽環境的節目的聲音的音頻元數據參數。AC-3或E-AC-3編碼比特流包括元數據,并且可以包括1至6個聲道的音頻內容。音頻內容是已經利用感知音頻編碼壓縮的音頻數據。AC-3(也稱為杜比數字)編碼的細節是眾所周知的,并且在許多公開文獻中得到闡述,公開文獻包括:ATSC標準A52/A:DigitalAudioCompressionStandard(AC-3),修訂版A,先進電視系統委員會,2001年8月20日;及美國專利5583962、5632005、5633981、5727119以及6021386杜比數字加(E-AC-3)編碼的細節例如在下文中得到闡述:“IntroductiontoDolbyDigitalPlus,anEnhancementtotheDolbyDigitalCodingSystem”,AES會議論文6196,第117屆AES會議,2004年10月28日。杜比E編碼的細節在下文中得到闡述:“EfficientBitAllocation,Quantization,andCodinginanAudioDistributionSystem”,AES預印本5068,第107次AES會議,1999年8月;和“ProfessionalAudioCoderOptimizedforUsewithVideo”,AES預印本5033,第107次AES會議,1999年8月。AC-3編碼音頻比特流的每幀包含針對數字音頻的1536個樣本的音頻內容和元數據。對于48kHz的采樣速率,這代表32毫秒的數字音頻或者音頻的31.25幀/秒的速率。取決于幀分別包含1、2、3或6個音頻數據塊,E-AC-3編碼音頻比特流的每幀包含針對數字音頻的256、512、768或1536個樣本的音頻內容和元數據。對于48kHz的采樣速率,這分別代表5.333、10.667、16或32毫秒的數字音頻或者音頻的189.9、93.75、62.5或31.25幀/秒的速率。如在圖1中所示,每個AC-3幀被分成部分(片段),包括:同步信息(SI)部分,該部分包含(如圖2中所示)同步字(SW)和兩個糾錯字中的第一個(CRC1);比特流信息(BSI)部分,該部分包含大部分元數據;6個音頻塊(AB0至AB5),其包含經數據壓縮的音頻內容(并且也可以包括元數據);浪費比特(W),其包含在壓縮音頻內容之后剩余的任何未使用的比特;輔助(AUX)信息部分,該部分可以包含更多元數據;以及兩個糾錯字中的第二個(CRC2)。如圖4中所示,每個E-AC-3幀被分成部分(片段),包括:同步信息(SI)部分,該部分包含(如圖2中所示)同步字(SW);比特流信息(BSI)部分,該部分包含大部分元數據;1至6個之間的音頻塊(AB0至AB5),其包含經數據壓縮的音頻內容(并且也可以包括元數據);浪費比特(W),其包含在壓縮音頻內容之后剩余的任何未使用的比特;輔助(AUX)信息部分,該部分可以包含更多元數據;以及糾錯字(CRC)。在AC-3(或E-AC-3)比特流中,存在若干個專用于改變被傳送到收聽環境的節目的聲音的音頻元數據參數。其中一個元數據參數是包括在BSI片段中的DIALNORM參數。如圖3中所示,AC-3幀(或E-AC-3幀)的BSI片段包括指示該節目的DIALNORM值的5比特參數(“DIALNORM”)。如果AC-3幀的音頻編碼模式(“acmod”)是“0”,則包括指示在同一AC-3幀中攜帶的第二音頻節目的DIALNORM值的5比特參數(“DIALNORM2”),以指示正在使用雙單聲道或“1+1”聲道配置。BSI片段還包括指示緊跟在“addbsie”比特之后的附加比特流信息的存在(或不存在)的標志(“addbsie”)、指示緊跟在“addbsil”值之后的任何附加比特流信息的長度的參數(“addbsil”)、以及緊跟在“addbsil”值之后的至多64比特的附加比特流信息(“addbsi”)。BSI片段包括未在圖3中具體示出的其它元數據值。已經提出在音頻比特流中包括其它類型的元數據。例如,在國際申請日為2011年12月1日且被轉讓給本申請的受讓人的PCT國際申請公開號WO2012/075246A2中,描述了用于生成、解碼和處理包括指示音頻內容的特性(例如,響度)和處理狀態(例如,響度處理狀態)的元數據的音頻比特流的方法和系統。該參考文獻還描述了利用元數據對比特流的音頻內容的自適應處理,以及利用元數據對比特流的音頻內容的響度處理狀態和響度的有效性驗證。還已知用于生成和渲染基于對象的音頻節目的方法。在這種節目的生成過程中,可以假設要用于渲染的揚聲器位于回放環境中的任意位置(或者揚聲器在單位圓的對稱配置中);不需要假設揚聲器在(標稱)水平面內或者在節目生成時已知的任何其它預定布置中。典型地,節目中所包括的元數據指示用于例如使用揚聲器的三維陣列來在明顯空間位置或者沿著軌跡(三維空間中)渲染節目的至少一個對象的渲染參數。例如,節目的對象聲道可以具有相應的元數據,指示要渲染(由對象聲道指示的)對象的明顯空間位置的三維軌跡。軌跡可以包括一系列“地板”位置(在被假設位于回放環境的地板上或在另一水平面內的揚聲器子集的平面內)、以及一系列“地板上方”位置(各自通過驅動被假設位于回放環境的至少一個其它水平面內的揚聲器子集來確定)。例如,在2011年9月29日以國際公開No.WO2011/119401A2公開且被轉讓給本申請的受讓人的PCT國際申請No.PCT/US2001/028783中,描述了對基于對象的音頻節目的渲染的示例。上述美國臨時專利申請No.61/807922和上述美國臨時專利申請No.61/832397描述了基于對象的音頻節目,該基于對象的音頻節目被渲染為提供對節目的音頻內容的沉浸式、可個性化感知。內容可以指示在觀賞型賽事(例如,足球或橄欖球賽、或另一體育賽事)上的氣氛(即,其中出現的聲音)和/或現場解說。節目的音頻內容可以指示多個音頻對象聲道(例如,指示用戶可選的對象或對象組,并且典型地還有在不存在用戶對對象的選擇時要渲染的一組默認對象)和至少一床(abedof)揚聲器聲道。所述一床揚聲器聲道可以是可能被包括在不包括對象聲道的常規廣播節目中的類型的揚聲器聲道的常規混合(例如,5.1聲道混合)。上述美國臨時專利申請No.61/807922和No.61/832397描述了作為基于對象的音頻節目的一部分被傳送的對象相關元數據,該對象相關元數據提供了回放側的混合交互性,包括通過允許終端用戶選擇節目的音頻內容的混合以進行渲染,而不是僅僅允許回放預先混合的聲場。例如,用戶可以在由本發明的節目的典型實施例的元數據提供的渲染選項之間進行選擇,以選擇可用對象聲道的子集來進行渲染,并且可選地還選擇由要渲染的對象聲道指示的至少一個音頻對象(聲音源)的回放水平。每個所選聲音源被渲染的空間位置可以由包括在節目中的元數據預先確定,但是在一些實施例中,可以由用戶選擇(例如,經受預定的規則或約束)。在一些實施例中,節目中所包括的元數據允許用戶從渲染選項菜單(例如,少量的渲染選項,例如,“主隊人群噪聲”對象、“主隊人群噪聲”和“主隊現場解說”對象組、“客隊人群噪聲”對象、以及“客隊人群噪聲”和“客隊現場解說”對象組)之間選擇。菜單可以由控制器的用戶界面呈現給用戶,并且控制器可以(例如,通過無線鏈路)耦接到被配置為(至少部分地)解碼和渲染基于對象的節目的機頂設備(或其它設備)。節目中所包括的元數據可以以其它方式允許用戶從關于由對象聲道指示的哪些對象應該被渲染以及關于要渲染的對象應該如何配置的一組選項之間進行選擇。美國臨時專利申請No.61/807922和No.1/832397描述了這樣的基于對象的音頻節目,該基于對象的音頻節目是指示節目的至少一些(即,至少一部分)音頻內容(例如,一床揚聲器聲道和至少一些節目對象聲道)和對象相關元數據的編碼音頻比特流。至少一個附加的比特流或文件可以指示節目的一些音頻內容(例如,至少一些對象聲道)和/或對象相關元數據。在一些實施例中,對象相關元數據利用默認的渲染參數(例如,渲染對象的默認空間位置)來提供對象內容和床(揚聲器聲道)內容的默認混合。在一些實施例中,對象相關元數據提供對象聲道和揚聲器聲道內容的一組可選“預設”混合,每個預設混合具有一組預定的渲染參數(例如,渲染對象的空間位置)。在一些實施例中,節目的對象相關元數據(或者未被與節目一起傳送的元數據指示的回放或渲染系統的預配置)提供了關于對象聲道和揚聲器聲道內容的可選混合的約束或條件。美國臨時專利申請No.61/807922和No.61/832397還描述了包括一組并行生成和傳輸的比特流(有時被稱為“子流”)的基于對象的音頻節目。可以利用多個解碼器來對它們進行解碼(例如,如果該節目包括多個E-AC-3子流,則回放系統可以利用多個E-AC-3解碼器來對子流進行解碼)。每個子流可以包括同步字(例如,時間碼),以允許子流彼此同步或時間對齊。美國臨時專利申請No.61/807922和No.61/832397還描述了這樣的基于對象的音頻節目:該基于對象的音頻節目是或包括至少一個AC-3(或E-AC-3)比特流,并且包括一個或更多個被稱為容器的數據結構。包括對象聲道內容(和/或對象相關元數據)的每個容器被包括在比特流的幀尾的auxdata字段(例如,圖1或圖4中所示的AUX片段)中、或者在比特流的“跳過字段”片段中。還描述了包括杜比E比特流的基于對象的音頻節目,其中對象聲道內容和對象相關元數據(例如,包括對象聲道內容和/或對象相關元數據的節目的每個容器)被包括在杜比E比特流的一般不攜帶有用信息的比特位置中。美國臨時申請No.61/832397還描述這樣的基于對象的音頻節目,該基于對象的音頻節目包括至少一組揚聲器聲道、至少一個對象聲道和指示分層圖(分層“混合圖”)的元數據,其中所述分層圖指示揚聲器聲道和對象聲道的可選混合(例如,所有可選的混合)。混合圖可以指示適用于選擇揚聲器和對象聲道的子集的每個規則,指示節點(每個節點可以指示可選的聲道或聲道組,或一類可選的聲道或聲道組)以及節點之間的連接(例如,到用于選擇聲道的規則和/或節點的控制接口)。混合圖可以指示必要數據(“基本”層)和可選數據(至少一個“擴展”層),并且當混合圖能夠被表示為樹圖時,基本層可以是該樹圖的樹枝(或者兩個或更多個樹枝),而每個擴展層可以是該樹圖的另一個樹枝(或者樹枝組)。正如所述,已經提出了在基于對象的音頻節目中包括這樣的對象相關元數據:該對象相關元數據指示用于使用揚聲器陣列在明顯的空間位置或沿著明顯的軌跡(在三維空間中)渲染(由節目的對象聲道指示的)至少一個對象的渲染參數。例如,節目的對象聲道可以具有指示要渲染相應對象的明顯空間位置的三維軌跡的相應元數據。該軌跡可以包括回放環境的“地板”平面(其中“地板”平面是標稱地包括聽者耳朵的預期位置的水平面)中的一系列“地板”位置以及地板平面上方的一系列“地板上方”位置。已經提出了在地板上方位置對基于對象的節目的對象進行渲染,包括通過生成用于驅動(回放揚聲器陣列的)至少一個“地板上方”揚聲器的至少一個揚聲器饋送,所述至少一個“地板上方”揚聲器假設位于回放環境的地板平面上方。這種地板上方的揚聲器有時被稱為“高度”揚聲器。傳統地,根據預定公式來執行多聲道音頻節目的音頻下混(downmixing),以將該節目的第一組聲道(指示第一聲場的N個聲道,其中N為整數)向下坍塌(下混)為第二組聲道(指示下混聲場的M個聲道,其中M是小于N的整數),以便由包括M個揚聲器的可用揚聲器陣列(例如,包含兩個揚聲器的立體聲電視揚聲器陣列)回放。在下混后的回放期間,可用揚聲器陣列發出指示下混聲場的聲音。典型地,這種類型的傳統下混在第二組聲道(即,下混)中包括第一組中所有聲道的音頻內容。如果在回放系統揚聲器陣列中不存在地板上方(“高度”)揚聲器,則可以利用(上述類型的)傳統下混技術來下混該節目的揚聲器聲道的內容和對象聲道的內容(其中揚聲器聲道內容打算由回放揚聲器陣列的地板揚聲器播放),使得所得到的下混聲音僅從回放揚聲器陣列的地板揚聲器發出。但是,發明人已經認識到:因為地板上方的對象聲道的內容會被下混到原始揚聲器聲道的內容中,所以傳統的下混會不合需要地在回放所得到的下混時導致嘈雜的聲音(例如,地板上方的內容會被感知成受到原始揚聲器聲道內容干擾)。發明人還已經認識到:(上述類型的)傳統下混技術具有不一定與在回放揚聲器陣列中是否存在高度揚聲器有關的其他限制和缺點。例如,發明人已經認識到:即使在傳統的5.1聲道音頻制作中,也經常作出妥協,以針對立體聲下混保持合理的聲場。例如,廣播公司可能想要在5.1聲道節目的環繞聲道中放入現場解說(或其他對話元素),但是卻選擇不這么做,因為傳統實現的期望表示的立體聲下混不向立體聲電視觀看者提供滿意的或有代表性的體驗。在本發明之前,尚不知道如何基于回放揚聲器陣列配置來以確保下混符合預定下混約束(例如,由生成和廣播該節目的實體或者由節目內容創建者指定的一個或更多個下混約束)的方式對基于對象的音頻節目的選定聲道(例如對象聲道和揚聲器聲道)的下混進行渲染(例如,以避免在回放時有嘈雜的或其他不希望的下混聲音)。本發明的不同實施例適用于其中節目指示有比最終再現環境中可用的音頻聲道多的音頻聲道的任何和所有情況(即,節目包括的聲道(對象聲道和/或揚聲器聲道)比要驅動的回放揚聲器陣列的揚聲器數量多的所有情況)。
技術實現要素:本發明的一類實施例包括用于基于回放揚聲器陣列配置來生成和條件渲染交互式的基于對象的音頻的方法(其中,在本上下文中,回放揚聲器陣列“配置”表示至少一個配置屬性,例如,陣列中揚聲器的數量和回放環境中每個揚聲器的實際布置或假設布置)。(根據本發明的一些實施例生成的)基于對象的音頻節目中的對象相關元數據指示用于使用回放系統揚聲器陣列在明顯空間位置或沿著明顯軌跡(在三維空間中)渲染(由節目的對象聲道指示的)至少一個對象的渲染參數。例如,該節目的對象聲道可以具有指示要渲染相應對象的明顯空間位置的三維軌跡的相應元數據。該軌跡可以包括一系列“地板”位置(標稱地在回放環境的地板平面內,該地板平面假設至少近似地與聽者耳朵的水平面重合)以及地板平面上方的一系列“地板上方”位置。為了渲染在地板上方位置的對象,生成至少一個揚聲器饋送來驅動回放揚聲器陣列中的假設位于回放環境的地板平面上方的至少一個揚聲器。一類實施例包括用于生成和/或渲染如下基于對象的音頻節目的方法:所述基于對象的音頻節目包括與節目的至少一個對象聲道(例如,地板上方的對象聲道)對應的條件渲染元數據。因此,由每個這種對象聲道指示的每個音頻對象具有相應的條件渲染元數據。例如,在一些實施例中,具有相應條件渲染元數據的每個音頻對象可以是地板上方對象。在一類實施例中,條件渲染元數據是指示適用于每個相應對象聲道(即,與條件渲染元數據對應的每個對象聲道)的、基于回放揚聲器陣列配置的至少一個渲染約束的對象相關元數據。這種渲染約束的示例是:當回放揚聲器陣列配置為特定類型時,禁止渲染相應的對象聲道。(已知曉其回放揚聲器陣列為此特定類型的)回放系統可以被配置(例如,被預配置,或者響應于節目的元數據而被配置)為通過防止實現將對象聲道的內容渲染成揚聲器饋送(用于驅動回放揚聲器)來響應于指示這種渲染約束的條件渲染元數據進行操作。由(通過這類實施例中的方法)生成的條件渲染元數據指示的渲染約束的另一個示例是:當回放揚聲器陣列配置為特定類型時,對渲染相應對象聲道的內容的至少一個允許類型的指示。由條件渲染元數據指示的渲染約束的其他示例是:在(或關于)相應對象聲道的內容被包括在渲染該內容期間生成的每個揚聲器饋送中的情況下,對布置、水平、尺寸和其他屬性(例如,要執行的特效處理)的指示,使得當回放揚聲器陣列播放該渲染內容時,渲染內容將被感知為從具有由元數據指示的空間位置、水平、尺寸和/或其他屬性的明顯源(對象)發出。在一些實施例中,條件渲染元數據是這樣的對象相關元數據:其指示適用于每個相應對象聲道(即,與條件渲染元數據對應的每個對象聲道)的作為基于回放揚聲器陣列配置的下混約束的至少一個渲染約束。這種下混約束的示例是當回放揚聲器陣列配置為特定類型時,禁止下混相應對象聲道。(已知曉其回放揚聲器陣列為該特定類型的)回放系統可以被配置為(例如,被預配置,或者響應于節目的元數據而被配置)為通過防止實現將對象聲道的內容渲染成該節目的揚聲器聲道來響應于指示這種渲染約束的條件渲染元數據進行操作。由(通過這類實施例中的方法)所生成的條件渲染元數據指示的下混約束的另一個示例是當回放揚聲器陣列配置為特定類型時對包括相應對象聲道的至少一個允許下混(或下混類型)的指示。由條件渲染元數據指示的渲染約束的其他示例是:基于回放揚聲器配置,(在相應對象聲道到一個或更多個揚聲器聲道的下混中)對音頻對象的布置、水平、尺寸和其他屬性(例如,要執行的特效處理)的指示。要領會的是,對基于對象的音頻節目的N個聲道“執行下混”(或“下混”,或“渲染下混”)的表述在此是以寬泛的意義使用的,以表示確定或生成用于驅動回放揚聲器陣列的M個揚聲器的M個揚聲器饋送(指示節目的N個聲道中的至少一些聲道以及典型地全部聲道的內容)。在一個示例中,屬于(包括N個聲道的節目的)對象聲道的條件渲染元數據以如下意義指示至少一個下混約束(基于回放揚聲器陣列配置):條件渲染元數據的第一子集指示用于驅動M1個回放揚聲器的第一陣列的M1個揚聲器饋送的生成的某個屬性(或者與之相關的規則),使得該M1個揚聲器饋送指示包括對象聲道內容的節目內容的下混,而條件渲染元數據的第二子集指示用于驅動M2個回放揚聲器的不同陣列的M2個揚聲器饋送的生成的某個屬性(或者與之相關的規則),使得該M2個揚聲器饋送指示包括對象聲道內容的節目內容的另一下混,其中M1不等于M2。在該示例中,對節目的N個聲道上的下混進行渲染以便由M1個揚聲器的第一陣列回放將典型地包括以下步驟:選擇條件渲染元數據的第一子集(而不是條件渲染元數據的第二子集),以及使用所選擇的條件渲染元數據的第一子集來確定或生成適當的M1個揚聲器饋送。在一類實施例中,本發明是用于生成基于對象的音頻節目的方法,該方法包括以下步驟:生成與至少一個對象聲道對應的條件渲染元數據,使得該條件渲染數據指示適用于所述至少一個對象聲道的基于回放揚聲器陣列配置的至少一個渲染約束(例如,下混約束);確定包括所述至少一個對象聲道(以及可選地還有至少一個揚聲器聲道)的一組音頻聲道;以及生成基于對象的音頻節目,使得所述基于對象的音頻節目指示所述一組音頻聲道以及條件渲染元數據,并且使得所述一組音頻聲道中的至少一個音頻聲道的內容能夠響應于至少一些條件渲染元數據來由回放系統以符合至少一個渲染約束的方式渲染。可選地,條件渲染元數據還指示用于對節目的音頻聲道進行渲染(例如,實現其下混)的基于回放揚聲器陣列配置的至少一個渲染規則(例如,至少一個下混規則)。例如,條件渲染元數據可以指示以下規則:如果回放揚聲器陣列包括至少一個地板上方揚聲器,則(例如,如節目的至少一些條件渲染元數據所指示的)節目的第一類型的每個對象聲道應該被下混成由用戶選定的(或默認的)的任何節目內容混合指定的任何揚聲器聲道,如果回放揚聲器陣列不包括至少一個地板上方揚聲器,則節目的第一類型的每個對象聲道應該被回放系統忽略(即,不應該被包括在下混中),并且不管回放揚聲器陣列的配置如何,(例如,如節目的至少一些條件渲染元數據所指示的)節目的第二類型的每個對象聲道都應該被下混成由用戶選擇的(或默認的)該節目的任何聲道內容混合指定的任何揚聲器聲道。所考慮的是,根據本發明的一些實施例,生成基于對象的音頻節目包括如下步驟:選擇可用的(即,之前已生成的)條件渲染元數據的第一子集,并將所選擇的條件渲染元數據(而非未選擇的條件渲染元數據)包括在節目中。在其他實施例中,本發明是由基于對象的音頻節目確定的音頻內容的渲染方法,其中所述節目指示與至少一個對象聲道對應的條件渲染元數據、以及包括至少一個對象聲道(和可選地還有至少一個揚聲器聲道)的一組音頻聲道,并且其中條件渲染元數據指示適用于所述至少一個對象聲道的基于回放揚聲器陣列配置的至少一個渲染約束(例如,至少一個下混約束),所述方法包括以下步驟:(a)將基于對象的音頻節目提供給音頻處理單元;以及(b)在音頻處理單元中,解析條件渲染元數據和所述一組音頻聲道,并且響應于條件渲染元數據中的至少一些來以符合至少一個渲染約束的方式對所述一組音頻聲道中的至少一個音頻聲道的內容進行渲染。在一些這種實施例中,所述一組音頻聲道包括至少一個揚聲器聲道,并且步驟(b)包括如下步驟:選擇所述一組音頻聲道中的至少一個對象聲道,并且使該組中的每個選定對象聲道與該組中的至少一個揚聲器聲道混合,以生成所述每個選定對象聲道與至少一個揚聲器聲道的內容的下混。典型地,該下混包含一組N個下混揚聲器聲道,其中N為正整數,并且步驟(b)包括通過用根據下混揚聲器聲道生成的揚聲器饋送驅動揚聲器來使回放揚聲器陣列的N個揚聲器發出聲音。可選地,條件渲染元數據還指示基于回放揚聲器陣列配置的至少一個渲染規則(例如,至少一個下混規則),并且在步驟(b)中執行的渲染符合該渲染規則。根據本發明的典型實施例生成的基于對象的音頻節目可以被渲染為使得由回放揚聲器陣列播放的指示節目的(例如,對象聲道和/或揚聲器聲道的)下混內容的聲音被感知為從聲音再現(回放)環境內的不同明顯源位置發出。對于互動式呈現,由可選對象聲道中的選定對象聲道確定的對象在渲染聲場內的位置(例如,與一組選定對象中的不同對象對應的一組不同的靜態位置)被渲染,使得每個選定對象聲道被渲染成被感知為從由與選定對象聲道對應的對象相關元數據確定的明顯源位置(或位置的軌跡)發出。例如,根據基于對象的音頻節目確定的沉浸式聲音混合可以指示這樣的聲音:該聲音又指示(由節目的選定對象聲道確定的)“公共廣播(publicaddress)”音頻對象的,從而被感知為從再現環境內的假設聽者位置上方的明顯源位置發出,以便在從安裝在聽者上方的公共廣播揚聲器發出通告時給予聽者(消費者)正身處體育場的體驗。可以選擇這種公共廣播音頻對象由包括物理地位于“地板”平面上方的水平面(有時候被稱為“地板上方”或“高度”平面)中的至少一個地板上方揚聲器的揚聲器陣列渲染和回放,其中“地板”平面是標稱地包括聽者耳朵的預期位置的水平面。典型地,回放揚聲器陣列的其他揚聲器標稱地位于地板平面內。當音頻對象(例如,之前示例的公共廣播音頻對象)由基于對象的音頻節目的獨立對象聲道確定,并且在該對象聲道被選擇(并且被渲染和播放)時節目的相應元數據指示相應的聲音應該被感知為從其發出的地板上方的源位置(或者地板上方的源位置的軌跡)時,我們將該音頻對象稱為“地板上方”(或“高度”)對象,并且將指示該地板上方對象的對象聲道稱為“地板上方”(或“高度”)對象聲道。地板上方音頻對象被典型地渲染和播放,使得所得到的聲音從回放系統揚聲器陣列的至少一個地板上方(或“高度”)揚聲器發出。如果在回放系統揚聲器陣列中不存在地板上方(或“高度”)揚聲器,則可以利用(上述類型的)傳統下混技術來使選定的“地板上方”對象聲道的內容與節目的揚聲器聲道的內容下混(其中揚聲器聲道內容打算由回放揚聲器陣列的地板揚聲器播放),使得所得到的下混聲音僅僅從回放揚聲器陣列的地板揚聲器發出。但是,因為地板上方對象聲道的內容會被下混到揚聲器聲道的內容中,所以下混會不合需要地導致發聲嘈雜的混合(例如,地板上方的內容會被感知為受原始揚聲器聲道內容干擾)。使用根據本發明一些實施例的基于對象的音頻節目中所包括的條件渲染元數據,關于由節目指示的哪些音頻對象可以或者應該被放置在該節目的聲道的下混的哪些揚聲器聲道中(和/或哪些音頻對象應該從下混的揚聲器聲道中省略)、以及每個對象應該以多少音量與該節目的其他音頻內容下混、該節目的聲道的下混要在何時生成以供回放系統的可用揚聲器回放,渲染系統可以做出明智的決定。本發明的典型實施例給予混音師藝術靈活性以在不做出常規下混會造成的妥協的情況下針對所考慮的每個回放揚聲器陣列配置來確定(基于對象的音頻節目的內容的)良好的發聲混合,并且包括相應的條件渲染元數據以使得能夠對每個這種混合進行渲染。根據本發明的典型實施例,響應于(假設已知曉可用的揚聲器陣列配置的)節目中所包括的條件渲染元數據來對基于對象的音頻節目的對象聲道內容進行條件渲染允許以下中的一個或兩個:基于特定的回放揚聲器陣列配置來自動選擇下混渲染選項(例如,具有專用立體聲輸出的機頂盒可以被預配置為使得其基于對象的音頻渲染引擎總是選擇所輸入的基于對象的節目的“立體聲”條件渲染元數據,并且使用所選擇的“立體聲”條件渲染元數據來生成響應于該節目的立體聲揚聲器饋送);和/或在給定特定的回放揚聲器陣列配置時,由用戶從可用的渲染選項(例如,下混渲染選項)的菜單中選擇。例如,假定回放揚聲器陣列僅包含5.1聲道配置的地板揚聲器,則所述菜單可以包括少量的可選下混渲染選項,包括以下選項:包含一床下混有“主隊現場解說”對象的揚聲器聲道的內容的“主隊現場解說”下混、包含一床下混有“客隊現場解說”對象的揚聲器聲道的內容的“客隊現場解說”下混、以及包含一床下混有“主隊現場解說”對象和“主隊人群噪聲”對象的揚聲器聲道的內容的“主隊現場解說加主隊人群噪聲”下混。對于另一個示例,假定回放揚聲器陣列包括(例如,5.1聲道配置中的)地板揚聲器和一組高度(地板上方)揚聲器,所述菜單可以包括更多的可選下混渲染選項,包括以下選項:包含一床下混有“主隊現場解說”對象的揚聲器聲道的內容的“主隊現場解說”地板下混(用于僅驅動陣列的地板揚聲器)、包含一床下混有“客隊現場解說”對象的揚聲器聲道的內容的“客隊現場解說”地板下混(用于僅驅動陣列的地板揚聲器)、包含一床下混有“主隊現場解說”對象和“主隊人群噪聲”對象的揚聲器聲道的內容的“主隊現場解說加主隊人群噪聲”地板下混(用于僅驅動陣列的地板揚聲器)、以及包含一床下混有“主隊現場解說”對象、“主隊人群噪聲”對象和公告對象的揚聲器聲道的內容的“主隊現場解說加主隊人群噪聲加公告”下混(用于驅動陣列的所有揚聲器,但是公告對象聲道的內容僅被包括在驅動陣列的地板上方揚聲器的下混揚聲器饋送中,而所有其他下混內容僅被包括在驅動陣列的地板揚聲器的下混揚聲器饋送中)。可以通過控制器的用戶界面將渲染選項(例如,下混渲染選項)的菜單呈現給用戶,并且該控制器可耦接到被配置為(至少部分地)解碼和渲染基于對象的節目的機頂設備(或其他設備)。該節目中所包括的元數據(包括上述條件渲染元數據)可以允許用戶從關于由節目指示的哪些對象應該被渲染以及關于要渲染的對象應該如何配置的一組選項中進行選擇。在一些實施例中,假定(一組可能的回放揚聲器陣列配置中)具有特定相應配置的回放揚聲器可用,條件渲染元數據至少指定能被用戶選擇的(節目的音頻內容的)每個可選下混(例如,由下混渲染選項菜單指示的每個可選下混)的以下屬性:存在(即,對于每個對象聲道,關于該對象聲道是否應該存在于下混中以便由具有相應配置的回放揚聲器陣列渲染的指示);聲場內的位置(即,對于將被包括在下混中以便由具有相應配置的回放揚聲器陣列渲染的每個對象聲道,當由下混確定的揚聲器饋送驅動可用揚聲器時,對應該被感知為發出相應的明顯空間位置的指示);增益(即,對于將被包括在下混中以便由具有相應配置的回放揚聲器陣列渲染的每個對象聲道,當生成該下混時要施加到相應音頻樣本的增益的指示);效果(即,對于將被包括在下混中以便由具有相應配置的回放揚聲器陣列渲染的每個對象聲道,當生成下混時要應用于相應音頻樣本的特殊效果處理(如果有的話)的每個種類的指示。這種處理的示例包括但不限于發散處理(divergenceprocessing)和混響應用)。本發明的另一個方面是被配置為執行本本發明的方法的任何實施例的音頻處理單元(APU)。在另一類實施例中,本發明是APU,包括(例如,以非暫態方式)存儲已經由本發明的方法的任何實施例生成的基于對象的音頻節目的至少一個幀或其它片段(包括揚聲器聲道和至少一個對象聲道的音頻內容、以及包括條件渲染元數據的對象相關元數據)的緩沖存儲器(緩沖區)。APU的示例包括但不限于編碼器(例如,轉碼器)、解碼器、編解碼器、預處理系統(預處理器)、后處理系統(后處理器)、音頻比特流處理系統、以及這些元素的組合。本發明的各方面包括被配置為(例如,被編程為)執行本發明的方法的任何實施例的系統或設備,以及(例如,以非暫態方式)存儲有用于實現本發明的方法或其步驟的任何實施例的代碼的計算機可讀介質(例如,盤)。例如,本發明的系統可以是或者包括可編程的通用處理器、數字信號處理器或微處理器,被用軟件或固件編程和/或以其它方式被配置為對數據執行各種操作中的任何操作,包括本發明的方法或步驟的實施例。這種通用處理器可以是或者包括含有以下的計算機系統:輸入設備、存儲器和被編程為(和/或以其它方式被配置為)響應于對其斷言的數據來執行本發明的方法(或其步驟)的實施例的處理電路。附圖說明圖1是AC-3幀的圖,包括被分成的片段。圖2是AC-3幀的同步信息(SI)片段的圖,包括被分成的片段。圖3是AC-3幀的比特流信息(BSI)片段的圖,包括被分成的片段。圖4是E-AC-3幀的圖,包括被分成的片段。圖5是一種系統的實施例的圖,其中該系統的一個或更多個元件可以根據本發明的實施例來配置。圖6是可被實現為執行本發明的方法實施例的回放系統的框圖。圖7是可被配置為執行本發明的方法實施例的回放系統的框圖。圖8是被配置為根據本發明的實施例來生成基于對象的音頻節目(和相應的視頻節目)的廣播系統的框圖。圖9是本發明的節目的實施例的對象聲道之間的關系圖,指示對象聲道的哪些子集可被用戶選擇。圖10是可被實現為執行本發明的方法實施例的系統的框圖。圖11是根據本發明的實施例而生成的基于對象的音頻節目的內容的圖。符號和命名貫穿本公開內容,包括在權利要求中,“對”信號或數據執行操作(例如,對信號或數據進行過濾、縮放、變換或施加增益)的表述廣義地用來表示直接對信號或數據或者對信號或數據的處理版本(例如,對在執行操作之前經歷了初步過濾或預處理的信號版本)執行操作。貫穿本公開內容,包括在權利要求中,表述“系統”廣義地用來表示設備、系統或子系統。例如,實現解碼器的子系統可以被稱為解碼器系統,而包括這種子系統的系統(例如,響應于多個輸入來生成X個輸出信號的系統,其中子系統生成其中M個輸入而其它X-M個輸入從外部源中接收)也可以被稱為解碼器系統。貫穿本公開內容,包括在權利要求中,術語“處理器”廣義地用來表示可編程為或者(例如,用軟件或固件)以其它方式被配置為對數據(例如,音頻或視頻或其它圖像數據)執行操作的系統或設備。處理器的示例包括現場可編程門陣列(或者其它可配置的集成電路或芯片集)、被編程為或者以其它方式被配置為對音頻或其它聲音數據執行流水線處理的數字信號處理器、可編程的通用處理器或計算機、以及可編程的微處理器芯片或芯片集。貫穿本公開內容,包括在權利要求中,表述“音頻視頻接收器”(或者“AVR”)表示用來控制音頻和視頻內容的回放的一類消費者電子器材中的接收器,例如在家庭影院中。貫穿本公開內容,包括在權利要求中,表述“條形音箱”表示如下設備:該設備是一種類型的消費者電子器材(典型地安裝在家庭影院系統中),并且包括至少一個揚聲器(典型地,至少兩個揚聲器)和用于渲染音頻以便由每個內含揚聲器回放(或者以便由每個內含揚聲器和該條形音箱外部的至少一個附加揚聲器回放)的子系統。貫穿本公開內容,包括在權利要求中,表述“音頻處理器”和“音頻處理單元”可交換使用,并且廣義地用來表示被配置為對音頻數據進行處理的系統。音頻處理單元的示例包括但不限于編碼器(例如,轉碼器)、解碼器、編解碼器、預處理系統、后處理系統、以及比特流處理系統(有時被稱為比特流處理工具)。貫穿本公開內容,包括在權利要求中,表述“元數據”(例如,就像在表述“處理狀態元數據”中)指的是與相應音頻數據(也包括元數據的比特流的音頻內容)分離且不同的數據。元數據與音頻數據關聯,并且指示音頻數據的至少一個特征或特性(例如,對音頻數據已經執行或應該執行什么類型的處理,或者由音頻數據指示的對象的軌跡)。元數據與音頻數據的關聯是時間同步的。因此,當前的(最近接收或更新的)元數據可以指示:相應的音頻數據同時具有所指示的特征和/或包括所指示類型的音頻數據處理的結果。貫穿本公開內容,包括在權利要求中,術語“耦接”或“被耦接”用來指直接或間接連接。因此,如果第一設備耦接到第二設備,則連接可以是通過直接連接,或者通過經由其它設備和連接的間接連接。貫穿本公開內容,包括在權利要求中,以下表述具有以下定義:揚聲器和揚聲器同義地用來表示任何發聲換能器。這個定義包括被實現為多個換能器的揚聲器(例如,低音喇叭和高音喇叭);揚聲器饋送:要直接施加給揚聲器的音頻信號,或者要施加給串聯的放大器和揚聲器的音頻信號;聲道(或“音頻聲道”):單聲道音頻信號。這種信號可以典型地以這種方式渲染:使得相當于直接對期望的或標稱的位置處的揚聲器施加信號。期望的位置可以是靜止的,就像典型地具有物理揚聲器的情況,或者可以是動態的;音頻節目:一個或更多個音頻聲道的集合(至少一個揚聲器聲道和/或至少一個對象聲道)并且可選地還有關聯的元數據(例如,描述期望的空間音頻呈現的元數據);揚聲器聲道(或者“揚聲器饋送聲道”):與(在期望或標稱位置的)指定揚聲器或者與既定揚聲器配置內的指定揚聲器區關聯的音頻聲道。揚聲器聲道以這種方式渲染:使得相當于直接對(在期望或標稱位置的)指定揚聲器或揚聲器區中的揚聲器施加音頻信號。對象聲道:指示由音頻源(有時被稱為音頻“對象”)發出的聲音的音頻聲道。典型地,對象聲道確定參數化音頻源描述(例如,指示參數化音頻源描述的元數據被包括在對象聲道中或者與對象聲道一起提供)。源描述可以確定由源發出的聲音(作為時間的函數)、作為時間的函數的明顯源位置(例如,3D空間坐標)、可選地還有表征源的至少一個附加參數(例如,明顯源尺寸或寬度);基于對象的音頻節目:包括一個或更多個對象聲道的集合(并且可選地還包括至少一個揚聲器聲道)以及可選地還有關聯的元數據(例如,指示發出由對象聲道指示的聲音的音頻對象的軌跡的元數據,或者以其它方式指示由對象聲道指示的聲音的期望空間音頻呈現的元數據,或者指示作為由對象聲道指示的聲音的源的至少一個音頻對象的標識的元數據)的音頻節目;及渲染:將音頻節目轉換成一個或更多個揚聲器饋送的過程,或者將音頻節目轉換成一個或更多個揚聲器饋送并且使用一個或更多個揚聲器來將揚聲器饋送轉換成聲音的過程(在后一種情況下,渲染有時候在本文被稱為“由”揚聲器渲染)。可以通過直接向期望位置處的物理揚聲器施加信號來(在期望的位置“處”)平常地渲染音頻聲道,或者可以使用被設計為基本上等效于(對聽眾而言)這種平常渲染的各種虛擬化技術之一來渲染一個或更多個音頻聲道。在后一種情況下,每個音頻聲道可以被轉換為要施加給位于已知位置的揚聲器的一個或更多個揚聲器饋送,所述已知位置一般與期望的位置不同,使得由揚聲器響應于饋送而發出的聲音將被感知為是從期望位置發出的。這種虛擬化技術的示例包括經由頭戴式耳機的雙耳渲染(例如,使用杜比頭戴式耳機的處理,這種處理為頭戴式耳機佩戴者模擬高達7.1聲道的環繞聲)和波場合成。具體實施方式圖5是音頻處理鏈(音頻數據處理系統)的示例的框圖,其中該系統的一個或更多個元件可以根據本發明的實施例來配置。該系統包括如圖所示耦接到一起的以下元件:捕捉單元1、制作單元3(包括編碼子系統)、傳送子系統5、解碼器7、對象處理子系統9、控制器10、以及渲染子系統11。在所示系統的變型中,省略其中的一個或更多個元件,或者包括額外的音頻數據處理單元。典型地,元件7、9、10和11是回放系統(例如,終端用戶的家庭影院系統)或者被包括在回放系統中。捕捉單元1典型地被配置為生成包括音頻內容的PCM(時域)樣本,并且輸出PCM樣本。樣本可以指示由麥克風(例如,在體育賽事或者其它觀賞型賽事)捕捉的多個音頻流。典型地由廣播公司操作的制作單元3被配置為接受PCM樣本作為輸入并且輸出指示音頻內容的基于對象的音頻節目。節目通常是或者包括指示至少一些音頻內容的經編碼的(例如,經壓縮的)音頻比特流(有時在本文中被稱為“主混合”),并且可選地還包括指示一些音頻內容的至少一個附加比特流或文件(有時在本文中被稱為“次混合”)。指示音頻內容的編碼比特流(以及,如果生成了的話,則還有每個生成的次混合)的數據在本文中有時被稱為“音頻數據”。如果制作單元3的編碼子系統是根據本發明的典型實施例配置的,則從單元3輸出的基于對象的音頻節目指示(即,包括)音頻數據的多個揚聲器聲道(一“床”揚聲器聲道,以及可選地還有替換揚聲器聲道)、音頻數據的多個對象聲道、以及對象相關元數據(包括條件渲染元數據)。節目可以包括主混合,主混合又包括指示一床揚聲器聲道和替換揚聲器聲道的音頻內容、指示至少一個用戶可選的對象聲道(以及可選地還有至少一個其它對象聲道)的音頻內容、以及元數據(包括與每個對象聲道關聯的對象相關元數據,對象相關元數據又包括用于至少一個對象聲道的條件渲染元數據)。節目還可以包括至少一個次混合,次混合包括指示至少一個其它對象聲道(例如,至少一個用戶可選的對象聲道)的音頻內容和/或對象相關元數據。節目的對象相關元數據可以包括持久性元數據(下面將描述)。節目(例如,其主混合)可以指示一組或更多組揚聲器聲道。例如,主混合可以指示兩組或更多組揚聲器聲道(例如,5.1聲道的中立人群噪聲床、指示主隊人群噪聲的一組2.0聲道的替換揚聲器聲道、以及指示客隊人群噪聲的一組2.0聲道的替換揚聲器聲道),包括至少一組用戶可選的替換揚聲器聲道(其可以使用用于對對象聲道內容或配置進行用戶選擇的同一用戶界面來選擇)和一床揚聲器聲道(這將在不存在對節目的其他內容的用戶選擇時被渲染)。所述床(可被稱為默認床)可以由指示回放系統的揚聲器組的配置(例如,初始配置)的數據確定,并且可選地,用戶可以選擇節目的其他音頻內容代替默認床來渲染。節目的元數據可以指示節目的對象聲道中的至少一個對象聲道的內容和所述床中的預定揚聲器聲道和/或替代揚聲器聲道的內容的至少一個(并且典型地多于一個)可選預定混合,并且可以包括用于每個所述混合的渲染參數。圖5的傳送子系統5被配置為存儲和/或發送(例如,廣播)由單元3生成的節目(例如,主混合及其每個次混合,如果有任何次混合生成的話)。在一些實施例中,子系統5實現基于對象的音頻節目的傳送,其中節目的揚聲器聲道和音頻對象(以及至少一些相應的對象相關元數據)通過廣播系統發送(在節目的主混合中,由所廣播的音頻比特流指示),而節目的至少一些元數據(例如,指示對節目的對象聲道的渲染或混合的約束的對象相關元數據)和/或節目的至少一個對象聲道以另一種方式(例如,次混合通過因特網協議或“IP”網絡被發送到特定的終端用戶)被傳送(作為主混合的“次混合”)。作為替代,終端用戶的解碼和/或渲染系統被用至少一些對象相關元數據(例如,指示對本發明的基于對象的音頻節目的實施例的音頻對象的渲染或混合的約束的元數據)來預配置,并且這種對象相關元數據不(由子系統5)利用相應的對象聲道(在基于對象的音頻節目的主混合中或者在次混合中)來廣播或以其它方式傳送。在一些實施例中,通過單獨路徑傳送的基于對象的音頻節目的部分或元素(例如,通過廣播系統廣播的主混合,以及作為次混合通過IP網絡發送的相關元數據)的定時和同步由通過所有傳送路徑(例如,在主混合和每個相應的次混合中)發送的同步字(例如,時間碼)提供。再次參照圖5,解碼器7接受(接收或讀取)由傳送子系統5傳送的節目(或者節目的至少一個比特流或其它元素),并且解碼該節目(或者該節目的每個被接受的元素)。在本發明的一些實施例中,節目包括主混合(編碼比特流,例如,AC-3或E-AC-3編碼比特流)和主混合的至少一個次混合,并且解碼器7接收并解碼主混合(以及可選地還有至少一個次混合)。可選地,該節目中的不需要被解碼的至少一個次混合(例如,對象聲道)由子系統5直接傳送到對象處理子系統9。如果解碼器7是根據本發明的典型實施例配置的,則在典型的操作中解碼器7的輸出包括以下:指示節目的揚聲器聲道床(以及典型地還有節目的替換揚聲器聲道)的音頻樣本流;及指示節目的對象聲道(例如,用戶可選的音頻對象聲道)的音頻樣本流和對應的對象相關元數據(包括條件渲染元數據)流。對象處理子系統9被耦接為(從解碼器7)接收所傳送節目的經解碼的揚聲器聲道、對象聲道和對象相關元數據(包括條件渲染元數據),并且可選地還有節目的至少一個次混合(指示至少一個其它對象聲道)。例如,子系統9可以(從解碼器7)接收節目的揚聲器聲道的音頻樣本和節目的至少一個對象聲道的音頻樣本以及節目的對象相關元數據,并且還可以(從傳送子系統5)接收節目的至少一個其它對象聲道的音頻樣本(尚未在解碼器7中經歷解碼)。子系統9被耦接和配置為向渲染子系統11輸出由節目指示的整組對象聲道的選定子集、以及對應的對象相關元數據。對象聲道的選定子集可以至少部分地由節目的條件渲染元數據確定。子系統9典型地還被配置為不作改變地(向子系統11)傳遞來自解碼器7的經解碼的揚聲器聲道,并且可以被配置為處理對其斷言的對象聲道(和/或元數據)中的至少一些,以生成它向子系統11斷言的對象聲道和元數據。由子系統9執行的對象聲道選擇典型地是通過(如由從控制器10向子系統9斷言的控制數據指示的)用戶選擇和/或子系統9已經被編程或以其它方式被配置(例如,響應于條件渲染元數據)而實現的規則(例如,指示由節目的條件渲染元數據確定的條件和/或下混約束或其他渲染約束)確定的。這種規則可以由節目的條件渲染元數據和/或其他對象相關元數據和/或由(例如,從控制器10或另一外部源)向子系統9斷言的其它數據(例如,指示回放系統的揚聲器陣列的能力和配置的數據)和/或通過預配置(例如,編程)子系統9來確定。在一些實施例中,控制器10(經由控制器10實現的用戶界面)向用戶提供(例如,在觸摸屏上顯示)揚聲器聲道內容(即,床揚聲器聲道和/或替換揚聲器聲道的內容)與對象聲道內容(對象)的可選“預設”混合的菜單或選項板。所述可選預設混合可以由節目的對象相關元數據并且通常還由子系統9實現的規則(例如,由節目的條件渲染元數據確定的規則和/或子系統9已被預配置而實現的規則)確定。用戶通過向控制器10輸入命令(例如,通過致動其觸摸屏)來從可選的混合中進行選擇,并且作為響應,控制器10向子系統9斷言對應的控制數據,以使得根據本發明對相應內容進行渲染。圖5的渲染子系統11被配置為渲染由子系統9的輸出確定的音頻內容,以便由回放系統的回放揚聲器陣列13回放。子系統11已知曉(例如,被提供指示陣列13的回放揚聲器陣列配置的數據)陣列13的回放揚聲器陣列配置(例如,在回放環境中,陣列13的揚聲器數量、陣列13中的每個揚聲器的類型(例如,全范圍或者重低音)、以及陣列13中的每個揚聲器的標稱或假設位置(例如,在地板平面或者聽者耳朵的假設位置的平面內或上方))。子系統11被配置為:利用從子系統9輸出的、與每個選定對象關聯的渲染參數(例如,用戶選擇的和/或默認的空間位置值和水平值),把由對象處理子系統9選擇的對象聲道確定的音頻對象(例如,默認對象,和/或作為用戶使用控制器10進行交互的結果而被選擇的用戶選定對象)映射到可用的揚聲器聲道。至少一些渲染參數是由從子系統9輸出的對象相關元數據確定的。渲染子系統11還接收通過子系統9傳遞的揚聲器聲道。典型地,子系統11是智能混合器,并且被配置為確定用于陣列13中的可用揚聲器的揚聲器饋送,包括通過把一個或更多個選定的(例如,默認選擇的)對象映射到多個單獨的揚聲器聲道中的每一個,并且使對象與由節目的每個相應揚聲器聲道(例如,節目的揚聲器聲道床中的每個揚聲器聲道)指示的揚聲器聲道內容混合。典型地,子系統11被配置為對從子系統9斷言的音頻聲道(例如,揚聲器聲道和至少一個對象聲道)的下混(包括一組N個下混揚聲器聲道,其中N為正整數)進行渲染,根據下混揚聲器聲道生成N個揚聲器饋送,并通過用揚聲器饋送驅動揚聲器來使回放揚聲器陣列13的N個揚聲器發出聲音,其中所述下混符合由其內容被渲染的節目的條件渲染元數據指示的至少一個(例如,每個)下混約束。根據本發明的典型實施例(例如,通過圖5中的單元3)生成的基于對象的音頻節目可以(例如,通過圖5中的回放子系統,或圖6的系統)被渲染為使得指示由回放揚聲器陣列播放的節目的(例如,對象聲道和/或揚聲器聲道的)下混內容的聲音被感知為從聲音再現(回放)環境內的不同明顯源位置發出。對于互動式呈現,由可選對象聲道中的選定對象聲道確定的對象在渲染聲場內的位置(例如,與一組選定對象中的不同選定對象對應的一組不同的靜態位置)被渲染,使得每個選定對象聲道的音頻內容被渲染成被感知為從由與選定對象聲道對應的對象相關元數據確定的明顯源位置(或位置的軌跡)發出。例如,根據基于對象的音頻節目確定的沉浸式聲音混合可以指示這樣的聲音:該聲音又指示(由節目的選定對象聲道確定的)“公共廣播”音頻對象,從而被感知為從再現環境內的假設聽者位置上方的明顯源位置發出,以便在從安裝在聽者上方的公共廣播揚聲器發出通告時給予聽者(消費者)正身處體育場的體驗。可以選擇這種公共廣播音頻對象,以便由揚聲器陣列渲染和回放,所述揚聲器陣列包括物理地位于“地板”平面上方的水平面(有時候被稱為“地板上方”或“高度”平面)內的至少一個地板上方揚聲器,其中“地板”平面是標稱地包括聽者耳朵的預期位置的水平面。典型地,回放揚聲器陣列的其他揚聲器標稱地位于地板平面內。當音頻對象(例如,之前示例中的公共廣播音頻對象)由基于對象的音頻節目的分離的對象聲道確定,并且在該對象聲道被選擇(并且被渲染和播放)時節目的相應元數據指示相應聲音應該被感知為從其發出的地板上方源位置(或地板上方源位置的軌跡)時,我們將該音頻對象稱為“地板上方”(或“高度”)對象,并且將指示該地板上方對象的對象聲道稱為“地板上方”(或“高度”)對象聲道。地板上方音頻對象被典型地渲染和播放為使得所得到的聲音從回放系統揚聲器陣列的至少一個地板上方(或“高度”)揚聲器發出。如果在回放系統揚聲器陣列中不存在地板上方(或“高度”)揚聲器,則可以利用(上述類型的)傳統下混技術來下混節目的選定的“地板上方”對象聲道的內容與揚聲器聲道的內容(其中揚聲器聲道內容打算由回放揚聲器陣列的地板揚聲器播放),使得所得到的下混聲音僅從回放揚聲器陣列的地板揚聲器發出。但是,因為地板上方對象聲道內容會被下混到揚聲器聲道的內容中,所以所述下混會不合需要地導致發聲嘈雜的混合(例如,其中地板上方的內容會被感知為受到原始揚聲器聲道內容的干擾)。在一類實施例中,基于對象的音頻節目(例如,由圖3中的單元3生成的基于對象的節目)包括與該節目的至少一個對象聲道(例如,地板上方對象聲道)對應的條件渲染元數據。因此,由每個這種對象聲道指示的每個音頻對象具有相應的條件渲染元數據。例如,在一些實施例中,具有相應條件渲染元數據的音頻對象可以是地板上方對象。條件渲染元數據是指示適用于每個相應對象聲道(即,與條件渲染元數據對應的每個對象聲道)的基于回放揚聲器陣列配置的至少一個渲染約束(例如,至少一個下混約束)的對象相關元數據。這種下混約束的示例是:當回放揚聲器陣列配置為特定類型時,禁止下混相應的對象聲道。(已知曉其回放揚聲器陣列為此特定類型的)回放系統可以被配置(例如,被預配置,或者響應于節目的元數據而被配置)為通過防止實現節目的對象聲道到揚聲器聲道的任何下混來響應于條件渲染元數據進行操作。這種下混約束的另一個示例是當回放揚聲器陣列配置為特定類型時對包括相應對象聲道的至少一個允許下混(或下混類型)的指示。在第三示例中,條件渲染元數據可以指示:相應對象聲道為第一類型(例如,對象聲道指示地板上方對象),并且當回放揚聲器陣列配置為第二類型(例如,當該陣列不包括地板上方揚聲器)時,該節目的第一類型的對象聲道不被下混成打算用于驅動回放揚聲器陣列的任何揚聲器的揚聲器聲道。假設該節目包括此類型的條件元數據,則已知曉其回放揚聲器陣列為第二類型的回放系統(例如,圖6的系統或圖5的回放系統)可以被配置(例如,被預配置,或者響應于該節目的元數據而被配置)為通過認識到對象聲道為第一類型并且防止實現對象聲道到(由用戶選擇的節目內容混合指定的)打算用于驅動回放揚聲器陣列的任何揚聲器的揚聲器聲道的任何下混來響應于條件渲染元數據進行操作。在這種情況中,回放系統可以被配置為還通知(例如,通過在圖5的控制器10或圖6的控制器23的顯示屏上顯示通知)用戶所選擇的混合不可用。另外假設節目包括此類型的條件渲染元數據,(已知曉其回放揚聲器陣列不是第二類型的)回放系統可以被配置為通過認識到對象聲道為第一類型并且實現對象聲道到(由對節目內容的用戶選擇的混合或默認混合指定的)打算用于驅動回放揚聲器陣列的揚聲器的揚聲器聲道的下混來響應于條件渲染元數據進行操作。可選地,基于對象的音頻節目中所包括的條件渲染元數據還指示用于對該節目的音頻聲道進行渲染(例如,實現其下混)的基于回放揚聲器陣列配置的至少一個渲染規則(例如,至少一個下混規則)。例如,條件渲染元數據可以指示下面的下混規則:如果回放揚聲器陣列至少包括一個地板上方揚聲器,則節目的第一類型(例如,由節目的至少一些條件渲染元數據指示)的每個對象聲道應該被下混到由用戶選擇的(或默認的)任何節目內容混合所指定的任何揚聲器聲道中,如果回放揚聲器陣列不包括至少一個地板上方揚聲器,則節目的第一類型的每個對象聲道應該被回放系統忽略(即,不應該被包括任何下混中),以及不管回放揚聲器陣列的配置如何,節目的第二類型(例如,由節目的至少一些條件渲染元數據指示)的每個對象聲道應該被下混到由用戶選擇的(或默認的)任何節目聲道內容混合所指定的任何揚聲器聲道中。在一類實施例中,本發明是用于生成由揚聲器陣列(例如,圖5的回放揚聲器陣列13)回放的基于對象的音頻節目的方法,該方法包括以下步驟:(例如,在圖5的單元3中)生成與至少一個對象聲道對應的條件渲染元數據,使得條件渲染元數據指示適用于所述至少一個對象聲道的基于回放揚聲器陣列配置(例如,回放揚聲器陣列13的配置)的至少一個渲染約束(例如,至少一個下混約束);(例如,在圖5的單元3中)確定包括所述至少一個對象聲道(以及可選地還有至少一個揚聲器聲道)的一組音頻聲道;以及(例如,在圖5的單元3中)生成基于對象的音頻節目,使得所述基于對象的音頻節目指示所述一組音頻聲道和條件渲染元數據,并且使得所述一組音頻聲道中的至少一個音頻聲道的內容能夠響應于條件渲染元數據中的至少一些來由回放系統以符合所述至少一個渲染約束的方式渲染。由條件渲染元數據指示的下混約束的示例是當回放揚聲器陣列配置為特定類型時禁止下混相應對象聲道。由條件渲染元數據指示的渲染約束(其為下混約束)的另一個示例是當回放揚聲器陣列配置為特定類型時對包括相應對象聲道的至少一個允許下混(或下混類型)的指示。可選地,條件渲染元數據還指示用于實現對節目的音頻聲道的下混的、基于回放揚聲器陣列配置的至少一個下混規則。在其他實施例中,本發明是渲染由基于對象的音頻節目確定的音頻內容的方法,其中所述節目指示與至少一個對象聲道對應的條件渲染元數據以及包括所述至少一個對象聲道(以及可選地還有至少一個揚聲器聲道)的一組音頻聲道,并且其中條件渲染元數據指示適用于所述至少一個對象聲道的基于回放揚聲器陣列配置的至少一個渲染約束(例如,至少一個下混約束),該方法包括以下步驟:(a)將基于對象的音頻節目提供給音頻處理單元(例如,實現圖5的回放子系統的音頻處理單元,其包括解碼器7、對象處理子系統9、控制器10和渲染子系統11;或者實現圖6的回放系統的音頻處理單元);以及(b)在音頻處理單元中(例如,在圖5的解碼器7或圖6的解碼器20中),解析條件渲染元數據和所述一組音頻聲道,并且響應于條件渲染元數據中的至少一些來以符合所述至少一個渲染約束的方式(例如,在圖5的子系統9和11或者圖6的子系統24中)渲染所述一組音頻聲道中的至少一個音頻聲道的內容。在一些這種實施例中,步驟(b)包括如下步驟:(例如,在圖6的子系統22中)選擇所述一組音頻聲道中的至少一個對象聲道,并且(例如,在圖6的子系統24中)使組中的每個選定對象聲道與組中的至少一個揚聲器聲道混合,以生成下混。典型地,所述下混包含一組N個下混揚聲器聲道,其中N為正整數,并且步驟(b)包括如下步驟:通過用根據下混揚聲器聲道生成的揚聲器饋送驅動揚聲器來使回放揚聲器陣列的N個揚聲器發出聲音。由條件渲染元數據指示的下混約束的示例是當回放揚聲器陣列配置為特定類型時禁止下混相應對象聲道。由條件渲染元數據指示的下混約束的另一個示例是當回放揚聲器陣列配置為特定類型時對包括相應對象聲道的至少一個允許下混(或下混類型)的指示。可選地,條件渲染元數據還指示基于回放揚聲器陣列配置的至少一個渲染規則(例如,至少一個下混規則),并且在步驟(b)中執行的渲染符合所述渲染規則。下面的表1闡釋了可以由基于對象的音頻節目中的條件渲染元數據指示的基于回放揚聲器陣列配置的下混中的音頻對象布置以及基于回放揚聲器陣列配置的下混啟用類型的示例。在表1中,列代表節目的不同音頻對象聲道(因此由節目指示的音頻對象),行表示執行下混的回放系統的不同回放揚聲器陣列配置:表1環境主現場解說主隊現場解說客隊現場解說公告立體聲L/RL/R5.15.1Ls/Rs5.1+4個高度5.1+高度Ls/Rs高度在表1的示例中,節目指示在兩隊競技的體育賽事中捕捉的音頻,并且至少包括以下對象聲道(如表1中所示):環境聲道(指示在賽事中捕捉的環境內容);主現場解說聲道(“主現場解說”),指示不偏向于支持任何一隊的現場解說;第二現場解說聲道(“主隊現場解說”),指示偏向于支持主隊的現場解說;第三現場解說聲道(“客隊現場解說”),指示偏向于支持客隊的現場解說;以及公告聲道(“公告”),指示公共廣播音頻。公告聲道的公共廣播內容打算由回放揚聲器陣列的地板上方揚聲器渲染(使得所得到的聲音被感知為從假設聽者位置上方的明顯源位置發出)。主現場解說、第二現場解說和第三現場解說聲道中的每一個打算由回放揚聲器陣列的左環繞和右環繞地板揚聲器渲染(使得所發出的聲音被感知為從其發出的每個明顯源位置標稱地在聽者耳朵的平面內)。環境聲道打算由回放揚聲器陣列的所有揚聲器渲染(即,所有可用的地板揚聲器和地板上方揚聲器)。在示例中,條件渲染元數據指示出:當回放揚聲器為立體聲揚聲器陣列(僅包含左(“L”)地板揚聲器和右(“R”)地板揚聲器)時,環境對象聲道和/或主現場解說對象聲道可以與節目的其他音頻內容(除了公告聲道的內容)下混,以生成用于驅動立體聲揚聲器的左和右下混聲道。條件渲染元數據還指示出:當回放揚聲器陣列為立體聲揚聲器陣列時,公告對象聲道不應該與節目的其他音頻內容下混(即,條件渲染元數據建立防止下混公告對象聲道內容的規則)。在示例中,條件渲染元數據還指示出:當回放揚聲器陣列為5.1揚聲器陣列(其全頻率范圍揚聲器為左(“L”)、中央(“C”)、右(“R”)、左環繞(“Ls”)和右環繞(“Rs”)地板揚聲器)時,主現場解說對象聲道可以與節目的其他音頻內容(除了公告聲道內容)下混,以生成用于驅動陣列的Ls和Rs地板揚聲器的左環繞和右環繞下混聲道。條件渲染元數據還指示出:當回放揚聲器陣列為5.1揚聲器陣列時,環境對象聲道可以與節目的其他音頻內容(除了公告聲道內容)下混,以生成用于驅動陣列的L、R、C、Ls和Rs地板揚聲器的左、右、中央、左環繞和右環繞下混聲道。條件渲染元數據還指示出:當回放揚聲器陣列為5.1揚聲器陣列時,公告對象聲道不應該與節目的其他音頻內容下混(即,條件渲染元數據建立防止下混公告對象聲道內容的規則)。在示例中,條件渲染元數據還指示出:當回放揚聲器陣列為5.1.4揚聲器陣列(其全頻率范圍揚聲器為左(“L”)、中央(“C”)、右(“R”)、左環繞(“Ls”)和右環繞(“Rs”)地板揚聲器,以及四個“高度”揚聲器)時,主現場解說對象聲道可以與節目的其他音頻內容(除了公告聲道內容)下混,以生成用于驅動左環繞和右環繞地板揚聲器的左環繞和右環繞下混聲道。條件渲染元數據還指示出:當回放揚聲器陣列為5.1.4揚聲器陣列時,環境對象聲道可以與節目的其他音頻內容(除了公告聲道內容)下混,以生成用于驅動陣列的L、R、C、Ls和Rs地板揚聲器以及4個高度揚聲器的左、右、中央、左環繞、右環繞和4個高度下混聲道。條件渲染元數據還指示出:當回放揚聲器陣列為5.1.4揚聲器陣列時,公告對象聲道不應該與節目的其他音頻內容下混到地板揚聲器下混聲道中(即,條件渲染元數據建立防止將公告對象聲道的內容下混到下混的地板聲道中的規則)。條件渲染元數據不建立防止將公告對象聲道與節目的其他音頻內容(例如,另一個高度對象聲道的內容)下混以生成用于驅動回放揚聲器陣列的高度揚聲器的高度下混聲道的任何規則。根據本發明的典型實施例,假定一個特定的回放揚聲器陣列配置,響應于(假設已知曉可用回放揚聲器陣列配置的)節目中所包括的條件渲染元數據而對基于對象的音頻節目的對象聲道內容的條件渲染允許用戶從可用的渲染選項(例如,下混渲染選項)的菜單中進行選擇。例如,假定回放揚聲器陣列僅包含5.1聲道配置中的地板揚聲器,則菜單可以包括少量的可選下混渲染選項,包括以下選項:“主隊現場解說”下混,包括一床下混有“主隊現場解說”對象的揚聲器聲道的內容;“客隊現場解說”下混,包括一床下混有“客隊現場解說”對象的揚聲器聲道的內容;以及“主隊現場解說加主隊人群噪聲”下混,包括一床下混有“主隊現場解說”對象和“主隊人群噪聲”對象的揚聲器聲道的內容。對于另一個示例,假定回放揚聲器陣列包括(例如,5.1聲道配置中的)地板揚聲器和一組高度(地板上方)揚聲器,菜單可以包括更多的可選下混渲染選項,包括以下選項:“主隊現場解說”地板下混,包含一床下混有“主隊現場解說”對象的揚聲器聲道的內容(用于僅驅動陣列的地板揚聲器);“客隊現場解說”地板下混,包含一床下混有“客隊現場解說”對象的揚聲器聲道的內容(用于僅驅動陣列的地板揚聲器);“主隊現場解說加主隊人群噪聲”地板下混,包含一床下混有“主隊現場解說”對象和“主隊人群噪聲”對象的揚聲器聲道的內容(用于僅驅動陣列的地板揚聲器);以及“主隊現場解說加主隊人群噪聲加公告”下混,包含一床下混有“主隊現場解說”對象、“主隊人群噪聲”對象和公告對象的揚聲器聲道的內容(用于驅動陣列的所有揚聲器,但是公告對象聲道的內容僅包括在驅動陣列的地板上方揚聲器的下混揚聲器饋送中,而所有其他下混內容僅包括在驅動陣列的地板揚聲器的下混揚聲器饋送中)。可以通過控制器的用戶界面(例如,由圖5的控制器10或圖6的控制器23實現的用戶界面)將渲染選項的菜單呈現給用戶,并且該控制器可耦接到被配置為(至少部分地)解碼和渲染基于對象的節目的機頂設備(或其他設備)。該節目中所包括的元數據(包括條件渲染元數據)可以允許用戶從關于由節目指示的哪些對象應該被渲染以及關于要渲染的對象應該如何與節目的其他內容下混的一組選項中進行選擇,使得所得到的下混內容的聲道可被渲染。在一些實施例中,假定具有(一組可能的回放揚聲器陣列配置中的)特定相應配置的回放揚聲器可用,條件渲染元數據至少指定能被用戶選擇的(節目的音頻內容的)每個可選下混(例如,由下混渲染選項菜單指示的每個可選下混)的以下屬性:存在(即,對于每個對象聲道,關于該對象聲道是否應該存在于下混中以便由具有相應配置的回放揚聲器陣列渲染的指示);聲場內的位置(即,對于將被包括在下混中以便由具有相應配置的回放揚聲器陣列渲染的每個對象聲道,當由下混確定的揚聲器饋送對可用揚聲器進行驅動時,相應聲音應該被感知為從其發出的明顯空間位置的指示);增益(即,對于將被包括在下混中以便由具有相應配置的回放揚聲器陣列渲染的每個對象聲道,當生成該下混時要施加到相應聲道樣本的增益的指示);效果(即,對于將被包括在下混中以便由具有相應配置的回放揚聲器陣列渲染的每個對象聲道,當生成下混時要應用于相應音頻樣本的特殊效果處理(如果有的話)的每個種類的指示。這種處理的示例包括但不限于發散處理和混響應用)。本發明的實施例的各方面包括以下:用于(例如,在創作系統或內容創建設備中)生成條件渲染元數據并且將元數據包括在基于對象的音頻節目中的方法和系統(例如,本發明的節目生成系統(例如,圖5的單元3)的一些實施例被編程或以其他方式被配置為執行創作軟件或者以其他方式使用創作工具來定義和生成條件渲染元數據,以便包括在基于對象的音頻節目中);以及用于解碼基于對象的音頻節目(包括通過解析節目的條件渲染元數據)和/或渲染基于對象的音頻節目的內容(包括通過解析條件渲染元數據和根據條件渲染元數據執行對節目內容的下混)的方法和系統(例如,解碼器和回放系統)。在一些實施例中,基于對象的音頻節目的對象相關元數據(包括條件渲染元數據)包括(或包含)指示一組可選體驗定義的可選內容元數據。每個體驗定義都是節目的音頻內容的可選的、預定的(“預設的”)混合(例如,至少一個對象聲道和至少一個揚聲器聲道的內容的混合)。每個預設混合具有一組預定的渲染參數(例如,渲染對象的空間位置)。預設混合可以由回放系統的用戶界面(例如,由圖5的控制器10或圖6的控制器23實現的用戶界面)呈現為可用混合的有限菜單或選項板。可選地,節目的對象相關元數據(包括條件渲染元數據)包括指示分層混合圖的元數據,所述分層混合圖指示節目的揚聲器聲道和對象聲道的可選混合(例如,所有可選混合)。圖6是可被實現為執行本發明的方法實施例的回放系統的實施例的框圖,該回放系統包括如圖所示那樣耦接的解碼器20、對象處理系統22、空間渲染子系統25、(實現用戶界面的)控制器23、以及可選地還有數字音頻處理子系統25、26和27。在一些實現方式中,圖6系統的元件20、22、24、25、26、27、29、31和33被實現為機頂設備。在圖6的系統中,解碼器20被配置為接收和解碼指示基于對象的音頻節目(或者基于對象的音頻節目的主混合)的編碼信號。根據本發明的實施例,典型地,節目(例如,節目的主混合)指示包括一床至少兩個揚聲器聲道、至少一個用戶可選的對象聲道、以及與每個對象聲道對應的對象相關元數據(包括條件渲染元數據)的音頻內容。每個對象聲道指示音頻對象,因此為了方便,對象聲道有時在本文中被稱為“對象”。在實施例中,節目是AC-3或E-AC-3比特流(或者包括作為AC-3或E-AC-3比特流的主混合),指示音頻對象、對象相關元數據(包括條件渲染元數據)、一床揚聲器聲道以及選擇性地還有可選的替換揚聲器聲道。典型地,單獨的音頻對象被單聲道編碼或者立體聲編碼(即,每個對象聲道指示對象的左或右聲道,或者是指示對象的單聲道),所述床是傳統的5.1混合,并且解碼器20可以被配置為同時解碼多達16個聲道的音頻內容(包括所述床的6個揚聲器聲道、替換揚聲器聲道和對象聲道)。在本發明的回放系統的一些實施例中,進入的E-AC-3(或AC-3)編碼比特流的每幀包括一個或兩個元數據“容器”。進入的比特流指示基于對象的音頻節目或者這種節目的主混合,并且節目的揚聲器聲道被組織作為常規的E-AC-3(或AC-3)比特流的音頻內容。一個容器可以被包括在所述幀的Aux字段中,而另一個容器可以被包括在所述幀的addbsi字段中。每個容器具有核心頭部并且包括(或關聯)一個或更多個有效載荷。(Aux字段中所包括的容器的或者與其關聯的)一個這種有效載荷可以是(與同樣由節目指示的一床揚聲器聲道有關的)一個或更多個對象聲道中的每一個對象聲道的一組音頻樣本和與每個對象聲道關聯的對象相關元數據(包括條件渲染元數據)。在這種有效載荷中,一些或全部對象聲道的樣本(和關聯的元數據)可以被組織為標準的E-AC-3(或AC-3)幀,或者可以以其它方式組織(例如,它們可以被包括在與E-AC-3或AC-3比特流不同的次混合中)。(addbsi字段或Aux字段中所包括的容器的或者與其關聯的)另一個這種有效載荷的示例是一組與幀的音頻內容關聯的響度處理狀態元數據。在一些這種實施例中,解碼器(例如,圖6的解碼器20)將解析Aux字段中的容器的核心頭部,并且從容器(例如,從AC-3或E-AC-3幀的Aux字段)和/或從由核心頭部指示的位置(例如,次混合)提取本發明的對象聲道和關聯的元數據。在提取有效載荷(對象聲道和關聯的元數據)之后,解碼器將對所提取的有效載荷執行任何必要的解碼。每個容器的核心頭部典型地包括:至少一個ID值,指示容器所包括或者關聯的有效載荷的類型;子流關聯指示(指示核心頭部與哪些子流關聯);以及保護比特。這種保護比特(可以包含或者包括基于散列(hash-based)的消息認證碼或“HMAC”)典型地有益于對被包括在容器中或者與其關聯的至少一個有效載荷中的對象相關元數據(包括條件渲染元數據)和/或響度處理狀態元數據(以及可選地還有其它元數據)和/或被包括在幀中的對應音頻數據的解密、認證或確認之一。子流可以位于“帶內”(在E-AC-3或AC-3比特流中)或者“帶外”(例如,在與E-AC-3或AC-3比特流分開的次混合比特流中)。一種類型的這種有效載荷是(與同樣由節目指示的所述一床揚聲器聲道有關的)一個或更多個對象聲道的中的每一個對象聲道的一組音頻樣本和與每個對象聲道關聯的對象相關元數據。每個對象聲道是單獨的子流,并且典型地將在核心頭部中被標識。另一種類型的有效載荷是響度處理狀態元數據。典型地,每個有效載荷具有它自己的頭部(或者“有效載荷標識符”)。對象級的元數據可以攜帶在作為對象聲道的每個子流中。節目級的元數據可以被包括在容器的核心頭部中和/或在用于有效載荷的頭部中,其中有效載荷是一個或更多個對象聲道的一組音頻樣本(以及與每個對象聲道關聯的元數據)。在一些實施例中,所述幀的auxdata(或addbsi)字段中的每個容器具有三級結構:高級結構,包括指示auxdata(或addbsi)字段是否包括元數據的標志(其中在這種語境下的“元數據”表示對象聲道、對象相關元數據、以及由比特流攜帶但是一般不攜帶在缺乏所述類型的任何容器的常規E-AC-3或AC-3比特流中的任何其它音頻內容或元數據)、指示存在什么類型的元數據的至少一個ID值,并且通常還包括(如果元數據存在的話)指示存在多少比特的(例如,每種類型的)元數據的值。在這種語境下,一個這種“類型”的元數據的示例是對象聲道數據和關聯的對象相關元數據(即,(與同樣由節目指示的所述一床揚聲器聲道有關的)一個或更多個對象聲道中的每一個對象聲道的一組音頻樣本以及與每個對象聲道關聯的元數據);中間級結構,包括用于每種識別類型的元數據的核心元素(例如,對于每種識別類型的元數據,例如上述類型的核心頭部、保護值、以及有效載荷ID和有效載荷尺寸值);及低級結構,如果核心元素識別出存在至少一個這種有效載荷,則包括用于一個核心元素的每個有效載荷。這種有效載荷的示例是(與同樣由節目指示的所述一床揚聲器聲道有關的)一個或更多個對象聲道中的每一個對象聲道的一組音頻樣本以及與每個對象聲道關聯的元數據。這種有效載荷的另一個示例是包括響度處理狀態元數據(“LPSM”)的有效載荷,有時被稱為LPSM有效載荷。這種三級結構中的數據值可以嵌套。例如,在核心元素識別出的每個有效載荷之后(因此在核心元素的核心頭部之后),可以包括由核心元素識別出的有效載荷(例如,LPSM有效載荷)的保護值。在一個示例中,核心頭部可以識別第一有效載荷(例如,LPSM有效載荷)和另一有效載荷,第一有效載荷的有效載荷ID和有效載荷尺寸值可以跟在核心頭部之后,第一有效載荷自身可以跟在所述ID和尺寸值之后,第二有效載荷的有效載荷ID和有效載荷尺寸值可以跟在第一有效載荷之后,第二有效載荷自身可以跟在這些ID和尺寸值之后,并且任何一個或兩個有效載荷(或者核心元素和任何一個或兩個有效載荷)的保護值可以跟在最后一個有效載荷之后。再次參照圖6,用戶利用控制器23來選擇要渲染的對象(由基于對象的音頻節目指示)。控制器23可以是被編程為實現與圖6系統的其它元素兼容的用戶界面(例如,iPad應用)的手持式處理設備(例如,iPad)。用戶界面可以向用戶提供(例如,在觸摸屏上顯示)對象、“床”揚聲器聲道內容和替換揚聲器聲道內容的可選“預設”混合的菜單或選項板。所述可選預設混合可以由節目的對象相關元數據(包括條件渲染元數據)確定,并且通常還由子系統22實現的規則(例如,子系統22已被預配置為實現的規則)確定,假設子系統22已知曉可用回放揚聲器陣列的配置。用戶通過向控制器23輸入命令(例如,通過致動其觸摸屏)來選擇可選的混合,并且作為響應,控制器23將向子系統22斷言相應的控制數據。在操作中,解碼器20解碼節目的揚聲器聲道床中的揚聲器聲道(以及節目中所包括的任何替換揚聲器聲道),并且向子系統22輸出經解碼的揚聲器聲道。響應于基于對象的音頻節目,并且響應于來自控制器23的、指示要渲染(包括通過經歷下混)的節目的整組對象聲道的選定子集的控制數據,解碼器20解碼(如果必要的話)所選定的對象聲道,并且向子系統22輸出所選定的(例如,經解碼的)對象聲道(其中每個都可以是脈沖編碼調制的或“PCM”比特流)、以及對應于選定對象聲道的對象相關元數據。除了來自解碼器20的經解碼的揚聲器聲道、經解碼的對象聲道和經解碼的對象相關元數據之外,對象處理子系統22的輸入還可選地包括向系統斷言(例如,作為其主混合向解碼器20斷言的節目的一個或更多個次混合)的外部音頻對象聲道。由這種外部音頻對象聲道指示的對象示例包括本地解說(例如,由無線電頻道傳送的單聲道音頻內容)、進入的Skype呼叫、進入的twitter連接(經由文本到語音系統轉換,在圖6中未示出)、以及系統聲音。子系統22被配置為輸出由節目指示的整組對象聲道的選定子集(或整組對象聲道的選定子集的處理版本)和節目的相應對象相關元數據、以及替換揚聲器聲道和/或床揚聲器聲道中的一組選定揚聲器聲道。對象聲道選擇和揚聲器聲道選擇可以通過(如由從控制器23向子系統22斷言的控制數據所指示的)用戶選擇和/或子系統22已被編程為或以其它方式被配置而實現的規則(例如,指示條件和/或約束)來確定。這種規則可以由節目的對象相關元數據(包括條件渲染元數據)和/或由(例如,從控制器23或另一外部源)向子系統22斷言的其它數據(包括指示回放系統的揚聲器陣列的配置(例如,能力和組織)的數據)確定和/或通過預配置(例如,編程)子系統22來確定。在一些實施例中,節目的對象相關元數據(包括條件渲染元數據)確定(一床揚聲器聲道和/或替換揚聲器聲道的)揚聲器聲道內容和對象的一組可選“預設”混合。子系統22通常不作改變地(向子系統24)傳遞來自解碼器20的經解碼的揚聲器聲道(床揚聲器聲道以及典型地還有替換揚聲器聲道)的選定子集(例如,床中的至少一個揚聲器聲道和至少一個替換揚聲器聲道),并且處理向其斷言的對象聲道中的選定對象聲道。由子系統22執行的對象處理(包括對象選擇)通常由來自控制器23的控制數據和來自解碼器20的對象相關元數據(以及可選地還有向子系統22斷言的除來自解碼器20之外的次混合的對象相關元數據)控制,并且典型地包括對于每個選定對象的空間位置和水平的確定(而不管對象選擇是由于用戶選擇還是由于通過規則施加而進行的選擇)。典型地,用于渲染對象的默認空間位置和默認水平、以及關于對象及其(將在子系統24中生成的下混聲道中的)水平和(由這種下混聲道指示的)空間位置的用戶選擇的約束都被包括在(例如,從解碼器20)向子系統22斷言的對象相關元數據(包括條件渲染元數據)中或者由該對象相關元數據(包括條件渲染元數據)指示。這種約束可以指示(下混中的)對象的禁止組合或者(由下混聲道指示的)選定對象可以渲染的禁止空間位置(例如,以防止選定對象彼此太靠近地渲染,或者為了防止特定對象被包括在用于生成驅動可用回放揚聲器陣列的揚聲器饋送的下混聲道中)。此外,個別選定對象的響度通常由對象處理子系統22響應于利用控制器23輸入的控制數據、和/或由(例如,來自解碼器20的)對象相關元數據指示的默認水平和/或通過子系統22的預配置來控制。典型地,由解碼器20執行的解碼包括(從輸入節目)提取元數據,其中元數據指示由節目指示的每個對象的音頻內容的類型(例如,由節目的音頻內容指示的體育賽事的類型,以及由節目指示的可選和默認對象的名稱或其它識別記號(例如,隊標))。控制器23和對象處理子系統22接收這種元數據或者由該元數據指示的相關信息。控制器23還接收(例如,用后述信息編程)關于用戶的回放揚聲器陣列的配置的信息(例如,揚聲器的數目、以及揚聲器的假設布置和其它假設組織)。圖6的空間渲染子系統24(或者具有至少一個下游設備或系統的子系統24)被配置為渲染從子系統22輸出的音頻內容輸出,以便由用戶的回放揚聲器陣列的揚聲器回放。一個或更多個可選地包括的數字音頻處理子系統25、26和27可以對子系統24的輸出實現后期處理。空間渲染子系統24被配置為把揚聲器聲道內容(例如,由子系統22確定并且被從子系統22傳遞到子系統24的一組選定的床揚聲器聲道和替換揚聲器聲道)和由對象處理子系統22選擇(或者選擇并處理)并向子系統24斷言的每個音頻對象聲道的內容(例如,默認選擇的對象、和/或已經作為用戶利用控制器23進行交互的結果而選擇的用戶選擇的對象)下混為可用的揚聲器聲道。所述下混是使用從子系統22輸出的與每個選定對象關聯的渲染參數(例如,空間位置和水平的用戶選擇的和/或默認的值)實現的。典型地,子系統24是智能混合器,并且被配置為確定用于可用揚聲器的揚聲器饋送,包括通過將一個、兩個或多于兩個選定對象聲道的內容映射到多個單獨的揚聲器聲道中的每一個,并且執行使選定對象聲道與由每個相應揚聲器聲道指示的音頻內容混合的下混。在一些實現方式中,所輸出得(下混的)揚聲器聲道的數目可以在2.0和7.1之間變化,并且被驅動渲染(與選定揚聲器聲道內容的下混中的)選定音頻對象聲道的揚聲器可以假設位于回放環境中的(標稱)水平面內。在這種情況下,執行渲染,使得揚聲器可以被驅動發出這樣的聲音:該聲音將被感知為從揚聲器平面內的不同對象位置(即,對于每個選定的或默認的對象,一個對象位置,或者沿軌跡的一系列對象位置)發出,并與由揚聲器聲道內容確定的聲音混合。在各種實施例中,被驅動渲染下混音頻的全范圍揚聲器的數目可以是寬范圍內的任何數目(不一定局限于從2至7的范圍),因此輸出揚聲器聲道的數目不限于在從2.0至7.1的范圍內。在一些實施例中,被驅動渲染下混音頻的揚聲器假設位于回放系統中的任意位置,而不僅僅是在(標稱)水平面內。在一些此類情況下,節目中所包括的元數據指示用于使用揚聲器的三維陣列在任何明顯空間位置(在三維空間內)對節目的至少一個對象進行渲染的渲染參數。例如,對象聲道可以具有指示要渲染(由對象聲道指示的)對象處的明顯空間位置的三維軌跡的相應元數據。軌跡可以包括一系列“地板”位置(在假設位于回放環境的地板平面內)、以及一系列“地板上方”位置(各自通過驅動假設位于回放環境的至少一個其他水平面內的揚聲器子集來確定)。在這種情況下,可以根據本發明來執行渲染,使得揚聲器可以被驅動發出(由相關對象聲道確定的)這樣的聲音:該聲音將被感知為從三維空間中包括該軌跡的一系列對象位置發出,并且與由揚聲器聲道內容確定的聲音混合。子系統24可以被配置為實現這種渲染、或其步驟,而渲染的剩余步驟由下游系統或設備(例如,圖6的渲染子系統35)執行。可選地,數字音頻處理(DAP)級(例如,多個預定輸出(下混)揚聲器聲道配置中的每一個有一個)耦接到空間渲染子系統24的輸出,以便對空間渲染子系統的輸出執行后期處理。這種處理的示例包括智能均衡(intelligentequalization)或者(在立體聲輸出的情況下)揚聲器虛擬化處理。圖6系統的輸出(例如,空間渲染子系統的輸出,或者空間渲染階段之后的DAP級)可以是PCM比特流(其確定用于可用揚聲器的揚聲器饋送)。例如,在用戶的回放系統包括7.1揚聲器陣列的情況下,系統可以輸出(在子系統24中生成的)確定用于這種陣列的揚聲器的揚聲器饋送的PCM比特流、或者(在DAP25中生成的)這種比特流的后期處理版本。對于另一個示例,在用戶的回放系統包括5.1揚聲器陣列的情況下,系統可以輸出(在子系統24中生成的)確定用于這種陣列的揚聲器的揚聲器饋送的PCM比特流、或者(在DAP26中生成的)這種比特流的后期處理版本。對于另一個示例,在用戶的回放系統只包括左和右揚聲器的情況下,系統可以輸出(在子系統24中生成的)確定用于左和右揚聲器的揚聲器饋送的PCM比特流、或者(在DAP27中生成的)這種比特流的后期處理版本。圖6的系統可選地還包括重新編碼子系統31和33中的一個或兩個。重新編碼子系統31被配置為把從DAP25輸出的PCM比特流(指示用于7.1揚聲器陣列的饋送)重新編碼為E-AC-3編碼比特流,并且所得到的經編碼的(經壓縮的)E-AC-3比特流可以從系統輸出。重新編碼子系統33被配置為把從DAP27輸出的PCM比特流(指示用于5.1揚聲器陣列的饋送)重新編碼為AC-3或E-AC-3編碼比特流,并且所得到的經編碼的(經壓縮的)E-AC-3比特流可以從系統輸出。圖6的系統可選地還包括重新編碼(或格式化)子系統29和被耦接為接收子系統29的輸出的下游渲染子系統35。子系統29被耦接為接收(從子系統22輸出的)指示選定音頻對象(或音頻對象的默認混合)的數據、對應的對象相關元數據和經解碼的揚聲器聲道(例如,床揚聲器聲道和替換揚聲器聲道),并且被配置為重新編碼(和/或格式化)這種數據,以便由子系統35渲染。可以在AVR或條形音箱(或者在子系統29下游的其它系統或設備)中實現的子系統35被配置為響應于子系統29的輸出來生成用于可用回放揚聲器(揚聲器陣列36)的揚聲器饋送(或者確定揚聲器饋送的比特流)。例如,通過把指示選定的(或默認的)音頻對象、對應的元數據(包括條件渲染元數據)和揚聲器聲道的數據重新編碼成適合于在子系統35中渲染的格式,子系統29可被配置為生成編碼音頻,并且(例如,經由HDMI鏈接)把編碼音頻發送到子系統35。響應于由子系統35生成(或者由子系統35的輸出確定的)揚聲器饋送,可用揚聲器36將發出指示揚聲器聲道內容與選定(或默認)對象的混合的聲音,其中所述對象具有由子系統29輸出的對象相關元數據確定的明顯源位置。當包括了子系統29和35時,可選地從系統中省略渲染子系統24。在一些實施例中,本發明是用于渲染基于對象的音頻的分布式系統,其中渲染的一部分(即,至少一個步驟)(例如,如由圖6系統的子系統22和控制器23執行的對要渲染的音頻對象的選擇和對每個選定對象的渲染特性的選擇)在第一子系統(例如,在機頂設備中實現的圖6的元件20、22和23,或者機頂設備和手持式控制器)中實現,而渲染的另一部分(例如,其中響應于第一子系統的輸出來生成揚聲器饋送或者確定揚聲器饋送的信號的沉浸式渲染)在第二子系統(例如,在AVR或條形音箱中實現的子系統35)中實現。提供分布式渲染的一些實施例還實現延遲管理,以便考慮執行音頻渲染(以及與正在渲染的音頻對應的任何視頻處理)的各個部分的不同時刻和不同子系統。在本發明的回放系統的一些實施例中,每個解碼器和對象處理子系統(有時被稱為個性化引擎)在機頂設備(STB)中實現。例如,圖6的元件20和22和/或圖7系統的所有元件可以在STB中實現。在本發明的回放系統的一些實施例中,對個性化引擎的輸出執行多種渲染,以確保所有STB輸出(例如,HDMI、S/PDID和STB的立體聲模擬輸出)都被啟用。可選地,選定對象聲道(和對應的基于對象的元數據)與揚聲器聲道(和解碼的揚聲器聲道床一起)從STB傳遞到被配置為渲染對象聲道與揚聲器聲道的混合的下游設備(例如,AVR或條形音箱)。在一類實施例中,本發明的基于對象的音頻節目包括被并行地生成和發送的一組比特流(多個比特流,可以被稱為“子流”)。在一些實施例中,在這種情況下,采用多個解碼器來解碼子流的內容(例如,節目包括多個E-AC-3子流并且回放系統采用多個E-AC-3解碼器來解碼子流的內容)。圖7是被配置為解碼和渲染本發明的基于對象的音頻節目的實施例的回放系統的框圖,其中所述基于對象的音頻節目包括多個并行傳送的串行比特流。圖7的回放系統是圖6系統的變型,其中基于對象的音頻節目包括被并行傳送到回放系統并被回放系統接收的多個比特流(B1、B2...BN,其中N是某個正整數)。每個比特流(“子流”)B1、B2...和BN是包括時間碼或其它同步字(參照圖7,為了方便,被稱為“同步字”)的串行比特流,以允許子流彼此同步或時間對齊。每個子流還包括整組對象聲道的不同子集以及對應的對象相關元數據,并且至少一個子流包括揚聲器聲道(例如,床揚聲器聲道和替換揚聲器聲道)。例如,在每個子流B1、B2...BN中,包括對象聲道內容和對象相關元數據的每個容器包括唯一的ID或時間戳。圖7的系統包括N個去格式化器50、51...53,每個去格式化器被耦接和配置為解析一個不同的輸入子流,并且向比特流同步級59斷言元數據(包括其同步字)及其音頻內容。去格式化器50被配置為解析子流B1,以及向比特流同步級59斷言其同步字(T1)、其它元數據及其對象聲道內容(M1)(包括節目的至少一個對象聲道、條件渲染元數據和其他對象相關元數據)以及其揚聲器聲道音頻內容(A1)(包括節目的至少一個揚聲器聲道)。類似地,去格式化器51被配置為解析子流B2,以及向比特流同步級59斷言其同步字(T2)、其它元數據及其對象聲道內容(M2)(包括節目的至少一個對象聲道、條件渲染元數據和其他對象相關元數據)以及其揚聲器聲道音頻內容(A2)(包括節目的至少一個揚聲器聲道)。類似地,去格式化器53被配置為解析子流BN,并且向比特流同步級59斷言其同步字(TN)、其它元數據及其對象聲道內容(MN)(包括節目的至少一個對象聲道、條件渲染元數據和其他對象相關元數據)以及其揚聲器聲道音頻內容(AN)(包括節目的至少一個揚聲器聲道)。圖7系統的比特流同步級59典型地包括用于子流B1、B2...BN的音頻內容和元數據的緩沖區、以及被耦接和配置為使用每個子流的同步字來確定輸入子流中任何數據失準的流偏移量補償元件(例如,因為每個比特流通常被攜帶在獨立的接口和/或媒體文件內的軌道上,由于它們之間的緊密同步在分發/貢獻中可能丟失,因此可能發生失準)。級59的流偏移量補償元件通常還被配置為通過向包含比特流的音頻數據和元數據的緩沖區斷言適當的控制值來校正任何確定的失準,以便使揚聲器聲道音頻數據的時間對齊的比特被從緩沖區讀到分別與相應緩沖區耦接的解碼器(包括解碼器60、61和63),并且使對象聲道音頻數據和元數據的時間對齊的比特被從緩沖區讀到對象數據組合級66。來自子流B1的揚聲器聲道音頻內容A1’的時間對齊的比特被從級59讀到解碼器60,并且來自子流B1的對象聲道內容和元數據M1’的時間對齊的比特被從級59讀到元數據組合器66。解碼器60被配置為對向其斷言的揚聲器聲道音頻數據執行解碼,并且向對象處理和渲染子系統67斷言所得到的經解碼的揚聲器聲道音頻。類似地,來自子流B2的揚聲器聲道音頻內容A2’的時間對齊的比特被從級59讀到解碼器61,并且來自子流B2的對象聲道內容和元數據M2’的時間對齊的比特被從級59讀到元數據組合器66。解碼器61被配置為對向其斷言的揚聲器聲道音頻數據執行解碼,并且向對象處理和渲染子系統67斷言所得到的經解碼的揚聲器聲道音頻。類似地,來自子流BN的揚聲器聲道音頻內容AN’的時間對齊的比特被從級59讀到解碼器63,并且來自子流BN的對象聲道內容和元數據MN’的時間對齊的比特被從級59讀到元數據組合器66。解碼器63被配置為對向其斷言的揚聲器聲道音頻數據執行解碼,并且向對象處理和渲染子系統67斷言所得到的經解碼的揚聲器聲道音頻。例如,子流B1、B2...BN中的每一個可以是E-AC-3子流,并且解碼器60、61、63以及與解碼器60、61和63并行地耦接到子系統59的任何其它解碼器中的每一個可以是E-AC-3解碼器,該E-AC-3解碼器被配置為對輸入E-AC-3子流之一的揚聲器聲道內容進行解碼。對象數據組合器66被配置為以適當的格式向對象處理和渲染子系統67斷言用于節目的所有對象聲道的時間對齊的對象聲道數據和元數據。子系統67被耦接到組合器66的輸出并被耦接到解碼器60、61和63(以及與解碼器60、61和63并行地耦接在子系統59和67之間的任何其它解碼器)的輸出,而控制器68被耦接到子系統67。子系統67典型地被配置為響應于來自控制器68的控制數據,根據本發明的實施例以交互的方式對組合器66和解碼器的輸出執行對象處理(例如,包括由圖6系統的子系統22執行的步驟,或者這種步驟的變型)。控制器68可以被配置為響應于來自用戶的輸入而執行圖6系統的控制器23被配置執行的操作(或者這種操作的變型)。(例如,為了渲染床揚聲器聲道內容、替換揚聲器聲道內容和對象聲道內容的混合)子系統67還典型地被配置為根據本發明的實施例對向其斷言的揚聲器聲道音頻和對象聲道音頻數據執行渲染(例如,由渲染子系統24、或者圖6系統的子系統24、25、26、31和33或者圖6系統的子系統24、25、26、31、33、29和35執行的操作,或者這種操作的變型)。在圖7系統的一種實現方式中,子流B1、B2...BN中的每一個是杜比E比特流。每個這種杜比E比特流包括一系列突發。每個突發可以攜帶揚聲器聲道音頻內容(床揚聲器聲道和/或替換揚聲器聲道的內容)和本發明的對象聲道的整組對象聲道(其可以是大集合)的子集以及對象相關元數據(即,每個突發可以指示整組對象聲道中的一些對象聲道以及對應的包括條件渲染元數據的對象相關元數據)。杜比E比特流的每個突發通常占用與對應視頻幀的時間段相當的時間段。組中的每個杜比E比特流包括同步字(例如,時間碼),以允許組中的比特流彼此同步或時間對齊。例如,在每個比特流中,包括對象聲道內容和對象相關元數據(包括條件渲染元數據)的每個容器可以包括唯一的ID和時間戳,以允許組中的比特流彼此同步或時間對齊。在提到的圖7系統的實現方式中,去格式化器50、51和53(以及與去格式化器50、51和53并行耦接的任何其它去格式化器)中的每一個是SMPTE337去格式化器,并且解碼器60、61、63以及與解碼器60、61和63并行耦接到子系統59的任何其它解碼器中的每一個可以是杜比E解碼器。在本發明的一些實施例中,基于對象的音頻節目的對象相關元數據包括持久性元數據。例如,被輸入到圖6系統的子系統20的節目中所包括的對象相關元數據可以包括非持久性元數據和持久性元元數據,其中非持久性元數據(例如,對于用戶可選的對象,默認水平和/或渲染位置或軌跡)可以在廣播鏈(從生成節目的內容創建設備到由控制器23實現的用戶界面)中的至少一個點改變,而持久性元數據在節目最初生成(典型地,在內容創建設備中)之后再不可變(或者不能改變)。持久性元數據的示例包括:用于節目的每個用戶可選對象或者其他對象或對象組的條件渲染元數據;用于每個用戶可選的節目的對象或其它對象或對象組;以及指示每個用戶可選的對象或其它對象相對于節目的揚聲器聲道內容或其它元素的定時的時間碼或其它同步字。持久性元數據通常在從內容創建設備到用戶界面的整個廣播鏈中、在節目廣播的整個持續時間內或者甚至還在節目的再次廣播期間都被保持。在一些實施例中,至少一個用戶可選的對象的音頻內容(及關聯的元數據)在基于對象的音頻節目的主混合中發送,并且至少一些持久性元數據(例如,時間碼)以及可選地還有至少一個其它對象的音頻內容(及關聯的元數據)在節目的次混合中發送。在本發明的基于對象的音頻節目的一些實施例中,持久性對象相關元數據被用來(例如,甚至在節目廣播之后)保持用戶選擇的對象內容和揚聲器聲道內容的混合。例如,每當用戶觀看特定類型的節目(例如,任何足球比賽)或者每當用戶觀看(任何類型的)任何節目時,這可以將選定混合提供作為默認混合,直到用戶改變他/她的選擇。例如,在第一節目的廣播期間,用戶可以采用(圖6系統中的)控制器23來選擇包括具有持久性ID的對象(例如,被控制器23的用戶界面識別為“主隊人群噪聲”對象的對象,其中持久性ID指示“主隊人群噪聲”)的混合。然后,每當用戶觀看(和收聽)另一個節目(該另一個節目包括具有同一持久性ID的對象)時,回放系統將自動地渲染具有相同混合的節目(即,節目中的與節目的“主隊人群噪聲”對象聲道混合的床揚聲器聲道和/或替換揚聲器聲道),直到用戶改變混合選擇。在本發明的基于對象的音頻節目的一些實施例中,持久性對象相關數據可以使得對某些對象的渲染在整個節目期間都是強制性的(例如,盡管用戶期望廢棄這種渲染)。在一些實施例中,對象相關元數據利用默認的渲染參數(例如,渲染對象的默認空間位置)來提供對象內容與揚聲器聲道內容的默認混合。例如,在默認的渲染參數的情況下,被輸入到圖6系統的子系統20的節目的對象相關元數據可以是對象內容與揚聲器聲道內容的默認混合,并且子系統22和24將使得以默認混合和默認的渲染參數來渲染節目,除非用戶采用控制器23來選擇對象內容與揚聲器聲道內容的另一種混合和/或另一組渲染參數。在一些實施例中,對象相關元數據(包括條件渲染元數據)提供對象與揚聲器聲道內容的一組可選“預設”混合,每個預設混合具有一組預定的渲染參數(例如,渲染對象的空間位置)。這些預設混合可以由回放系統的用戶界面呈現為可用混合的有限菜單或選項板(例如,由圖6系統的控制器23顯示的有限菜單或選項板)。每個預設混合(和/或每個可選的對象)可以具有持久性ID(例如,名稱、標簽或徽標)。控制器23(或本發明的回放系統的另一實施例的控制器)可以被配置為顯示這種ID的指示(例如,在控制器23的iPad實現的觸摸屏上)。例如,可以存在具有持久性ID(例如,隊標)的可選“主隊”混合,而不管(例如,由廣播公司所作的)對預設混合的每個對象的音頻內容或非持久性元數據的細節的變化。在一些實施例中,節目的對象相關元數據(或者不是由與節目一起傳送的元數據指示的回放或渲染系統的預配置)提供關于對象與床(揚聲器聲道)的可選混合的約束或條件。例如,圖6系統的實現方式可以實現數字權限管理(DRM),并且更具體而言可以實現DRM層次結構,以允許圖6系統的用戶能夠“分層”訪問基于對象的音頻節目中所包括的一組音頻對象。如果用戶(例如,與回放系統關聯的消費者)(例如,向廣播公司)支付更多的錢,則用戶可以有權解碼和選擇(并聽到)節目的更多音頻對象。對于另一個示例,對象相關元數據可以提供關于對象的用戶選擇的約束。這種約束的示例是:如果用戶采用控制器23選擇渲染節目的“主隊人群噪聲”對象和“主隊播音員”對象(即,用于包括在由圖6子系統24確定的混合中),則節目中所包括的元數據可以確保子系統24使這兩個選定對象以預定的相對空間位置渲染。約束可以(至少部分地)由關于回放系統的數據(例如,用戶輸入的數據)確定。例如,如果回放系統是立體聲系統(只包括兩個揚聲器),則圖6系統的對象處理子系統24(和/或控制器23)可以被配置為防止用戶選擇僅通過兩個揚聲器不能以足夠空間分辨率渲染的混合(由對象相關元數據識別)。對于另一個示例,出于法律(例如,DRM)原因或者由對象相關元數據(和/或被輸入到回放系統的其它數據)指示的其它原因(例如,基于傳送信道的帶寬),圖6系統的對象處理子系統24(和/或控制器23)可以從可選對象的類別中除去一些被傳送的對象。用戶可以為了更多的帶寬而向內容創建者或廣播公司付費,并且作為結果,系統(例如,圖6系統的對象處理子系統24和/或控制器23)可以允許用戶從可選對象和/或對象/床混合的更大菜單中進行選擇。本發明的一些實施例(例如,圖6中包括上述元件29和35的回放系統的實現方式)實現分布式渲染。例如,節目的默認或選定對象聲道(以及對應的對象相關元數據)(與經解碼的揚聲器聲道,例如,一組選定的床揚聲器聲道和替換揚聲器聲道,一起)從機頂設備(例如,從圖6系統的實現的子系統22和29)傳遞到下游設備(例如,圖6的子系統35,在實現了子系統22和29的機頂設備(STB)下游的AVR或條形音箱中實現)。下游設備被配置為渲染對象聲道與揚聲器聲道的混合。STB可以部分地渲染音頻,并且下游設備可以完成渲染(例如,通過生成用于驅動特定頂層的揚聲器(例如,天花板揚聲器)的揚聲器饋送,以便把音頻對象布置在特定的明顯源位置,其中STB的輸出僅僅指示對象可以在某些未指定的頂層揚聲器中以某種未指定的方式渲染)。例如,STB可以不知道回放系統的揚聲器的具體組織,但是下游設備(例如,AVR或條形音箱)可以知道這些。在一些實施例中,基于對象的音頻節目(例如,被輸入到圖6系統的子系統20或者圖7系統的元件50、51和53的節目)是或者包括至少一個AC-3(E-AC-3)比特流,并且包括對象聲道內容(和/或包括條件渲染元數據的對象相關元數據)的節目的每個容器被包括在比特流的幀尾處的auxdata字段(例如,圖1或圖4中所示的AUX片段)中。在一些這種實施例中,AC-3或E-AC-3比特流的每一幀包括一個或兩個元數據容器。一個容器可以被包括在幀的Aux字段中,而另一個容器可以被包括在幀的addbsi字段中。每個容器具有核心頭部并且包括(或關聯)一個或更多個有效載荷。(Aux字段中所包括的容器的或者與其關聯的)一個這種有效載荷可以是本發明的(與同樣由節目指示的一床揚聲器聲道有關的)一個或更多個對象聲道中的每一個對象聲道的一組音頻樣本和與每個對象聲道關聯的對象相關元數據(包括條件渲染元數據)。每個容器的核心頭部通常包括:至少一個ID值,該ID值指示該容器所包括或關聯的有效載荷的類型;子流關聯指示(指示核心頭部與哪些子流關聯);以及保護比特。典型地,每個有效載荷有其自己的頭部(或者“有效載荷標識符”)。對象級的元數據可以在作為對象聲道的每個子流中攜帶。在其它實施例中,基于對象的音頻節目(例如,被輸入到圖6系統的子系統20或者圖7系統的元件50、51和53的節目)是或者包括非AC-3比特流或非E-AC-3比特流的比特流。在一些實施例中,基于對象的音頻節目是或者包括至少一個杜比E比特流,并且節目的對象聲道內容和對象相關元數據(例如,節目的包括對象聲道內容和包括條件渲染元數據的對象相關元數據的每個容器)被包括在杜比E比特流的一般不攜帶有用信息的的比特位置中。杜比E比特流的每個突發占用相當于對應視頻幀的時間段。對象聲道(和對象相關元數據)可以被包括在杜比E突發之間的保護帶中和/或每個杜比E突發內的每個數據結構(各具有AES3幀的格式)中的未用比特位置中。例如,每個保護帶包含一系列片段(例如,100個片段),每個保護帶的前X個片段(例如,X=20)中的每個片段包括對象聲道和對象相關元數據,并且所述每個保護帶的剩余片段中的每一個可以包括保護帶符號。在一些實施例中,本發明的節目的至少一些對象聲道(和/或包括條件渲染元數據的對象相關元數據)被包括在杜比E比特流的至少一些AES3幀中的每一個的兩個AES3子幀中的每一個的四個最低有效位(LSB)中,并且指示節目的揚聲器聲道的數據被包括在比特流的每個AES3幀的兩個AES3子幀中的每一個的20個最高有效位(MSB)中。在一些實施例中,本發明的節目的對象聲道和對象相關元數據被包括在杜比E比特流中的元數據容器中。每個容器具有核心頭部并且包括一個或更多個有效載荷(或者與其關聯)。(Aux字段中所包括的容器的或者與其關聯的)一個這種有效載荷可以是本發明的(例如,與同樣由節目指示的一床揚聲器聲道有關的)一個或更多個對象聲道中的每一個的一組音頻樣本和與每個對象聲道關聯的對象相關元數據。每個容器的核心頭部通常包括:至少一個ID值,該ID值指示該容器中所包括或關聯的有效載荷的類型;子流關聯指示(指示核心頭部與哪些子流關聯);以及保護比特。典型地,每個有效載荷有其自己的頭部(或者“有效載荷標識符”)。對象級的元數據可以在作為對象聲道的每個子流中攜帶。在一些實施例中,基于對象的音頻節目(例如,被輸入到圖6系統的子系統20或者圖7系統的元件50、51和53的節目)能夠由(未被配置為解析本發明的對象聲道和對象相關元數據的)傳統解碼器和傳統渲染系統解碼,并且其揚聲器聲道內容可由傳統解碼器和傳統渲染系統渲染。相同的節目可以根據本發明的一些實施例由(根據本發明的實施例)被配置為解析本發明的對象聲道和對象相關元數據并且渲染由節目指示的對象聲道內容與揚聲器聲道的混合的機頂設備(或者其它解碼和渲染系統)渲染。本發明的一些實施例意圖響應于廣播節目來為終端消費者提供個性化的(并且優選地是沉浸式的)音頻體驗,和/或提供用于在廣播流水線中使用元數據的新方法。一些實施例改善了麥克風捕捉(例如,體育場麥克風捕捉),以生成為最終消費者提供更加個性化和沉浸式體驗的音頻節目,修改現有的制作、捐資和分發工作流,以允許本發明的基于對象的音頻節目的對象聲道和元數據流過專業鏈,并且創建支持對象聲道、替換揚聲器聲道和相關元數據以及常規廣播音頻(例如,本發明的廣播音頻節目的實施例中所包括的揚聲器聲道床)的新回放流水線(例如,在機頂設備中實現的回放流水線)。圖8是根據本發明實施例的基于對象的被配置為生成音頻節目(和對應的視頻節目)的用于廣播的廣播系統的框圖。圖8系統的包括麥克風100、101、102和103的一組X個麥克風(其中X是整數)被定位成捕捉要包括在節目中的音頻內容,并且它們的輸出耦接到音頻控制臺104的輸入。在一類實施例中,節目包括指示觀賞型賽事(例如,足球或橄欖球賽、汽車或摩托車比賽、或其它體育賽事)的氣氛和/或對觀賞型賽事的現場解說的交互式音頻內容。在一些實施例中,節目的音頻內容指示多個音頻對象(包括用戶可選的對象或對象組,并且通常還有要在不存在用戶對對象的選擇的情況下渲染的默認對象組)、一床揚聲器聲道(指示所捕捉的內容的默認混合)和替換揚聲器聲道。揚聲器聲道床可以是可能被包括在不包括對象聲道的常規廣播節目中的一類揚聲器聲道的常規混合(例如,5.1聲道混合)。在其它實施例中,根據本發明而生成或渲染的基于對象的音頻節目指示“人造的”(例如,數字化創建的)內容,而非所捕捉的音頻內容或者加上所捕捉的音頻內容。例如,該內容可以由非現場的(后期制作的)內容(例如,合成音頻)組成或者可以包括非現場的內容。麥克風的子集(例如,麥克風100和101并且可選地還有其輸出耦接到音頻控制臺104的其它麥克風)是在操作中捕捉(要作為一床揚聲器聲道和一組替換揚聲器聲道被編碼和傳送的)音頻的常規麥克風陣列。在操作中,麥克風的另一子集(例如,麥克風102和103以及可選地還有輸出被耦接到音頻控制臺104的其它麥克風)捕捉要作為節目的對象聲道被編碼和傳送的音頻(例如,人群噪聲和/或其它“對象”)。例如,圖8系統的麥克風陣列可以包括:被實現為聲場麥克風并且永久性地安裝在體育場中的至少一個麥克風(例如,麥克風100)(例如,具有隨其安裝的加熱器的聲場麥克風);指向支持一個隊(例如,主隊)的觀眾的至少一個立體聲麥克風(例如,麥克風102,被實現為SennheiserMKH416麥克風或者另一種立體聲麥克風),以及指向支持另一個隊(例如,客隊)的觀眾的至少一個其它立體聲麥克風(例如,麥克風103,被實現為SennheiserMKH416麥克風或者另一種立體聲麥克風)。本發明的廣播系統可以包括位于體育場(或其它賽事位置)外面的移動單元(可以是卡車,有時被稱為“比賽卡車”),該移動單元是來自體育場(或其它賽事位置)中的麥克風的音頻饋送的第一個接收者。比賽卡車生成(要廣播的)基于對象的音頻節目,包括通過編碼來自麥克風的音頻內容以便傳送作為節目的對象聲道、生成相應的條件渲染元數據和其他對象相關元數據(例如,指示在每個允許的下混中每個對象應當被渲染的空間位置的元數據)并將這種元數據包括在節目中、以及編碼來自一些麥克風的音頻內容以便傳送作為節目的一床揚聲器聲道(和一組替換揚聲器聲道)。例如,在圖8的系統中,(耦接到控制臺104的輸出的)對象處理子系統106、嵌入子系統108以及貢獻編碼器(contributionencoder)111可以安裝在比賽卡車中。在子系統106中生成的基于對象的音頻節目可以(例如,在子系統108中)與(例如,來自位于體育場中的攝像機的)視頻內容組合,以生成隨后(例如,被編碼器110)編碼的組合音視頻信號,由此生成用于(例如,通過圖5的傳送子系統5)廣播的編碼音頻/視頻信號。應當理解,解碼和渲染這種編碼音頻/視頻信號的回放系統將包括用于解析所傳送的音頻/視頻信號中的音頻內容和視頻內容的子系統(圖中未具體示出)、用于根據本發明的實施例來解碼并渲染音頻內容的子系統(例如,與圖6系統類似或完全相同的子系統)、以及用于解碼和渲染視頻內容的另一子系統(圖中未具體示出)。控制臺104的音頻輸出可以包括:5.1揚聲器聲道床(在圖8中標記為“5.1中立”),指示在體育賽事上捕捉到的環境聲音和被混合到其中央聲道中的播音員的現場解說(非環境內容)的默認混合;替換揚聲器聲道(在圖8中標記為“1.0替換”),指示沒有現場解說的床中的中央聲道的環境內容(即,在與現場解說混合以生成床中央聲道之前,所捕捉的床中央聲道的環境聲音內容);指示來自在該賽事現場的主隊粉絲的人群噪聲的立體聲對象聲道的音頻內容(標記為“2.0主隊”);指示來自在該賽事現場的客隊粉絲的人群噪聲的立體聲對象聲道的音頻內容(標記為“2.0客隊”);指示來自主隊城市的播音員的現場解說的對象聲道音頻內容(標記為“1.0現場解說1”);指示來自客隊城市的播音員的現場解說的對象聲道音頻內容(標記為“1.0現場解說2”)、以及指示比賽用球在被體育賽事參與者撞擊時產生的聲音的對象聲道音頻內容(標記為“1.0擊球”)。對象處理子系統106被配置為把來自控制臺104的音頻流組織(例如,分組)為對象聲道(例如,把標記為“2.0客隊”的左和右音頻流分組為客隊人群噪聲聲道)和/或對象聲道組,以生成指示對象聲道(和/或對象聲道組)的對象相關元數據,并且把對象聲道(和/或對象聲道組)、對象相關元數據、(根據來自控制臺104的音頻流確定的)揚聲器聲道床和每個替換揚聲器聲道編碼為基于對象的音頻節目(例如,被編碼為杜比E比特流的基于對象的音頻節目)。同樣典型地,子系統106被配置為至少渲染(并在工作室監控揚聲器上播放)對象聲道(和/或對象聲道組)的選定子集和揚聲器聲道床和/或替換揚聲器聲道(包括通過使用對象相關元數據來生成指示所選擇的對象聲道與揚聲器聲道的混合),使得回放的聲音可以由子系統106和控制臺104的操作員監控(如由圖8的“監控路徑”指示的)。子系統104的輸出與子系統106的輸出之間的接口可以是多聲道音頻數字接口(“MADI”)。在操作中,圖8系統的子系統108使在子系統106中生成的基于對象的音頻節目與(例如,來自位于體育場中的攝像機的)視頻內容組合,以生成向編碼器110斷言的組合音視頻信號。子系統108的輸出與子系統110的輸入之間的接口可以是高清晰度串行數字接口(“HD-SDI”)。在操作中,編碼器110對子系統108的輸出進行編碼,由此生成用于(例如,通過圖5的傳送子系統5)廣播的編碼音頻/視頻信號。在一些實施例中,廣播設備(例如,圖8系統的子系統106、108和110)被配置為生成指示所捕捉的聲音的多個基于對象的音頻節目(例如,由從圖8的子系統110輸出的多個編碼音頻/視頻信號指示的基于對象的音頻節目)。這種基于對象的音頻節目的示例包括5.1扁平混合、國際混合和國內混合。例如,所有節目可以包括一床公共揚聲器聲道(和一組公共的替換揚聲器聲道),但是節目的對象聲道(和/或由節目確定的可選對象聲道的菜單、和/或用于渲染并混合對象的可選或不可選的渲染參數)可以因節目而有所不同。在一些實施例中,廣播公司或其它內容創建者的設備(例如,圖8系統的子系統106、108和110)被配置為生成可以在各種不同回放環境(例如,5.1聲道國內回放系統、5.1聲道國際回放系統以及立體聲回放系統)中的任何一種中渲染的單個基于對象的音頻節目(即,原版(master))。原版不需要被混合(例如,下混)以便向任何特定環境中的消費者廣播。如上所述,在本發明的一些實施例中,節目的對象相關元數據(或者不是由與節目一起傳送的元數據指示的回放或渲染系統的預配置)提供了關于對象與揚聲器聲道內容的可選混合的約束或條件。例如,圖6系統的實現方式可以實現DRM層次,以允許用戶能夠分層訪問基于對象的音頻節目中所包括的一組對象聲道。如果用戶(例如,向廣播公司)支付更多的錢,則用戶可以有權解碼、選擇并渲染節目的更多對象聲道。將參照圖9來描述關于對象(或對象組)的用戶選擇的約束和條件的示例。在圖9中,節目“P0”包括七個對象聲道:指示中立人群噪聲的對象聲道“N0”、指示主隊人群噪聲的對象聲道“N1”、指示客隊噪聲的對象聲道“N2”、指示賽事官方現場解說(例如,由商業廣播播音員進行的廣播現場解說)的對象聲道“N3”、指示賽事粉絲現場解說的對象聲道“N4”、指示賽事上的公告的對象聲道“NS”以及指示(經由文本至語音系統轉換的)關于賽事的進入twitter連接的對象聲道“N6”。指示節目P0中所包括的元數據的默認值指示(默認地)要包括在由節目指示的對象聲道內容與“床”揚聲器聲道內容的渲染混合中的默認對象組(一個或更多個“默認”對象)和默認渲染參數組(例如,默認對象組中的每個默認對象的空間位置)。例如,默認對象組可以是以發散方式渲染(例如,使得不被感知為從任何特定的源位置發出)的對象聲道“N0”(指示中立人群噪聲)與被渲染為使得被感知為從位于聽者正前方的源位置(即,關于聽者為0度方位角)發出的對象聲道“N3”(指示官方現場解說)的混合。(圖9的)節目P0還包括指示多組用戶可選的預設混合的元數據,其中每個預設混合由節目的對象聲道的子集和對應的渲染參數組確定。所述用戶可選的預設混合可以被呈現為回放系統的控制器的用戶界面上的菜單(例如,由圖6系統的控制器23顯示的菜單)。例如,一個這種預設混合是圖9的對象聲道“N0”(指示中立人群噪聲)、對象聲道“N1”(指示主隊噪聲)和對象聲道“N4”(指示粉絲現場解說)的混合,這些對象聲道被渲染為使得混合中的聲道N0和N1內容被感知為從聽者正后方的源位置發出(即,關于聽者為180度的方位角),其中混合中的聲道N1內容的水平比混合中的聲道N0的水平小3dB,并且混合中的聲道N4內容是以發散的方式渲染的(例如,以便不被感知為從任何特定的源位置發出)。回放系統可以實現這樣的規則(例如,在圖9中指示的分組規則“G”,其由節目的元數據確定):包括對象聲道N0、N1和N2中的至少一個的每個用戶可選的預設混合必須單獨包括對象聲道N0內容,或者包括與對象聲道N1和N2中的至少一個的內容混合的對象聲道N0內容。回放系統還可以實現這樣的規則(例如,在圖9中指示的條件規則“C1”,其由節目的元數據確定):包括與對象聲道N1和N2中的至少一個的內容混合的對象聲道N0內容的每個用戶可選的預設混合必須包括與對象聲道N1內容混合的對象聲道N0內容,或者必須包括與對象聲道N2內容混合的對象聲道N0內容。回放系統還可以實現這樣的規則(例如,在圖9中指示的條件規則“C2”,其由節目的元數據確定):包括對象聲道N3和N4中的至少一個的內容的每個用戶可選的預設混合必須單獨包括對象聲道N3的內容,或者必須單獨包括對象聲道N4的內容。本發明的一些實施例實現了基于對象的音頻節目的對象聲道的條件解碼(conditionaldecoding)(和/或渲染)。例如,回放系統可以被配置為允許基于隨節目一起提供的條件渲染元數據和指示回放揚聲器陣列配置的數據以及可選地還有用戶的權限來條件解碼對象聲道。例如,如果實現了DRM層次以允許消費者“分層”訪問基于對象的音頻節目中所包括的一組音頻對象聲道,則回放系統可以(通過節目的元數據中所包括的控制位)被自動配置為阻止對于渲染一些對象的解碼和選擇,除非回放系統被通知用戶已經滿足至少一個條件(例如,向內容提供者支付了特定數量的錢)。例如,用戶可能需要購買權限來收聽圖9中的節目P0的“官方現場解說”對象聲道N3,并且回放系統可以實現圖9中指示的條件規則“C2”,使得除非回放系統被通知回放系統的用戶已購買必要的權限,否則對象聲道N3不能被選擇。對于另一個示例,回放系統可以(通過節目的元數據中所包括的、指示可用回放揚聲器陣列的特定配置的控制位)被自動配置為如果回放揚聲器陣列配置不滿足條件,則阻止解碼和選擇(以便將其包括在要渲染的節目內容的下混中)一些對象(例如,回放系統可以實現圖9中所指示的條件規則“C1”,使得對象聲道N0和N1的預設混合不能被選擇,除非回放系統被通知5.1揚聲器陣列可用于渲染所選定的內容,但是如果唯一可用的揚聲器陣列是2.0揚聲器陣列則不然)。在一些實施例中,本發明實現基于規則的對象聲道選擇,其中至少一個預定規則確定要渲染基于對象的音頻節目的哪些對象聲道(例如,與揚聲器聲道床一起)。用戶還可以指定用于對象聲道選擇的至少一個規則(例如,通過從由回放系統控制器的用戶界面呈現的可用規則的菜單中進行選擇),并且回放系統(例如,圖6系統的對象處理子系統22)可以被配置為應用每個這種規則來確定要渲染的基于對象的音頻節目的哪些對象聲道應當被包括在要(例如,由圖6系統的子系統24、或者子系統24和35)渲染的混合中。(例如,給定回放揚聲器陣列的配置),回放系統可以根據節目中的對象相關元數據(例如,條件渲染元數據)來確定節目的哪些對象聲道滿足預定的規則。對于簡單的示例,考慮基于對象的音頻節目指示體育賽事的情況。代替操縱控制器(例如,圖6的控制器23)來執行對節目中所包括的特定對象組的靜態選擇(例如,來自特定球隊、汽車或自行車的電臺解說),用戶操縱控制器來設置規則(例如,為了渲染而自動選擇指示什么球隊、或汽車或自行車獲勝或處于第一位置的對象聲道)。回放系統應用該規則來(在單個節目或者一系列不同節目的渲染期間)實現對節目中包括的對象(對象聲道)的一系列不同子集的動態選擇(例如,指示一個隊的第一對象子集,當發生第二個隊得分并因此變成當前獲勝隊時,后面自動變為指示第二個隊的第二對象子集)。因此,在一些此類實施例中,實時事件支配或影響哪些對象聲道被包括在所渲染的混合中。回放系統(例如,圖6系統的對象處理子系統22)可以對節目中所包括的元數據(例如,指示出至少一個對應對象指示當前獲勝隊的元數據,例如,指示該隊粉絲的人群噪聲或者與獲勝隊關聯的電臺播音員的現場解說)作出響應,以選擇哪些對象聲道應當被包括在要渲染的揚聲器與對象聲道的混合中。例如,內容創建者可以(在基于對象的音頻節目中)包括指示節目的至少一些音頻對象聲道中的每一個的位置次序(或其它層次)(例如,指示哪些對象聲道對應于當前處于第一位置的隊或汽車,哪些對象聲道對應于當前處于第二位置的隊或汽車,等等)的元數據。回放系統可被配置為通過僅選擇和渲染滿足用戶指定的規則的對象聲道(例如,由節目的對象相關元數據指示的與處于第“n”位的隊有關的對象聲道)來對這種元數據作出響應。關于本發明的基于對象的音頻節目的對象聲道的對象相關元數據的示例包括(但不限于):指示關于如何渲染對象聲道的詳細信息的條件渲染元數據或其他元數據;動態時間元數據(例如,指示用于搖攝對象的軌跡、對象尺寸、增益等等);以及被AVR(或者在本發明的系統的一些實現方式的解碼和對象處理子系統下游的其它設備或系統)用來渲染對象聲道(例如,在知曉可用回放揚聲器陣列的配置的情況下)的元數據。這種元數據可以指定對于對象位置、增益、靜音或其它渲染參數的約束、和/或對于對象如何與其它對象交互的約束(例如,假定選擇了特定的對象,關于可以選擇哪些附加對象的約束),并且/或者可以指定默認對象和/或默認渲染參數(在不存在對其它對象和/或渲染參數的用戶選擇的情況下使用)。在一些實施例中,本發明的基于對象的音頻節目的至少一些對象相關元數據(以及可選地還有至少一些對象聲道)在單獨的比特流或其它容器(例如,作為用戶可能需要額外付費來接收和/或使用的次混合)中從節目的揚聲器聲道床和常規元數據發送。在不訪問這種對象相關元數據(或者對象相關元數據和對象聲道)的情況下,用戶可以解碼和渲染揚聲器聲道床,但是不能選擇節目的音頻對象并且不能渲染該節目的與揚聲器聲道床指示的音頻的混合中的音頻對象。本發明的基于對象的音頻節目的每一幀可以包括多個對象聲道的音頻內容和對應的對象相關元數據。根據本發明一些實施例生成的(或者發送、存儲、緩沖、解碼、渲染或以其它方式處理的)基于對象的音頻節目包括揚聲器聲道、至少一個對象聲道、以及指示分層圖(有時被稱為分層的“混合圖”)的元數據(包括條件渲染元數據),所述分層圖指示揚聲器聲道與對象聲道的可選混合(例如,所有可選下混)。例如,混合圖指示可適用于選擇揚聲器和對象聲道的子集的每個規則。典型地,編碼音頻比特流指示節目的至少一些(即,至少一部分)音頻內容(例如,一床揚聲器聲道和節目的至少一些對象聲道)和對象相關元數據(包括指示混合圖的元數據),以及可選地至少一個附加的編碼音頻比特流或文件指示節目的一些音頻內容和/或對象相關元數據。所述分層的混合圖指示節點(每個節點可以指示可選的聲道或聲道組,或一類可選的聲道或聲道組)和節點之間的連接(例如,到節點的控制接口和/或用于選擇聲道的規則),并且包括基本數據(“基本”層)和可選的(即,可選地被省略的)數據(至少一個“擴展”層)。典型地,分層的混合圖被包括在指示節目的編碼音頻比特流之一中,并且可以通過(由回放系統實現的,例如,終端用戶的回放系統)圖遍歷進行評估,以確定聲道的默認混合和用于修改默認混合的選項。當混合圖可被表示為樹圖時,基本層可以是該樹圖的樹枝(或者兩個或更多個樹枝),并且每個擴展層可以是該樹圖的另一個樹枝(或者另一組兩個或更多個樹枝)。例如,樹圖的(由基本層指示的)一個樹枝可以指示可供所有終端用戶使用的可選聲道和聲道組,并且樹圖的(由擴展層指示的)另一樹枝可以指示只能由某些終端用戶使用的附加的可選聲道和/或聲道組(例如,這樣的擴展層可以僅提供給有權使用它的終端用戶)。圖9是樹圖的示例,它包括混合圖的對象聲道節點(例如,指示對象聲道N0、N1、N2、N3、N4、N5和N6的節點)和其它元素。通常,基本層包含(指示)圖結構和到圖中節點的控制接口(例如,搖攝,以及增益控制接口)。基本層對于把任何用戶交互映射到解碼/渲染過程是必要的。每個擴展層包含(指示)對基本層的擴展。對于把用戶交互映射到解碼過程,所述擴展不是立即需要的,因此可以以較慢的速率發送和/或延遲或略去。在一些實施例中,基本層被包括作為節目的獨立子流的元數據(例如,被發送作為獨立子流的元數據)。根據本發明的一些實施例生成的(或者發送、存儲、緩沖、解碼、渲染或以其它方式處理的)基于對象的音頻節目包括揚聲器聲道、至少一個對象聲道、以及指示混合圖(其可以是或者可以不是分層的混合圖)的元數據(包括條件渲染元數據),其中所述混合圖指示揚聲器聲道與對象聲道的可選混合(例如,所有可選下混)。經編碼的音頻比特流(例如,杜比E或E-AC-3比特流)指示節目的至少一部分,并且指示混合圖的元數據(并且通常還有可選的對象和/或揚聲器聲道)被包括在比特流的每一幀中(或者比特流的幀子集的每一幀中)。例如,每一幀可以包括至少一個元數據片段和至少一個音頻數據片段,并且混合圖可以被包括在每一幀的至少一個元數據片段中。(可以被稱為“容器”的)每個元數據片段可以具有包括元數據片段頭部(以及可選地還有其它元素)和跟在元數據片段頭部之后的一個或更多個元數據有效載荷的格式。每個元數據有效負載本身由有效載荷頭部識別。如果存在于元數據片段中,則混合圖被包括在元數據片段的一個元數據有效載荷中。在另一類實施例中,根據本發明生成的(或者發送、存儲、緩沖、解碼、渲染或以其它方式處理的)基于對象的音頻節目包括子流,并且子流指示至少一床揚聲器聲道、至少一個對象聲道、以及對象相關元數據(包括條件渲染元數據)。對象相關元數據包括“子流”元數據(指示節目的子流結構和/或解碼子流應當采用的方式),并且通常還有指示揚聲器聲道與對象聲道的可選混合(例如,所有可選下混)的混合圖。子流元數據可以指示節目的哪個子流應當獨立于節目的其它子流被解碼,以及節目的哪些子流應當與節目的至少一個其它子流相關聯地被解碼。例如,在一些實施例中,編碼音頻比特流指示節目的至少一些(即,至少一部分)音頻內容(例如,至少一床揚聲器聲道、至少一個替換揚聲器聲道和節目的至少一些對象聲道)以及元數據(例如,混合圖和子流元數據,并且可選地還有其它元數據),并且至少一個附加的編碼音頻比特流(或文件)指示節目的一些音頻內容和/或元數據。在每個比特流是杜比E比特流(或者為了在AES3串行數字音頻比特流中攜帶非PCM數據而以符合SMPTE337格式的方式編碼)的情況下,比特流可以共同指示多達8個聲道的音頻內容,其中每個比特流攜帶多達8個聲道的音頻數據并且通常還包括元數據。每個比特流可以被認為是組合比特流的子流,其中組合比特流指示由所有比特流攜帶的所有音頻數據和元數據。對于另一個示例,在一些實施例中,編碼音頻比特流指示至少一個音頻節目的音頻內容和元數據(例如,混合圖和子流元數據,并且可選地還有其它對象相關元數據)的多個子流。通常,每個子流指示節目的一個或更多個聲道(并且通常還有元數據)。在一些情況下,編碼音頻比特流的多個子流指示若干個音頻節目的音頻內容,例如,(可以是多聲道節目的)“主”音頻節目和至少一個其它音頻節目(例如,作為對主音頻節目的現場解說的節目)。指示至少一個音頻節目的編碼音頻比特流必定包括音頻內容的至少一個“獨立”子流。該獨立子流指示音頻節目的至少一個聲道(例如,該獨立子流可以指示常規5.1聲道音頻節目的五個全范圍聲道)。在本文中,這種音頻節目被稱為“主”節目。在一些情況下,編碼音頻比特流指示兩個或更多個音頻節目(“主”節目和至少一個其它音頻節目)。在這種情況下,比特流包括兩個或更多個獨立子流:第一個獨立子流指示主節目的至少一個聲道;并且至少一個其它獨立子流指示另一個音頻節目(與主節目不同的節目)的至少一個聲道。每個獨立子流可以被獨立解碼,并且解碼器可以操作為只解碼編碼比特流的獨立子流的子集(而不是全部)。可選地,指示主節目(并且可選地還有至少一個其它音頻節目)的編碼音頻比特流包括音頻內容的至少一個“從屬”子流。每個從屬子流與比特流的一個獨立子流關聯,并且指示其內容由關聯的獨立子流指示的節目(例如,主節目)的至少一個附加聲道(即,從屬子流指示不由關聯的獨立子流指示的節目的至少一個聲道,并且關聯的獨立子流指示節目的至少一個聲道)。在包括(指示主節目的至少一個聲道的)獨立子流的編碼比特流的示例中,比特流還包括(與獨立比特流關聯的)指示主節目的一個或更多個附加揚聲器聲道的從屬子流。這種附加揚聲器聲道是對由獨立子流指示的主節目聲道的補充。例如,如果獨立子流指示7.1聲道主節目的標準格式左、右、中央、左環繞、右環繞全范圍揚聲器聲道,則從屬子流可以指示主節目的兩個其它全范圍揚聲器聲道。根據E-AC-3標準,常規的E-AC-3比特流必須指示至少一個獨立子流(例如,單個AC-3比特流),并且可以指示多達八個獨立子流。E-AC-3比特流的每個獨立子流可以與多達八個從屬子流關聯。在(參照圖11描述的)示例性實施例中,基于對象的音頻節目包括至少一床揚聲器聲道、至少一個對象聲道以及元數據。元數據包括“子流”元數據(指示節目的音頻內容的子流結構和/或對節目的音頻內容的子流進行解碼應采用的方式)并且通常還有指示揚聲器聲道與對象聲道的可選混合的混合圖。音頻節目與足球比賽關聯。編碼音頻比特流(例如,E-AC-3比特流)指示節目的音頻內容和元數據。節目的音頻內容(因此也即比特流的音頻內容)包括四個獨立子流,如在圖11中所示。一個獨立子流(在圖11中標記為子流“I0”)指示5.1揚聲器聲道床,指示在足球比賽時的中立人群噪聲。另一個獨立子流(在圖11中標記為子流“I1”)指示2.0聲道“A隊”床(“M人群”)、2.0聲道“B隊”床(“LivP人群”)和單聲道對象聲道(“Sky現場解說1”),其中2.0聲道“A隊”床指示來自偏向一個隊(“A隊”)的比賽人群部分的聲音,2.0聲道“B隊”床指示來自偏向另一個隊(“B隊”)的比賽人群部分的聲音,所述單聲道對象聲道指示對比賽的現場解說。第三個獨立子流(在圖11中標記為子流“I2”)指示對象聲道音頻內容(標記為“2/0擊球”)和三個對象聲道(“Sky現場解說2”、“Man現場解說”和“Liv現場解說”),其中對象聲道音頻內容指示比賽用球在被足球比賽參與者撞擊時產生的聲音,而所述三個對象聲道各自指示對足球比賽的不同現場解說。第四個獨立子流(在圖11中標記為子流“I3”)指示:對象聲道(標記為“PA”),指示在足球比賽時由體育場廣播系統產生的聲音;對象聲道(標記為“電臺”),指示足球比賽的電臺廣播;以及對象聲道(標記為“進球瞬間”),指示足球比賽過程中的進球得分。在圖11的示例中,子流I0包括用于節目和元數據(“objmd”)的混合圖,包括至少一些子流元數據和至少一些對象聲道相關元數據。每個子流I1、I2和I3包括元數據(“objmd”)、至少一些對象聲道相關元數據以及可選地至少一些子流元數據。在圖11的示例中,比特流的子流元數據指示:在解碼期間,在每對獨立子流之間耦合應當為“關閉”(使得每個獨立子流獨立于其它獨立子流被解碼),并且比特流的子流元數據指示耦合應當“打開”(使得這些聲道不彼此獨立地被解碼)或者“關閉”(使得這些聲道彼此獨立地被解碼)的每個子流內的節目聲道。例如,子流元數據指示:在子流I1的兩個立體聲揚聲器聲道床(2.0聲道“A隊”床和2.0聲道“B隊”床)內部,耦合應當為“打開”,但是橫跨子流I1的揚聲器聲道床以及在單聲道對象聲道與子流I1的每個揚聲器聲道床之間被禁用(以便使單聲道對象聲道與一床揚聲器聲道彼此獨立地被解碼)。類似地,子流元數據指示:在子流I0的5.1揚聲器聲道床內部,耦合應當為“打開”(以便使這個床的揚聲器聲道彼此關聯地被解碼)。在一些實施例中,揚聲器聲道和對象聲道以適合于節目的混合圖的方式被包括(“打包”)在音頻節目的子流內。例如,如果混合圖是樹圖,則圖的一個樹枝的所有聲道都可以被包括在一個子流中,而圖的另一個樹枝的所有聲道都可以被包括在另一個子流中。圖10是實現本發明實施例的系統的框圖。圖10系統的對象處理系統(對象處理器)200包括如圖所示那樣耦接的元數據生成子系統210、夾層編碼器(mezzanineencoder)212和模擬子系統211。元數據生成子系統210被耦接為接收所捕捉到的音頻流(例如,指示由位于觀賞型賽事的麥克風捕捉的聲音的流,并且可選地還有其它音頻流),并且被配置為把來自控制臺104的音頻流組織(例如,分組)到一床揚聲器聲道、一組替換揚聲器聲道和多個對象聲道和/或對象聲道組中。子系統210還被配置為生成指示對象聲道(和/或對象聲道組)的對象相關元數據(包括條件渲染元數據)。編碼器212被配置為把對象聲道(和/或對象聲道組)、對象相關元數據以及揚聲器聲道編碼為夾層類型的基于對象的音頻節目(例如,被編碼為杜比E比特流的基于對象的音頻節目)。對象處理器200的模擬子系統211被配置為渲染(并且在一組工作室監視器揚聲器上播放)對象聲道(和/或對象聲道組)的至少選定子集以及揚聲器聲道(包括通過使用對象相關元數據來生成指示選定對象聲道與揚聲器聲道的混合),使得所回放的聲音可以被子系統200的操作者監控。圖10系統的轉碼器202包括如圖所示那樣耦接的夾層解碼器子系統(夾層解碼器)213和編碼器214。夾層解碼器213被耦接和配置為接收并解碼從對象處理器200輸出的夾層類型的基于對象的音頻節目。解碼器213的解碼輸出被編碼器214重新編碼為適于廣播的格式。在一種實施例中,從編碼器214輸出的經編碼的基于對象的音頻節目是E-AC-3比特流(因此編碼器214在圖10中被標記為“DD+編碼器”)。在其它實施例中,從編碼器214輸出的經編碼的基于對象的音頻節目是AC-3比特流或者具有某種其它格式。轉碼器202的基于對象的音頻節目輸出被廣播(或以其它方式傳送)到多個終端用戶。解碼器204被包括在一個這種終端用戶的回放系統中。解碼器204包括如圖所示那樣耦接的解碼器215和渲染子系統(渲染器)216。解碼器215接受(接收或讀取)并解碼從轉碼器202傳送的基于對象的音頻節目。如果解碼器215是根據本發明的典型實施例配置的,則在典型操作中解碼器215的輸出包括:指示節目的一床揚聲器聲道的音頻樣本流、以及指示節目的對象聲道(例如,用戶可選的音頻對象聲道)的音頻樣本流和對應的對象相關元數據流。在一種實施例中,輸入到解碼器215的經編碼的基于對象的音頻節目是E-AC-3比特流,因此解碼器215在圖10中被標記為“DD+解碼器”。解碼器204的渲染器216包括被耦接為(從解碼器215)接收所傳送節目的經解碼的揚聲器聲道、對象聲道和對象相關元數據的對象處理子系統。渲染器216還包括被配置為渲染由對象處理子系統確定的音頻內容的渲染子系統,以便由回放系統的揚聲器(未示出)回放。典型地,渲染器216的對象處理子系統被配置為向渲染器216的渲染子系統輸出由節目指示的整組對象聲道的選定子集、以及對應的對象相關元數據。渲染器216的對象處理子系統通常還被配置為不作改變地(向渲染子系統)傳遞來自解碼器215的經解碼的揚聲器聲道。由對象處理子系統執行的對象聲道選擇是根據本發明的實施例確定的,例如,通過用戶選擇和/或渲染器216被編程為或以其它方式被配置實現的規則(例如,指示條件和/或約束)。圖10的元件200、202和204中的每一個(以及圖8的元件104、106、108和110中的每一個)可以被實現為硬件系統。處理器200(或處理器106)的這種硬件實現方式的輸入典型地是多聲道音頻數字接口(“MADI”)輸入。典型地,圖8的處理器106以及圖10的編碼器212和214中的每一個都包括幀緩沖區。典型地,幀緩沖區是被耦接為接收經編碼的輸入音頻比特流的緩沖存儲器,并且在操作中,緩沖存儲器(例如,以非暫態方式)存儲編碼音頻比特流的至少一幀,并且編碼音頻比特流的一系列幀被從緩沖存儲器向下游設備或系統斷言。同樣,典型地,圖10的解碼器213和215中的每一個包括幀緩沖區。典型地,該幀緩沖區是被耦接為接收經編碼的輸入音頻比特流的緩沖存儲器,并且在操作中緩沖存儲器(例如,以非暫態方式)存儲要被解碼器213或215解碼的經編碼的音頻比特流的至少一幀。圖8的處理器106的任何部件或元件(或者圖10的子系統200、202和/或204)可以在硬件、軟件或者硬件和軟件的組合中被實現為一個或更多個過程和/或一個或更多個電路(例如,ASIC、FPGA或其它集成電路)。應該領會的是,在一些實施例中,本發明的基于對象的音頻節目被生成和/或傳送為指示節目內容(包括元數據)的未編碼的(例如,基帶)表示。例如,這種表示可以包括PCM音頻樣本和相關聯的元數據。未編碼的(未壓縮的)表示可以以各種方式中的任何一種傳送,包括:作為至少一個數據文件(例如,以非暫態的方式存儲在存儲器中,例如,存儲在計算機可讀介質上),或者作為AES-3格式或串行數字接口(SDI)格式(或以另一種格式)的比特流。本發明的一方面是被配置為執行本發明的方法的實施例的音頻處理單元(APU)。APU的示例包括但不限于:編碼器(例如,轉碼器)、解碼器、編解碼器、預處理系統(預處理器)、后處理系統(后處理器)、音頻比特流處理系統,以及這些的組合。在一類實施例中,本發明是APU,該APU包括(例如,以非暫態方式)存儲由本發明的方法的任何實施例生成的基于對象的音頻節目的至少一幀或其它片段(包括揚聲器聲道和至少一個對象聲道的音頻內容、以及包括條件渲染元數據的對象相關元數據)的緩沖存儲器(緩沖區)。例如,圖5的制作單元3可以包括緩沖區3A,該緩沖區3A(例如,以非暫態方式)存儲由單元3生成的基于對象的音頻節目的至少一幀或其它片段(包括揚聲器聲道和至少一個對象聲道的音頻內容、以及包括條件渲染元數據的對象相關元數據)。對于另一個示例,圖5的解碼器7可以包括緩沖區7A,該緩沖區7A(例如,以非暫態方式)存儲從子系統5向解碼器7傳送的基于對象的音頻節目的至少一幀或其它片段(包括揚聲器聲道和至少一個對象聲道的音頻內容、以及包括條件渲染元數據的對象相關元數據)。本發明的實施例可以被實現在硬件、固件、或軟件或者其組合中(例如,作為可編程的邏輯陣列)。例如,圖8的子系統106或圖7系統、或者圖6系統的元件20、22、24、25、26、29、35、31和35中的全部或一些、或者圖10的元件200、202和204中的全部或一些,可以在被適當地編程(或以其它方式配置)的硬件或固件中實現,例如,作為編程的通用處理器、數字信號處理器或者微處理器。除非另外指出,否則作為本發明的一部分而被包括的算法或過程不固有地關聯任何特定的計算機或其它裝置。特別地,各種通用機器可以與根據本文示教所編寫的程序一起使用,或者可以更方便地構造更專用的裝置(例如,集成電路)來執行所需的方法步驟。因此,本發明可以在一個或更多個可編程計算機系統上執行的一個或更多個計算機程序中實現(例如,圖6的元件20、22、24、25、26、29、35、31和35中的全部或一些的實現),其中每個可編程計算機系統包括至少一個處理器、至少一個數據存儲系統(包括易失性和非易失性存儲器和/或存儲元件)、至少一個輸入設備或端口和至少一個輸出設備或端口。程序代碼被應用到輸入數據,以執行本文所述的功能并且生成輸出信息。輸出信息以已知的方式被應用到一個或更多個輸出設備。每個這種程序可以用任何期望的計算機語言(包括機器、匯編或高級過程、邏輯或面向對象編程語言)實現,以便與計算機系統通信。在任何情況下,語言都可以是被編譯或解釋的語言。例如,當被計算機軟件指令序列實現時,本發明實施例的各種功能和步驟可以由在合適的數字信號處理硬件中運行的多線程軟件指令序列實現,在這種情況下,實施例的各種設備、步驟和功能可以對應于軟件指令的部分。每個這種計算機程序優選地存儲在或下載到可由通用或專用可編程計算機讀取的存儲介質或設備(例如,固態存儲器或介質,或者磁性或光學介質)上,以便在存儲介質或設備被計算機系統讀取時配置和操作計算機,以執行本文所述的過程。本發明的系統還可以被實現為計算機可讀存儲介質,被配置有(即,存儲)計算機程序,其中這樣配置的存儲介質使計算機系統以特定和預定義的方式操作,以執行本文所述的功能。已經描述了本發明的多種實施例。應當理解,在不背離本發明精神和范圍的情況下,可以進行各種修改。鑒于以上示教,本發明的許多修改和變化都是可能的。應當理解,在所附權利要求的范圍內,本發明可以按與本文具體描述的方式不同的方式來實踐。