本技術涉及發送裝置、發送方法、接收裝置以及接收方法,并且更具體地,涉及用于發送多個類型的音頻數據的技術的發送裝置等。
背景技術:
傳統地,作為立體聲(3D)音效技術,已提出用于基于待渲染的元數據將編碼樣本數據與存在于任意位置處的揚聲器映射的技術(例如,參見專利文獻1)。
引文列表
專利文獻
專利文獻1:日本專利申請國家公布(公開)第2014-520491號
技術實現要素:
本發明要解決的問題
當由編碼樣本數據和元數據組成的對象編碼數據與諸如5.1信道和7.1信道的信道編碼數據一起發送時,這可在接收側中提供具有更逼真的環繞效果的聲音再現。
本技術的目的是當發送多個類型的編碼數據時,降低接收側中的處理負載。
本技術的概念在于,一種發送裝置,該發送裝置包括:
發送單元,被配置為發送具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流;以及
信息插入單元,被配置為將表示多個組的編碼數據的每個屬性的屬性信息插入至元文件。
問題的解決方案
在本技術中,發送單元發送具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流。例如,多個組的編碼數據可包括信道編碼數據和對象編碼數據中的一個或兩個。
信息插入單元將表示多個組的編碼數據的每個屬性的屬性信息插入至元文件。例如,元文件可以是媒體展現描述(MPD)文件。在這種情況下,例如,信息插入單元可通過使用“補充描述符”將屬性信息插入至元文件。
此外,例如,發送單元可經由RF傳輸路徑或通信網絡傳輸路徑發送元文件。此外,例如,發送單元可進一步發送具有包括多個組的編碼數據的預定數量的音頻流的預定格式的容器。例如,容器是MP4。根據本技術報告,MP4表示ISO基本媒體文件格式(ISOBMFF)(ISO/IEC14496-12:2012)。
以此方式,根據本技術,將表示多個組的編碼數據的每個屬性的屬性信息插入至具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流。因此,接收側可在相關編碼數據被解碼之前輕易識別多個組的編碼數據的每個屬性,使得必要組的編碼數據可被選擇性地解碼并使用,并且處理負載可降低。
本文中,根據本技術,例如,信息插入單元可進一步將流對應關系信息插入至元文件,該流對應關系信息表示多個組的編碼數據分別包括在哪個音頻流中。在這種情況下,例如,流對應關系信息可以是表示標識多個組的各自編碼數據的組標識符與標識預定數量的音頻流的相應流的標識符之間的對應關系的信息。在這種情況下,接收側可輕易識別包括必要組的編碼數據的音頻流,并且這可降低處理負載。
此外,本技術的另一概念在于,一種接收裝置,該接收裝置包括:
接收單元,被配置為接收具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流,
在元文件中插入有表示多個組的編碼數據的每個屬性的屬性信息;以及
處理單元,被配置為基于屬性信息處理預定數量的音頻流。
根據本技術,接收單元接收元文件。元文件包括用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流的元信息。例如,多個組的編碼數據可包括信道編碼數據和對象編碼數據中的一個或兩個。表示多個組的編碼數據的每個屬性的屬性信息插入至元文件。處理單元基于屬性信息處理預定數量的音頻流。
以此方式,根據本技術,基于插入在元文件中的表示多個組的編碼數據的每個屬性的屬性信息,對預定數量的音頻流執行處理。因此,只有必要組的編碼數據可被選擇性解碼并使用,并且這可降低處理負載。
本文中,根據本技術,例如,元文件可進一步包括流對應關系信息,該流對應關系信息表示多個組的編碼數據分別包括在哪個音頻流中,并且處理單元可基于流對應關系信息以及屬性信息處理預定數量的音頻流。在這種情況下,包括必要組的編碼數據的音頻流可被輕易識別,并且這可降低處理負載。
此外,根據本技術,例如,處理單元可基于屬性信息和流對應關系信息,對包括具有與揚聲器配置和用戶選擇信息兼容的屬性的組的編碼數據的音頻流選擇性地執行解碼處理。
此外,本技術的又一概念在于,一種接收裝置,該接收裝置包括:
接收單元,被配置為接收具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流,
在元文件中插入有表示多個組的編碼數據的每個屬性的屬性信息;
處理單元,被配置為基于屬性信息從預定數量的音頻流中選擇性獲取預定組的編碼數據,并且重新配置包括預定組的編碼數據的音頻流;以及
流發送單元,被配置為將重新配置的音頻流發送至外部裝置。
根據本技術,接收單元接收元文件。元文件包括用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流的元信息。表示多個組的編碼數據的每個屬性的屬性信息插入至元文件。
處理單元基于屬性信息從預定數量的音頻流中選擇性獲取預定組的編碼數據,并且重新配置包括預定組的編碼數據的音頻流。隨后,流發送單元將重新配置的音頻流發送至外部裝置。
以此方式,根據本技術,基于插入在元文件中的表示多個組的編碼數據的每個屬性的屬性信息,從預定數量的音頻流中選擇性獲取預定組的編碼數據,并且待發送至外部裝置的音頻流被重新配置。必要組的編碼數據可輕易獲取,并且這可降低處理負載。
本文中,根據本技術,例如,表示多個組的編碼數據分別包括在哪個音頻流中的流對應關系信息被進一步插入至元文件,并且處理單元可基于流對應關系信息以及屬性信息從預定數量的音頻流中選擇性獲取預定組的編碼數據。在這種情況下,包括預定組的編碼數據的音頻流可輕易識別,并且這可降低處理負載。
本發明的效果
根據本技術,當發送多個類型的編碼數據時,接收側中的處理負載可降低。本文中,在本說明書中描述的效果僅是實例并且不設置任意限制,并且可存在其他效果。
附圖說明
圖1(a)和圖1(b)是示出基于MPEG-DASH的流傳送系統的示例性配置的框圖。
圖2(a)至圖2(d)是示出分層布置在MPD文件中的結構之間的關系的實例的示圖。
圖3是示出作為一實施方式的收發系統的示例性配置框圖。
圖4是示出3D音頻發送數據的音頻幀(1024個樣本)的結構的示圖。
圖5是示出3D音頻發送數據的示例性配置的示圖。
圖6(a)和圖6(b)是示意性示出在利用一個軌道(一個音頻流)發送3D音頻發送數據的情況下的音頻幀以及在利用多個軌道(不止一個音頻流)發送的情況下的音頻幀的示例性配置的示圖。
圖7是示出在3D音頻發送數據的示例性配置中,利用四個軌道發送的情況的組劃分實例的示圖。
圖8是示出組劃分實例(被劃分為四組)中的組與軌道之間的對應關系等的示圖。
圖9是示出在3D音頻發送數據的示例性配置中利用兩個軌道發送的情況的組劃分實例的示圖。
圖10是示出組劃分實例(被劃分為兩組)中的組與軌道之間的對應關系等的示圖。
圖11是示出MPD文件的描述實例的示圖。
圖12是示出MPD文件的另一描述實例的示圖。
圖13是示出由“SupplementaryDescriptor”定義的“schemeIdUri”的實例的示圖。
圖14(a)至圖14(c)是說明由“<baseURL>”表示的位置目的地的媒體文件實質的示圖。
圖15(a)和圖15(b)是說明“moov”框中的軌道標識符(軌道ID)與級別標識符(級別ID)之間的對應的描述的示圖。
圖16(a)和圖16(b)是示出在發送系統的情況下每個框的發送實例等的示圖。
圖17是示出包括在服務發送系統中的DASH/MP4生成單元的示例性配置的框圖。
圖18是示出服務接收器的示例性配置的框圖。
圖19是示出在服務接收器中通過CPU的音頻解碼控制處理的實例的流程圖。
圖20是示出服務接收器的另一示例性配置的框圖。
具體實施方式
在下文中,將描述用于執行本發明的模式(在下文中,被稱為“實施方式”)。應注意,將按以下順序給出描述。
1.實施方式
2.變型例
<1.實施方式>
[基于MPEG-DASH的流傳送系統的概述]
首先,將描述可應用本技術的基于MPEG-DASH的流傳送系統的概述。
圖1(a)示出基于MPEG-DASH的流傳送系統30A的示例性配置。在該示例性配置中,媒體流和MPD文件經由通信網絡傳輸路徑發送。流傳送系統30A被配置為使得N個服務接收器33-1,33-2,…,以及33-N經由內容傳送網絡(CDN)34連接至DASH流文件服務器31和DASH MPD服務器32。
DASH流文件服務器31基于預定內容的媒體數據(視頻數據、音頻數據、字幕數據等)生成DASH規范的流片段(在下文中,被適當稱為“DASH片段”),并且根據服務接收器作出的HTTP請求發送該片段。DASH流文件服務器31可以是專用于流的服務器,并且也用作網絡服務器。
此外,響應于經由CDN 34從服務接收器33(33-1,33-2,…,以及33-N)發送的預定流片段的請求,DASH流文件服務器31經由CDN 34將流片段發送至作為請求源的接收器。在這種情況下,服務接收器33參考在媒體表現描述(MPD)文件中描述的速率值根據客戶端所在的網絡環境的狀態選擇最佳速率的流,并且做出請求。
DASH MPD服務器32是生成用于獲取DASH流文件服務器31中生成的DASH片段的MPD文件的服務器。MPD文件是基于從內容管理服務器(未示出)接收的內容元數據和DASH流文件服務器31中生成的片段的地址(url)生成的。此處,DASH流文件服務器31與DASH MPD服務器32可物理上相同。
在MPD格式中,使用諸如用于每個流(諸如,視頻流或音頻流)的表示(Representation)的元素描述每個屬性。例如,表示被劃分以用于具有不同速率的每多個視頻數據流,并且在MPD文件中描述其每個速率。服務接收器33可以考慮如上所述的速率值根據服務接收器33所在的網絡環境的狀態選擇最佳流。
圖1(b)示出基于MPEG-DASH的流傳送系統30B的示例性配置。在該示例性配置中,媒體流和MPD文件經由RF傳輸路徑傳輸。流傳送系統30B配置有廣播發送系統36,該廣播發送系統連接至DASH流文件服務器31、DASH MPD服務器32和M個服務接收器35-1,35-2,…,以及35-M。
在流傳送系統30B的情況下,廣播發送系統36通過廣播波發送DASH流文件服務器31生成的DASH規范的流片段(DASH片段)和DASH MPD服務器32生成的MPD文件。
圖2(a)至圖2(d)示出分層布置在MPD文件中的結構的關系的實例。如圖2(a)所示,整個MPD文件的媒體表現(Media Presentation)包括以時間間隔界定的多個周期。例如,第一周期從第0秒開始,然后下一個周期從第100秒開始。
如圖2(b)所示,周期包括多個表示(Representations)。在多個表示中,具有根據自適應集(AdaptationSet)分組、涉及具有不同流屬性的相同實質的媒體流的一組表示,不同流屬性例如是不同速率。
如圖2(c)所示,表示包括片段信息(SegmentInfo)。在片段信息中,如圖2(d)所示,具有初始化片段(Initialization Segment)以及多個媒體片段(Media Segment),其中,描述通過更精細界定周期所獲得的片段(Segment)的信息。媒體片段包括例如用于實際獲取諸如視頻或音頻的片段數據的地址(url)的信息。
此外,在根據自適應集分組的多個表示中,可自由執行流切換。因此,能夠根據服務接收器所在的網絡環境的狀態選擇最佳速率的流,并且執行無縫傳送。
[收發系統的示例性配置]
圖3示出作為實施方式的收發系統10的示例性配置。收發系統10由服務發送系統100和服務接收器200組成。在收發系統10中,服務發送系統100與上述圖1(a)的流傳送系統30A中的DASH流文件服務器31和DASH MPD服務器32相對應。此外,在收發系統10中,服務發送系統100與上述圖1(b)的流傳送系統30B中的DASH流文件服務器31、DASH MPD服務器32以及廣播發送系統36相對應。
此外,在收發系統10中,服務接收器200與上述圖1(a)的流傳送系統30A中的服務接收器33(33-1,33-2,…,33-N)相對應。此外,在收發系統10中,服務接收器200與上述圖1(b)的流傳送系統30B中的服務接收器35(35-1,35-2,…,35-M)相對應。
服務發送系統100經由RF傳輸路徑(參見圖1(b))或通信網絡傳輸路徑(參見圖1(a))發送DASH/MP4,即,用作元文件的MPD文件以及包括諸如視頻或音頻的媒體流(媒體片段)的MP4。
圖4示出在本實施方式中處理的3D音頻(MPEGH)的發送數據中的音頻幀(1024個樣本)的結構。音頻幀配置有多個MPEG音頻流數據包(mpeg Audio Stream Packets)。每個MPEG音頻流數據包配置有報頭(Header)和有效載荷(Payload)。
報頭包括諸如數據包類型(Packet Type)、數據包標簽(Packet Label)以及數據包長度(Packet Length)的信息。由報頭的數據包類型定義的信息布置在有效載荷中。有效載荷信息包括與同步啟動代碼相對應的“SYNC”信息、用作3D音頻發送數據的實際數據的“幀”信息以及表示“幀”信息的配置的“Config”信息。
“幀”信息包括配置3D音頻發送數據的信道編碼數據和對象編碼數據。此處,信道編碼數據配置有諸如單信道元素(SCE)、信道對元素(CPE)以及低頻元素(LFE)的編碼樣本數據。此外,對象編碼數據配置有單信道元素(SCE)以及元數據的編碼樣本數據,該元數據用于將編碼樣本數據與位于任意位置處的揚聲器映射并且渲染編碼樣本數據。元數據作為擴展元素(Ext_element)被包括。
圖5示出3D音頻發送數據的示例性配置。在該實例中,3D音頻發送數據由一個信道編碼數據和兩個對象編碼數據組成。該條信道編碼數據是5.1信道的信道編碼數據(CD),并且配置有SCE1、CPE1.1、CPE1.2以及LFE1中的每條編碼樣本數據。
兩條對象編碼數據是沉浸式音頻對象(IAO)和語音對話對象(SDO)的編碼數據。沉浸式音頻對象編碼數據是用于沉浸式聲音的對象編碼數據,并且由編碼樣本數據SCE2以及元數據EXE_El(對象元數據)2組成,該元數據用于將編碼樣本數據SCE2與位于任意位置處的揚聲器映射并且渲染編碼樣本數據SCE2。
語音對話對象編碼數據是用于說話語言的對象編碼數據。在該實例中,存在分別與第一語言和第二語言相對應的語音對話對象編碼數據。與第一語言相對應的語音對話對象編碼數據由編碼樣本數據SCE3和元數據EXE_El(對象元數據)3組成,該元數據用于將編碼樣本數據SCE3與位于任意位置處的揚聲器映射并且渲染編碼樣本數據SCE3。此外,與第二語言相對應的語音對話對象編碼數據由編碼樣本數據SCE4和元數據EXE_El(對象元數據)4組成,該元數據用于將編碼樣本數據SCE4與位于任意位置處的揚聲器映射并且渲染編碼樣本數據SCE4。
根據數據類型,通過組(Group)的概念區分編碼數據。在所示實例中,5.1信道的編碼信道數據被限定為組1(Group 1),沉浸式音頻對象編碼數據被限定為組2(Group 2),涉及第一語言的語音對話對象編碼數據被限定為組3(Group 3),并且涉及第二語言的語音對話對象編碼數據被限定為組4(Group 4)。
此外,可在接收側可切換的組被登記在切換組(SW Group)中并且被編碼。在所示實例中,組3和組4被登記在切換組1(SW Group 1)中。此外,一些組可被分組為預設組(preset Group)并且根據使用情況再現。在所示實例中,組1、組2和組3被分組為預設組1,并且組1、組2和組4被分組為預設組2。
返回參考圖3,服務發送系統100利用作為一個音頻流的一個軌道或利用作為多個音頻流的多個軌道,發送如上所述的包括多個組的編碼數據的3D音頻發送數據。
圖6(a)示意性示出關于圖5中的3D音頻發送數據的示例性配置利用一個軌道(一個音頻流)來發送數據的情況的音頻幀的示例性配置。在這種情況下,音軌1包括“SYNC”信息和“Config”信息以及信道編碼數據(CD)、沉浸式音頻對象編碼數據(IAO)以及語音對話對象編碼數據(SDO)。
圖6(b)示意性示出關于圖5中的3D音頻發送數據的示例性配置利用多個軌道(多個音頻流)來發送數據的情況的音頻幀的示例性配置,在該實例中利用三個軌道。在這種情況下,音軌1包括“SYNC”信息和“Config”信息以及信道編碼數據(CD)。此外,音軌2包括“SYNC”信息和“Config”信息以及沉浸式音頻對象編碼數據(IAO)。此外,音軌3包括“SYNC”信息和“Config”信息以及語音對話對象編碼數據(SDO)。
圖7示出關于圖5中的3D音頻發送數據的示例性配置利用四個軌道來發送數據的情況的組劃分實例。在這種情況下,音軌1包括限定為組1的信道編碼數據(CD)。此外,音軌2包括限定為組2的沉浸式音頻對象編碼數據(IAO)。此外,音軌3包括限定為組3的第一語言的語音對話對象編碼數據(SDO)。此外,音軌4包括限定為組4的第二語言的語音對話對象編碼數據(SDO)。
圖8示出圖7中的組劃分實例(被劃分為四組)的組與音軌等之間的對應關系。此處,組ID(groupID)是區分組的標識符。屬性(attribute)表示每個組的編碼數據的屬性。切換組ID(switchGroupID)是區分切換組的標識符。預設組ID(presetGroupID)是區分預設組的標識符。軌道ID(trackID)是區分音軌的標識符。
示出的對應關系表示組1的編碼數據是不組成切換組且被包括在音軌1中的信道編碼數據。此外,示出的對應關系表示組2的編碼數據是不組成切換組且被包括在音軌2中的沉浸式聲音(沉浸式音頻對象編碼數據)的對象編碼數據。
此外,示出的對應關系表示組3的編碼數據是組成切換組1且被包括在音軌3中的用于第一語言的說話語言的對象編碼數據(語音對話對象編碼數據)。此外,示出的對應關系表示組4的編碼數據是組成切換組1且被包括在音軌4中的用于第二語言的說話語言的對象編碼數據(語音對話對象編碼數據)。
此外,示出的對應關系表示,預設組1包括組1、組2和組3。此外,示出的對應關系表示預設組2包括組1、組2和組4。
圖9示出關于圖5的3D音頻發送數據的示例性配置的利用兩個軌道來發送數據的情況的組劃分實例。在這種情況下,音軌1包括限定為組1的信道編碼數據(CD)以及限定為組2的沉浸式音頻對象編碼數據(IAO)。此外,音軌2包括限定為組3的第一語言的語音對話對象編碼數據(SDO)以及限定為組4的第二語言的語音對話對象編碼數據(SDO)。
圖10示出圖9的組劃分實例(被劃分為兩組)的組與子流之間的對應關系。示出的對應關系表示組1的編碼數據是不組成切換組且包括在音軌1中的信道編碼數據。此外,示出的對應關系表示組2的編碼數據是不組成切換組且包括在音軌1中的用于沉浸式聲音的對象編碼數據(沉浸式音頻對象編碼數據)。
此外,示出的對應關系表示組3的編碼數據是組成切換組1且被包括在音軌2中的用于第一語言的說話語言的對象編碼數據(語音對話對象編碼數據)。此外,示出的對應關系表示組4的編碼數據是組成切換組1且被包括在音軌2中的用于第二語言的說話語言的對象編碼數據(語音對話對象編碼數據)。
此外,示出的對應關系表示預設組1包括組1、組2和組3。此外,示出的對應關系表示預設組2包括組1、組2和組4。
返回參考圖3,服務發送系統100將表示包括在3D音頻發送數據中的多個組的編碼數據的每個屬性的屬性信息插入至MPD文件。此外,服務發送系統100將流對應關系信息插入至MPD文件,該流對應關系信息表示多個組的編碼數據分別包括在哪個音軌(音頻流)中。在本實施方式中,假定流對應關系信息為例如,表示組ID與軌道ID之間的對應關系的信息。
服務發送系統100將屬性信息和流對應關系信息插入至MPD文件。與現有標準中的現有定義分開,在“SupplementaryDescriptor”可以將“schemeIdUri”新定義為廣播或任意其他應用的本實施方式中,服務發送系統100通過使用“SupplementaryDescriptor”將屬性信息和流對應關系信息插入至MPD文件。
圖11示出與圖7的組劃分實例(被劃分為四組)相對應的MPD文件的描述實例。圖12示出與圖9的組劃分實例(被劃分為兩組)相對應的MPD文件的描述實例。此處,為了簡化描述的目的,描述了僅涉及音頻流的信息的實例;然而,實際上,還描述涉及諸如視頻流的其他媒體流的信息。圖13是示出由“SupplementaryDescriptor”定義的“schemeIdUri”的實例的示圖。
首先,將說明圖11的MPD文件的描述實例。“<AdaptationSet mimeType="audio/mp4"group="1">”的描述表示具有用于音頻流的自適應集(AdaptationSet),在MP4文件結構中提供該音頻流,并且組1被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是MPEGH(3D音頻)。如圖13所示,“schemeIdUri="urn:brdcst:codecType"”表示編碼解碼器的類型。在該實例中,表示“mpegh”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group1"/>”的描述表示組1“group1”的編碼數據包括在音頻流中。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:groupId"”表示組標識符。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="channeldata"/>”的描述表示組1“group1”的編碼數據是信道編碼數據“channeldata”。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:attribute"”表示對應組的編碼數據的屬性。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="0"/>”的描述表示組1“group1”的編碼數據不屬于任意切換組。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:switchGroupId"”表示對應組所屬的切換組的標識符。例如,當“value”是“0”時,這表示對應組不屬于任意切換組。當“value”是“0”以外的值時,這表示屬于切換組。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組1“group1”的編碼數據屬于預設組1“preset1”。此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組1“group1”的編碼數據屬于預設組2“preset2”。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:presetGroupId"”表示對應組所屬的預設組的標識符。
“<Representation id="1"bandwidth="128000">”的描述表示存在具有128kbps的比特率的音頻流,該音頻流包括組1的自適應集中的組1“group1”的編碼數據作為由“Representation id="1"”標識的表示。隨后,“<baseURL>audio/jp1/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp1/128.mp4”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level1"/>”的描述表示利用與級別1“Level1”相對應的軌道來發送音頻流。如圖13所示,“schemeIdUri="urn:brdcst:3dAudio:levelId”表示與發送包括對應組的編碼數據的音頻流的軌道的標識符相對應的級別的標識符。此處,如以下描述的,描述例如,在“moov”框中的軌道標識符(軌道ID)與級別標識符(級別ID)之間的對應。
此外,“<AdaptationSet mimeType="audio/mp4"group="2">”的描述表示存在音頻流的自適應集(AdaptationSet),在MP4文件結構中提供音頻流,并且組2被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group2"/>”的描述表示組2“group2”的編碼數據包括在音頻流中。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectSound"/>”的描述表示組2“group2”的編碼數據是用于沉浸式聲音的對象編碼數據“objectSound”。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="0"/>”的描述表示組2“group2”的編碼數據不屬于任何切換組。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組2“group2”的編碼數據屬于預設組1“preset1”。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組2“group2”的編碼數據屬于預設組2“preset2”。
“<Representation id="1"bandwidth="128000">”的描述表示存在具有128kbps的比特率的音頻流,該音頻流包括組2的自適應集中的組2“group2”的編碼數據作為由“Representation id="2"”標識的表示。隨后,“<baseURL>audio/jp2/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp2/128.mp4”。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level2"/>”的描述表示利用與級別2“level2”相對應的軌道來發送音頻流。
此外,“<AdaptationSet mimeType="audio/mp4"group="3">”的描述表示存在與音頻流相對應的自適應集(AdaptationSet),在MP4文件結構中提供音頻流,并且組3被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group3"/>”的描述表示組3“group3”的編碼數據包括在音頻流中。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectLang1"/>”的描述表示組3“group3”的編碼數據是用于第一語言的說話語言的對象編碼數據“objectLang1”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="1"/>”的描述表示組3“group3”的編碼數據屬于切換組1(switch group 1)。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組3“group3”的編碼數據屬于預設組1“preset1”。
“<Representation id="3"bandwidth="128000">”的描述表示存在具有128kbps的比特率的音頻流,該音頻流包括組3的自適應集中的組3“group3”的編碼數據作為由“<Representation id="3"”標識的表示。隨后,“<baseURL>audio/jp3/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp3/128.mp4”。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level3"/>”的描述表示利用與級別3“level3”相對應的軌道來發送音頻流。
進一步,“<AdaptationSet mimeType="audio/mp4"group="4">”的描述表示存在與音頻流相對應的自適應集(AdaptationSet),并且以MP4文件結構提供音頻流,并且組4被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group4"/>”的描述表示組4“group4”的編碼數據包括在音頻流中。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectLang2"/>”的描述表示組4“group4”的編碼數據是用于第二語言的說話語言的對象編碼數據“objectLang 2”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="1"/>”的描述表示組4“group4”的編碼數據屬于切換組1(switch group 1)。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組4“group4”的編碼數據屬于預設組2“preset2”。
“<Representation id="4"bandwidth="128000">”的描述表示存在具有128kbps的比特率的音頻流,該音頻流包括組4的自適應集中的組4“group4”的編碼數據作為由“<Representation id="4"”標識的表示。隨后,“<baseURL>audio/jp4/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp4/128.mp4”。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level4"/>”的描述表示利用與級別4“level4”相對應的軌道來發送音頻流。
接下來,將說明圖12的MPD文件的描述實例。“<AdaptationSet mimeType="audio/mp4"group="1">”的描述表示存在音頻流的自適應集(AdaptationSet),在MP4文件結構中提供音頻流,并且組1被分配。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”。
“<Representation id="1"bandwidth="128000">”的描述表示在組1的自適應集中存在具有128kbps的比特率的音頻流作為由“Representation id="1"”標識的表示。隨后,“<baseURL>audio/jp1/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp1/128.mp4”。此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level1"/>”的描述表示利用與級別1“level1”相對應的軌道來發送音頻流。
“<SubRepresentation id="11"subgroupSet="1">”的描述表示在由“Representation id="1"”標識的表示中,存在由“SubRepresentation id="11"”標識的子表示,并且子組1被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group1"/>”的描述表示組1“group1”的編碼數據包括在音頻流中。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="channeldata"/>”的描述表示組1“group1”的編碼數據是信道編碼數據“channeldata”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="0"/>”的描述表示組1“group1”的編碼數據不屬于任意切換組。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組1“group1”的編碼數據屬于預設組1“preset1”。此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組1“group1”的編碼數據屬于預設組2“preset2”。
“<SubRepresentation id="12"subgroupSet="2">”的描述表示在由“Representation id="1"”標識的表示中,存在由“SubRepresentation id="12"”標識的子表示,并且子組集2被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group2"/>”的描述表示組2“group2”的編碼數據包括在音頻流中。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectSound"/>”的描述表示組2“group2”的編碼數據是用于沉浸式聲音的對象編碼數據“objectSound”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="0"/>”的描述表示組2“group2”的編碼數據不屬于任何切換組。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組2“group2”的編碼數據屬于預設組1“preset1”。<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組2“group2”的編碼數據屬于預設組2“preset2”。
進一步,“<AdaptationSet mimeType="audio/mp4"group="2">”的描述表示存在與音頻流相對應的自適應集(AdaptationSet),并且以MP4文件結構提供音頻流,并且組2被分配。隨后,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:codecType"value="mpegh"/>”的描述表示音頻流的編碼解碼器是“MPEGH(3D音頻)”。
“<Representation id="2"bandwidth="128000">”的描述表示在組1的自適應集中存在具有128kbps的比特率的音頻流作為由“Representation id="2"”標識的表示。隨后,“<baseURL>audio/jp2/128.mp4</BaseURL>”的描述表示音頻流的位置目的地是“audio/jp2/128.mp4”。此外,“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:levelId"value="level2"/>”的描述表示利用與級別2“level2”相對應的軌道來發送音頻流。
“<SubRepresentation id="21"subgroupSet="3">”的描述表示在由"Representation id="2"”標識的表示中,存在由“SubRepresentation id="21"”標識的子表示,并且子組集3被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group3"/>”的描述表示組3“group3”的編碼數據包括在音頻流中。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectLang1"/>”的描述表示組3“group3”的編碼數據是用于第一語言的說話語言的對象編碼數據“objectLang1”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="1"/>”的描述表示組3“group3”的編碼數據屬于切換組1(switch group 1)。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset1"/>”的描述表示組3“group3”的編碼數據屬于預設組1“preset1”。
“<SubRepresentation id="22"subgroupSet="4">”的描述表示在由“Representation id="2"”標識的表示中,存在由“SubRepresentation id="22"”標識的子表示,并且子組集4被分配。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:groupId"value="group4"/>”的描述表示組4“group4”的編碼數據包括在音頻流中。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:attribute"value="objectLang2"/>”的描述表示組4“group4”的編碼數據是用于第二語言的說話語言的對象編碼數據“objectLang2”。
“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:switchGroupId"value="1"/>”的描述表示組4“group4”的編碼數據屬于切換組1(switch group 1)。“<SupplementaryDescriptor schemeIdUri="urn:brdcst:3dAudio:presetGroupId"value="preset2"/>”的描述表示組4“group4”的編碼數據屬于預設組2“preset2”。
在下文中,將描述由“<baseURL>”(即,包含在每個音軌中的文件)表示的位置目的地的媒體文件實質。如圖14(a)所示,在未分段MP4(Non-Fragmented MP4)的情況下,例如,媒體文件實質有時被定義為“url1”。在這種情況下,首先布置描述文件類型的“ftyp”框。“ftyp”框表示文件是未分段MP4文件。隨后,布置“moov”框和“mdat”框。“moov”框包括所有元數據,例如,每個軌道的報頭信息、內容實質的元描述、時間信息等。“mdat”框包括媒體數據主體。
如圖14(b)所示,在分段MP4(Fragmented MP4)的情況下,例如,媒體文件實質有時被定義為“url 2”。在這種情況下,首先布置描述片段類型的“styp”框。隨后,布置描述片段索引的“sidx”框。隨后,布置預定數量的電影片段(Movie Fragment)。此處,電影片段配置有包括控制信息的“moof”框以及包括媒體數據主體的“mdat”框。由于通過分段發送媒體所獲得的片段包括在一個電影片段的“mdat”框中,所以包括在“moof”框中的控制信息是涉及該片段的控制信息。“styp”、“sidx”、“moof”以及“mdat”是組成片段的單元。
此外,還考慮上述“url 1”和“url 2”的組合。在這種情況下,例如,“url 1”可被設為初始化片段,并且“url 1”和“url 2”可被設為一個服務的MP4。替換地,如圖14(c)所示,“url 1”和“url 2”可結合為一個并被定義為“url 3”。
如上所述,在“moov”框中,寫入軌道標識符(軌道ID)與級別標識符(級別ID)之間的對應。如圖15(a)所示,“ftyp”框和“moov”框組成初始化片段(Initialization segment)。在“moov”框中存在“mvex”框,并且在“mvex”框中進一步存在“leva”框。
如圖15(b)所示,在“leva”框中,定義軌道標識符(軌道ID)與級別標識符(級別ID)之間的對應。在所示實例中,“level0”與“track0”相關聯,“level1”與“track1”相關聯,并且“level2”與“track2”相關聯。
圖16(a)示出在廣播系統的情況下,發送每個框的實例。一個片段配置有第一初始化片段(is),接下來“styp”,接下來“sidx”框,并且接下來預定數量的電影片段(配置有“moof”框和“mdat”框)。在所示實例中,預定數量為一。
如上所述,在組成初始化片段(is)的“moov”框中,寫入軌道標識符(軌道ID)與級別標識符(級別ID)之間的對應。此外,如圖16(b)所示,在“sidx”框中,由級別(level)定義每個軌道,并且存在每個軌道的注冊范圍信息。換言之,對應于每個級別,在文件中記錄軌道的再現時間信息和開始位置信息。在接收側中,關于音頻,基于范圍信息選擇性提取期望音軌的音頻流。
返回參考圖3,服務接收器200從服務發送系統100接收經由RF傳輸路徑或通信網絡傳輸路徑傳輸的DASH/MP4,其是包括作為元文件的MPD文件以及諸如視頻、音頻等的媒體流(媒體片段)的MP4。
如上所述,除了視頻流以外,MP4包括組成3D音頻發送數據的包括多個組的編碼數據的預定數量的音軌(音頻流)。隨后,在MPD文件中,插入表示包括在3D音頻發送數據中的多個組的編碼數據的每個屬性的屬性信息以及表示多個組的編碼數據分別包括在哪個音軌(音頻流)中的流對應關系信息。
服務接收器200基于屬性信息和流對應關系信息,對包括具有與揚聲器配置和用戶選擇信息兼容的屬性的組的編碼數據的音頻流選擇性執行解碼過程,并且獲得3D音頻的音頻輸出。
[服務發送系統的DASH/MP4生成單元]
圖17示出包括在服務發送系統100中的DASH/MP4生成單元110的示例性配置。DASH/MP4生成單元110包括控制單元111、視頻編碼器112、音頻編碼器113以及DASH/MP4格式器114。
視頻編碼器112輸入視頻數據SV,對視頻數據SV執行諸如MPEG2、H.264/AVC以及H.265/HEVC的編碼,并且生成視頻流(視頻基本流)。音頻編碼器113輸入沉浸式音頻和語音對話的對象數據以及信道數據作為音頻數據SA。
音頻編碼器113對音頻數據SA執行MPEGH的編碼,并且獲得3D音頻發送數據。如圖5所示,3D音頻發送數據包括信道編碼數據(CD)、沉浸式音頻對象編碼數據(IAO)以及語音對話對象編碼數據(SDO)。音頻編碼器113生成包括多個組(即,在該實例中,四組)的編碼數據的一個或多個音頻流(音頻基本流)(參見圖6(a)和圖6(b))。
DASH/MP4格式器114基于在視頻編碼器112中生成的視頻流以及在音頻編碼器113中生成的預定數量的音頻流,生成包括視頻和音頻的媒體流(媒體片段)的MP4作為內容。此處,每個視頻流或音頻流被存儲在MP4中以分別作為獨立軌道(tracks)。
此外,DASH/MP4格式器114通過使用內容元數據、片段URL信息等生成MPD文件。在本實施方式中,DASH/MP4格式器114在MPD文件中插入表示包括在3D音頻發送數據中的多個組的編碼數據的每個屬性的屬性信息,并且還插入表示多個組的編碼數據分別包括在哪個音軌(音頻流)中的流對應關系信息(參見圖11和圖12)。
將簡要說明圖17所示的DASH/MP4生成單元110的操作。視頻數據SV被提供至視頻編碼器112。視頻編碼器112對視頻數據SV執行H.264/AVC、H.265/HEVC等的編碼,并且生成包括編碼視頻數據的視頻流。視頻流被提供至DASH/MP4格式器114。
音頻數據SA被提供至音頻編碼器113。音頻數據SA包括信道數據和沉浸式音頻和語音對話的對象數據。音頻編碼器113對音頻數據SA執行MPEGH的編碼,并且獲得3D音頻發送數據。
除了信道編碼數據(CD)以外,3D音頻發送數據包括沉浸式音頻對象編碼數據(IAO)和語音對話對象編碼數據(SDO)(參見圖5)。隨后,音頻編碼器113生成包括四組編碼數據的一個或多個音頻流(參見圖6(a)和圖6(b))。音頻流被提供至DASH/MP4格式器114。
DASH/MP4格式器114基于在視頻編碼器112中生成的視頻流以及在音頻編碼器113中生成的預定數量的音頻流,生成包括視頻、音頻等的媒體流(媒體片段)的MP4作為內容。此處,每個視頻流或音頻流被存儲在MP4中以分別作為單獨軌道(tracks)。
此外,DASH/MP4格式器114通過使用內容元數據、片段URL信息等生成MPD文件。在MPD文件中,插入表示包括在3D音頻發送數據中的多個組的編碼數據的每個屬性的屬性信息,并且還插入表示多個組的編碼數據分別包括在哪個音軌(音頻流)中的流對應關系信息。
[服務接收器的示例性配置]
圖18示出服務接收器200的示例性配置。服務接收器200包括接收單元201、DASH/MP4分析單元202、視頻解碼器203、圖像處理電路204、面板驅動電路205以及顯示面板206。此外,服務接收器200包括容器緩沖器211-1至211-N、組合器212、3D音頻解碼器213、音頻輸出處理電路214以及揚聲器系統215。此外,服務接收器200包括CPU 221、閃存ROM 222、DRAM 223、內部總線224、遠程控制接收單元225以及遠程控制發送器226。
CPU 221控制服務接收器200中的每個單元的操作。閃存ROM 222存儲控制軟件并保存數據。DRAM 223組成CPU 221的工作區域。CPU 221通過在DRAM 223中開發軟件或從閃存ROM 222讀取的數據激活軟件,并且控制服務接收器200中的每個單元。
遠程控制接收單元225接收從遠程控制發送器226發送的遠程控制信號(遠程控制代碼),并且將該信號提供至CPU 221。CPU 221基于遠程控制代碼控制服務接收器200中的每個單元。CPU 221、閃存ROM 222以及DRAM 223連接至內部總線224。
接收單元201接收經由RF傳輸路徑或通信網絡傳輸路徑從服務發送系統100發送的DASH/MP4,其是作為元文件的MPD文件以及包括諸如視頻和音頻的媒體流(媒體片段)的MP4。
除了視頻流以外,MP4包括預定數量的音軌(音頻流),該音軌(音頻流)包括組成3D音頻發送數據的多組編碼數據。此外,在MPD文件中,插入表示包括在3D音頻發送數據中的多組編碼數據的每個屬性的屬性信息,并且還插入表示多個組的編碼數據分別包括在哪個音軌(音頻流)中的流對應關系信息。
DASH/MP4分析單元202分析由接收單元201接收的MPD文件和MP4。DASH/MP4分析單元202從MP4提取視頻流,并且將視頻流發送至視頻解碼器203。視頻解碼器203對視頻流執行解碼過程,并且獲得未壓縮的視頻數據。
圖像處理電路204對通過視頻解碼器203獲得的視頻數據執行縮放處理和圖像質量調整處理,并且獲得用于顯示的視頻數據。面板驅動電路205基于由圖像處理電路204獲得的待顯示視頻數據驅動顯示面板206。顯示面板206配置有例如,液晶顯示器(LCD)、有機場致發光顯示器(有機EL顯示器)等。
此外,DASH/MP4分析單元202提取包括在MPD文件中的MPD信息,并且將MPD信息發送至CPU 221。CPU 221基于MPD信息控制視頻流或音頻流的獲得過程。此外,DASH/MP4分析單元202例如,從MP4提取諸如每個軌道的報頭信息、內容實質的元描述、時間信息的元數據,并且將元數據發送至CPU 221。
CPU 221基于表示每個組的編碼數據的屬性的屬性信息以及表示每個組包括在MPD文件中的哪個音軌(音頻流)的流對應關系信息,來識別包括具有與揚聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數據的音軌(音頻流)。
此外,在CPU 221的控制下,換言之,DASH/MP4分析單元202參考級別ID(level ID)、軌道ID(track ID),并且在包括在MP4中的預定數量的音頻流中,選擇性地提取包括具有與揚聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數據的一個或多個音頻流。
容器緩沖器211-1至211-N分別輸入通過DASH/MP4分析單元202提取的每個音頻流。此處,容器緩沖器211-1至211-N的數量N是必要和足夠的數量,并且在實際操作中,該數量等于在DASH/MP4分析單元202中提取的音頻流的數量。
組合器212從容器緩沖器211-1至211-N中的輸入了通過DASH/MP4分析單元202提取的每個音頻流的容器緩沖器讀取每個音頻幀的音頻流,并且將具有與揚聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數據提供至3D音頻解碼器213。
3D音頻解碼器213對從組合器212提供的編碼數據執行解碼過程,并且獲得音頻數據以驅動揚聲器系統215的每個揚聲器。此處,對其執行解碼處理的編碼數據可存在三種情況,這三種情況是僅包括信道編碼數據的情況,僅包括對象編碼數據的情況,以及包括信道編碼數據和對象編碼數據這兩者的情況。
當解碼信道編碼數據時,3D音頻解碼器213通過執行用于揚聲器系統215的揚聲器配置的下混音和上混音,獲得音頻數據以驅動每個揚聲器。此外,當解碼對象編碼數據時,3D音頻解碼器213基于對象信息(元數據)計算揚聲器渲染(用于每個揚聲器的混合率),并且根據計算結果,將對象的音頻數據混合至用于驅動每個揚聲器的音頻數據。
音頻輸出處理電路214對從3D音頻解碼器213獲得的驅動每個揚聲器的音頻數據執行諸如D/A轉換、放大等的必要處理,并且將數據提供至揚聲器系統215。揚聲器系統215包括諸如多個信道(例如,2信道、5.1信道、7.1信道、22.2信道等)的多個揚聲器。
將說明圖18所示的服務接收器200的操作。在接收單元201中,經由RF傳輸路徑或通信網絡傳輸路徑從服務發送系統100接收DASH/MP4,其是作為元文件的MPD文件以及包括諸如視頻和音頻的媒體流(媒體片段)的MP4。以此方式接收的MPD文件和MP4被提供至DASH/MP4分析單元202。
在DASH/MP4分析單元202中,分析在接收單元201中接收的MPD文件和MP4。隨后,在DASH/MP4分析單元202中,從MP4提取視頻流,并且將該視頻流發送至視頻解碼器203。在視頻解碼器203中,對視頻流執行解碼處理,并且獲得未壓縮的視頻數據。視頻數據被提供至圖像處理電路204。
在圖像處理電路204中,對在視頻解碼器203中獲得的視頻數據執行縮放處理、圖像質量調整處理等,并且獲得待顯示的視頻數據。待顯示的視頻數據被提供至面板驅動電路205。在面板驅動電路205中,基于待顯示的視頻數據驅動顯示面板206。利用該配置,在顯示面板206上,顯示與待顯示的視頻數據相對應的圖像。
此外,在DASH/MP4分析單元202中,包括在MPD文件中的MPD信息被提取并被發送至CPU 221。此外,在DASH/MP4分析單元202中,從MP4提取元數據,例如,每個軌道的報頭信息、內容實質的元描述、時間信息等,并且該元數據被發送至CPU 221。在CPU 221中,基于包括在MPD文件中的屬性信息、流對應關系信息等,識別其中組的編碼數據具有與揚聲器配置和觀看者(用戶)選擇信息兼容的屬性的音軌(音頻流)。
此外,在CPU 221的控制下,在DASH/MP4分析單元202中,通過參考軌道ID(track ID)從包括在MP4中的預定數量的音頻流選擇性提取包括與揚聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數據的一個或多個音頻流。
在DASH/MP4分析單元202中提取的音頻流被輸入至容器緩沖器211-1至211-N中的對應容器緩沖器。在組合器212中,從輸入了音頻流的容器緩存器的每個音頻幀中讀取音頻流,并經該音頻流提供至3D音頻解碼器213作為具有與揚聲器配置和觀看者選擇信息兼容的屬性的組的編碼數據。在3D音頻解碼器213中,對由組合器212提供的編碼數據執行解碼處理,并且獲得用于驅動揚聲器系統215的每個揚聲器的音頻數據。
此處,當解碼信道編碼數據時,執行用于揚聲器系統215的揚聲器配置的下混音和上混音的處理,并且獲得用于驅動每個揚聲器的音頻數據。此外,當解碼對象編碼數據時,基于對象信息(元數據)計算揚聲器渲染(用于每個揚聲器的混合率),并且根據計算結果,將對象的音頻數據混合至用于驅動每個揚聲器的音頻數據。
在3D音頻解碼器213中獲得的用于驅動每個揚聲器的音頻數據被提供至音頻輸出處理電路214。在音頻輸出處理電路214中,對用于驅動每個揚聲器的音頻數據執行諸如D/A轉換、放大等的必要處理。隨后,處理過的音頻數據被提供至揚聲器系統215。利用該配置,從揚聲器系統215獲得與顯示面板206的顯示圖像相對應的聲音輸出。
圖19示出圖18所示的服務接收器200中的通過CPU 221的音頻解碼控制處理的實例。在步驟ST1中,CPU 221開始處理。隨后,在步驟ST2中,CPU 221檢測接收器的揚聲器配置,即,揚聲器系統215的揚聲器配置。接下來,在步驟ST3中,CPU 221獲取來自觀看者(用戶)的有關音頻輸出的選擇信息。
接下來,在步驟ST4中,CPU 221讀取有關MPD信息的每個音頻流的信息,其是“groupID”、“attribute”、“switchGroupID”、“presetGroupID”以及“levelID”。隨后,在步驟ST5中,CPU 221識別具有與揚聲器配置和觀看者選擇信息兼容的屬性的編碼數據組所屬的音軌的軌道ID(track ID)。
接下來,在步驟ST6中,CPU 221基于識別結果選擇每個音軌,并且將存儲的音頻流輸入至容器緩沖器。隨后,在步驟ST7中,CPU 221從容器緩沖器讀取用于每個音頻幀的音頻流,并且將必要組的編碼數據提供至3D音頻解碼器213。
接下來,在步驟ST8中,CPU 221確定是否解碼對象編碼數據。在步驟ST9中,當解碼對象編碼數據時,CPU 221基于對象信息(元數據),通過使用方位角(方位信息)和海拔(仰角信息)計算揚聲器渲染(用于每個揚聲器的混合率)。此后,CPU 221進行至步驟ST10中的處理。此處,在步驟ST8中當對象編碼數據不被解碼時,CPU 221立即進行至步驟ST10中的處理。
在步驟ST10中,CPU 221確定是否解碼信道編碼數據。在步驟ST11中,當解碼信道編碼數據時,CPU 221執行用于揚聲器系統215的揚聲器配置的下混音和上混音的處理,并且獲得用于驅動每個揚聲器的音頻數據。此后,CPU 221進行至步驟ST12中的處理。此處,在步驟ST10中當對象編碼數據不被解碼時,CPU 221立即進行至步驟ST12中的處理。
在步驟ST12中,當解碼對象編碼數據時,CPU 221根據在步驟ST9中的計算結果,將對象的音頻數據混合至用于驅動每個揚聲器的音頻數據,并且此后執行動態范圍控制。隨后,在步驟ST13中,CPU 221結束處理。本文中,當對象編碼數據不被解碼時,CPU 221跳過步驟ST12中的處理。
如上所述,在圖3所示的收發系統10中,服務發送系統100將表示包括在預定數量的音頻流中的多個組的編碼數據的每個屬性的屬性信息插入至MPD文件。因此,接收側可在解碼編碼數據之前,輕易識別多個組的編碼數據的每個屬性,使得必要組的編碼數據可被選擇性解碼和使用,并且這可降低處理負載。
此外,在圖3所示的收發系統10中,服務發送系統100將表示多個組的編碼數據分別包括在哪個音軌(音頻流)中的流對應關系信息插入至MPD文件。因此,接收側可輕易識別包括必要組的編碼數據的音軌(音頻流),并且處理負載可降低。
<2.變型例>
本文中,在以上實施方式中,服務接收器200被配置為從由服務發送系統100發送的多個音頻流中選擇性提取其中具有與揚聲器配置和觀看者選擇信息兼容的屬性的組的編碼數據的音頻流,并且通過執行解碼處理獲得用于驅動預定數量的揚聲器的音頻數據。
本文中,作為服務接收器,它可被視為從由服務發送系統100發送的多個音頻流中選擇性提取包括具有與揚聲器配置和觀看者選擇信息兼容的屬性的組的編碼數據的一個或多個音頻流,重新配置具有與揚聲器配置和觀看者選擇信息兼容的屬性的組的編碼數據的音頻流,并且將重新配置的音頻流分配至連接至內部網絡的裝置(包括DLNA裝置)。
圖20示出如上所述的將重新配置的音頻流分配至連接至內部網絡的裝置的服務接收器200A的示例性配置。在圖20中,相同參考標號應用至與圖18中的部件相對應的部件,并且其詳細解釋將根據需要省去。
在通過CPU 221的控制下,DASH/MP4分析單元202參考級別ID(level ID),即,軌道ID(track ID),并且從包括在MP4中的預定數量的音頻流中,選擇性提取包括具有與揚聲器配置和觀看者(用戶)選擇信息兼容的屬性的組的編碼數據的一個或多個音頻流。
在DASH/MP4分析單元202中提取的音頻流被輸入至容器緩沖器211-1至211-N中的對應容器緩沖器。在組合器212中,從輸入了音頻流的每個容器緩沖器讀取用于每個音頻幀的音頻流,并將該音頻流提供至流重新配置單元231。
在流重新配置單元231中,選擇性獲取具有與揚聲器配置和觀看者選擇信息兼容的屬性的預定組的編碼數據,并且重新配置具有預定組的編碼數據的音頻流。重新配置的音頻流被提供至傳送接口232。隨后,重新配置的音頻流從傳送接口232傳送(發送)至連接至內部網絡的裝置300。
內部網絡連接包括以太網連接以及諸如“WiFi”和“Bluetooth”無線連接。本文中,“WiFi”和“Bluetooth”是注冊商標。
此外,裝置300包括附接至網絡終端的環繞聲揚聲器、第二顯示器、音頻輸出裝置。接收重新配置的音頻流的傳送的裝置300執行與圖18的服務接收器200中的3D音頻解碼器213相似的解碼處理,并且獲得用于驅動預定數量的揚聲器的音頻數據。
此外,服務接收器可具有將上述重新配置的音頻流發送至由諸如,“高清多媒體接口(HDMI)”、“移動高清鏈路(MHL)”、“DisplayPort”等的數字接口連接的裝置的配置。本文中,“HDMI”和“MHL”是注冊商標。
此外,上述實施方式描述了提供“屬性”的字段以及發送每個組的編碼數據的屬性信息的實例(參見圖11至圖13)。然而,本技術包括在發送器與接收器之間定義組ID(GroupID)的值本身使得可通過識別特定組ID來識別編碼數據的類型(屬性)的特定方法。在這種情況下,除了用作組的標識符以外,組ID用作組的編碼數據的屬性信息,并且不需要“屬性”字段。
此外,上述實施方式描述了信道編碼數據和對象編碼數據被包括在多個組的編碼數據中的實例(參見圖5)。然而,本技術可以以類似方式應用至多個組的編碼數據僅包括信道編碼數據或僅包括對象編碼數據的情況。
本文中,本技術可具有以下配置。
(1)一種發送裝置,包括:
發送單元,被配置為發送具有元信息的元文件,元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流;以及
信息插入單元,被配置為將表示多個組的編碼數據的每個屬性的屬性信息插入至元文件。
(2)根據(1)所述的發送裝置,其中,信息插入單元進一步將流對應關系信息插入至元文件,流對應關系信息表示多個組的編碼數據分別包括在哪個音頻流中。
(3)根據(2)所述的發送裝置,其中,流對應關系信息是表示分別標識多個組的編碼數據中的每一個的組標識符與分別標識預定數量的音頻流中的每一個的標識符之間的對應關系的信息。
(4)根據(1)至(3)中任一項所述的發送裝置,其中,元文件是MPD文件。
(5)根據(4)所述的發送裝置,其中,信息插入單元通過使用“補充描述符”將屬性信息插入至元文件。
(6)根據(1)至(5)中任一項所述的發送裝置,其中,發送單元經由RF傳輸路徑或通信網絡傳輸路徑發送元文件。
(7)根據(1)至(6)中任一項所述的發送裝置,其中,發送單元進一步發送具有包括多個組的編碼數據的預定數量的音頻流的預定格式的容器。
(8)根據(7)所述的發送裝置,其中,容器是MP4。
(9)根據(1)至(8)中任一項所述的發送裝置,其中,多個組的編碼數據包括信道編碼數據和對象編碼數據中的一個或兩個。
(10)一種發送方法,包括:
發送步驟,通過發送單元發送具有元信息的元文件,該元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流;以及
信息插入步驟,將表示多個組的編碼數據的每個屬性的屬性信息插入至元文件。
(11)一種接收裝置,包括:
接收單元,被配置為接收具有元信息的元文件,元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流,
在元文件中插入有表示多個組的編碼數據的每個屬性的屬性信息;以及
處理單元,被配置為基于屬性信息處理預定數量的音頻流。
(12)根據(11)所述的接收裝置,
其中,
表示多個組的編碼數據分別包括在哪個音頻流中的流對應關系信息被進一步插入至元文件,并且
處理單元基于流對應關系信息以及屬性信息處理預定數量的音頻流。
(13)根據(12)所述的接收裝置,其中,處理單元基于屬性信息和流對應關系信息,對包括具有與揚聲器配置和用戶選擇信息兼容的屬性的組的編碼數據的音頻流選擇性執行解碼處理。
(14)根據(11)至(13)中任一項所述的接收裝置,其中,多個組的編碼數據包括信道編碼數據和對象編碼數據中的一個或兩個。
(15)一種接收方法,包括:
接收步驟,通過接收單元接收具有元信息的元文件,元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流,
在元文件中插入有表示多個組的編碼數據的每個屬性的屬性信息;以及
處理步驟,基于屬性信息處理預定數量的音頻流。
(16)一種接收裝置,包括:
接收單元,被配置為接收具有元信息的元文件,元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流,
在元文件中插入有表示多個組的編碼數據的每個屬性的屬性信息;
處理單元,被配置為基于屬性信息從預定數量的音頻流中選擇性獲取預定組的編碼數據,并且重新配置包括預定組的編碼數據的音頻流;以及
流發送單元,被配置為將所重新配置的音頻流發送至外部裝置。
(17)根據(16)所述的接收裝置,其中,
表示多個組的編碼數據分別包括在哪個音頻流中的流對應關系信息被進一步插入至元文件,并且
處理單元基于流對應關系信息以及屬性信息從預定數量的音頻流中選擇性獲取預定組的編碼數據。
(18)一種接收方法,包括:
接收步驟,由接收單元接收具有元信息的元文件,元信息用于在接收裝置中獲取包括多個組的編碼數據的預定數量的音頻流,
在元文件中插入表示多個組的編碼數據的每個屬性的屬性信息;
處理步驟,基于屬性信息從預定數量的音頻流中選擇性獲取預定組的編碼數據,并且重新配置包括預定組的編碼數據的音頻流;以及
流發送步驟,將所重新配置的音頻流發送至外部裝置。
本技術的主要特征可以通過將表示包括在預定數量的音頻流中的多個組的編碼數據的相應屬性的屬性信息以及表示多個組的編碼數據分別包括在哪個音軌(音頻流)中的流對應關系信息插入至MPD文件(參見圖11、圖12和圖17),來降低接收側中的處理負載。
符號說明
10 收發系統
30A、30B 基于MPEG-DASH的流傳送系統
31 DASH流文件服務器
32 DASH MPD服務器
33、33-1至33-N) 服務接收器
34 CDN
35、35-1至35-M) 服務接收器
36 廣播發送系統
100 服務發送系統
110 DASH/MP4生成單元
112 視頻編碼器
113 音頻編碼器
114 DASH/MP4格式器
200 服務接收器
201 接收單元
202 DASH/MP4分析單元
203 視頻解碼器
204 圖像處理電路
205 面板驅動電路
206 顯示面板
211-1至211-N 容器緩沖器
212 組合器
213 3D音頻解碼器
214 音頻輸出處理電路
215 揚聲器系統
221 CPU
222 閃存ROM
223 DRAM
224 內部總線
225 遠程控制接收單元
226 遠程控制發送器
231 流重新配置單元
232 傳送接口
300 裝置。