編碼裝置和方法、解碼裝置和方法以及程序的制作方法
【技術領域】
[0001] 本技術設及編碼裝置和方法、解碼裝置和方法W及程序,更具體地,本技術設及能 夠獲得更高質量的音頻的編碼裝置和方法、解碼裝置和方法W及程序。
【背景技術】
[0002] 過去,已知作為一種用于使用多個揚聲器控制聲像的定位的技術的VBAP(向量基 幅度分配)(例如,參見非專利文獻1)。
[0003] 在VBAP中,作為目標的聲像的定位位置被表示為在定位位置周圍的兩個或=個 揚聲器的方向上的向量的線性和。隨后,使用乘W線性和中的每個向量的系數作為從每個 揚聲器輸出的音頻的增益W執行增益調節,使得聲像被定位在作為目標的該位置。
[0004] 引用文獻列表 陽(K)日]非專利文獻
[0006]非專利文獻1:Ville Pu化ki, "Vi;rtual Sound Source Positioning Using Vector Base Amplitude Panning",Journal of AES, vol.45,no.6,pp.456-466, 1997
【發明內容】
[0007] 本發明要解決的問題
[0008] 順便提及,在多通道音頻重放中,如果可W獲得聲源的音頻數據W及關于聲源的 位置信息,則可W準確地限定每個聲源的聲像定位位置,并且因此可較高的呈現度實 現音頻重放。
[0009] 然而,當諸如聲源的音頻數據和關于聲源的位置信息的元數據被傳輸到重放裝置 時,如果指定數據傳輸位率時的元數據的數據量大,則需要減少音頻數據的數據量。在該情 況下,音頻數據的音頻質量降低。
[0010] 考慮運些情況實現了本技術,并且本技術的目的在能夠獲得更高質量的音頻。 W11] 對問題的解決方案
[0012] 根據本技術的第一方面的編碼裝置包括:編碼單元,用于基于在預定時間之前的 時間的關于聲源的位置信息,根據預定的編碼模式,對在預定時間的關于聲源的位置信息 編碼;確定單元,用于將多個編碼模式中的任一個編碼模式確定為位置信息的編碼模式; W及輸出單元,用于輸出指示確定單元確定的編碼模式的編碼模式信息W及在確定單元確 定的編碼模式中編碼的位置信息。
[0013] 編碼模式可W是:RAW模式,其中位置信息被原樣采用作為經編碼的位置信息;靜 止模式,其中在假設聲源靜止時對位置信息編碼;恒定速度模式,其中在假設聲源W恒定速 度移動時對位置信息編碼;恒定加速度模式,其中在假設聲源W恒定加速度移動時對位置 信息編碼;或者殘差模式,其中基于位置信息的殘差對位置信息編碼。
[0014] 位置信息可W是指示聲源的位置的水平方向上的角度、豎直方向上的角度或者距 離。
[0015] 在殘差模式中編碼的位置信息可W是指示用作位置信息的角度的差的信息。
[0016] 在如下情況下,輸出單元可W不輸出編碼模式信息:對于多個聲源,在預定時間的 所有聲源的位置信息的編碼模式與在緊鄰預定時間之前的時間的編碼模式相同。
[0017] 在如下情況下,輸出單元僅可W輸出所有編碼模式信息中的、編碼模式與緊鄰預 定時間之前的時間的編碼模式不同的聲源的位置信息的編碼模式信息:在預定時間,多個 聲源中的一些聲源的位置信息的編碼模式與緊鄰預定時間之前的時間的編碼模式不同。
[0018] 該編碼裝置可W進一步包括:量化單元,用于利用預定的量化寬度對位置信息進 行量化;W及壓縮率確定單元,用于基于聲源的音頻數據的特征量來確定量化寬度,并且編 碼單元可W對經量化的位置信息編碼。
[0019] 該編碼裝置可W進一步包括切換單元,用于基于過去已輸出的編碼模式信息和經 編碼的位置信息的數據量來切換其中對位置信息編碼的編碼模式。
[0020] 編碼單元可W進一步對聲源的增益進行編碼,W及輸出單元可W進一步輸出增益 的編碼模式信息和經編碼的增益。
[0021] 根據本技術的第一方面的編碼方法或程序包括如下步驟:基于在預定時間之前的 時間的關于聲源的位置信息,根據預定的編碼模式,對在預定時間的關于聲源的位置信息 編碼;將多個編碼模式中的任一個編碼模式確定為位置信息的編碼模式;W及輸出指示所 確定的編碼模式的編碼模式信息W及在所確定的編碼模式中編碼的位置信息。
[0022] 在本技術的第一方面,基于在預定時間之前的時間的關于聲源的位置信息,根據 預定的編碼模式,對在預定時間的關于聲源的位置信息編碼,W及將多個編碼模式中的任 一個編碼模式確定為位置信息的編碼模式,W及輸出指示所確定的編碼模式的編碼模式信 息W及在所確定的編碼模式中編碼的位置信息。
[0023] 根據本技術的第二方面的一種解碼裝置包括:獲得單元,用于獲得在預定時間的 關于聲源的經編碼的位置信息W及指示多個編碼模式中的對位置信息編碼的編碼模式的 編碼模式信息;W及解碼單元,用于基于在預定時間之前的時間的關于聲源的位置信息,根 據與編碼模式信息指示的編碼模式對應的方法,對在預定時間的經編碼的位置信息解碼。
[0024] 編碼模式可W是:RAW模式,其中位置信息被原樣采用作為經編碼的位置信息;靜 止模式,其中在假設聲源靜止時對位置信息編碼;恒定速度模式,其中在假設聲源W恒定速 度移動時對位置信息編碼;恒定加速度模式,其中在假設聲源W恒定加速度移動時對位置 信息編碼;或者殘差模式,其中基于位置信息的殘差對位置信息編碼。
[00巧]位置信息可W是指示聲源的位置的水平方向上的角度、豎直方向上的角度或者距 離。
[0026] 在殘差模式中編碼的位置信息可W是指示用作位置信息的角度的差的信息。
[0027] 在如下情況下,獲得單元可W僅獲得經編碼的位置信息:對于多個聲源,在預定時 間的所有聲源的位置信息的編碼模式與在緊鄰預定時間之前的時間的編碼模式相同。
[0028] 在如下情況下,獲得單元可W獲得經編碼的位置信息W及編碼模式與緊鄰預定時 間之前的時間的編碼模式不同的聲源的位置信息的編碼模式信息:在預定時間,多個聲源 中的一些聲源的位置信息的編碼模式與緊鄰預定時間之前的時間的編碼模式不同。
[0029] 獲得單元可W進一步獲得關于在位置信息的編碼期間對位置信息進行量化的量 化寬度的信息,量化寬度是基于聲源的音頻數據的特征量確定的。
[0030] 根據本技術的第二方面的一種解碼方法或程序包括如下步驟:獲得在預定時間的 關于聲源的經編碼的位置信息W及指示多個編碼模式中的對位置信息編碼的編碼模式的 編碼模式信息;W及基于在預定時間之前的時間的關于聲源的位置信息,根據與編碼模式 信息指示的編碼模式對應的方法,對在預定時間的經編碼的位置信息解碼。
[0031] 在本技術的第二方面,獲得在預定時間的關于聲源的經編碼的位置信息W及指示 多個編碼模式中的對位置信息編碼的編碼模式的編碼模式信息;W及基于在預定時間之前 的時間的關于聲源的位置信息,根據與編碼模式信息指示的編碼模式對應的方法,對在預 定時間的經編碼的位置信息解碼。 陽0巧發明效果
[0033] 根據本技術的第一方面和第二方面,可W獲得更高質量的音頻。
【附圖說明】
[0034] 圖1是圖示音頻系統的配置示例的示圖。
[0035] 圖2是用于說明對象的元數據的示圖。
[0036] 圖3是用于說明經編碼的元數據的示圖。
[0037] 圖4是圖示元數據編碼器的配置示例的示圖。
[0038] 圖5是用于說明編碼處理的流程圖。
[0039] 圖6是用于說明運動式樣預測模式下的編碼處理的流程圖。
[0040] 圖7是用于說明殘差模式下的編碼處理的流程圖。
[0041] 圖8是用于說明編碼模式信息壓縮處理的流程圖。
[0042] 圖9是用于說明切換處理的流程圖。
[0043] 圖10是圖示元數據解碼器的配置示例的示圖。
[0044] 圖11是用于說明解碼處理的流程圖。
[0045] 圖12是圖示元數據編碼器的配置示例的示圖。
[0046] 圖13是用于說明編碼處理的流程圖。
[0047] 圖14是圖示計算機的配置示例的示圖。
【具體實施方式】
[0048] W下將參照【附圖說明】被應用本技術的實施例。 W49] <第一實施例〉
[0050] <音頻系統的配置示例〉
[0051] 本技術設及用于壓縮元數據的數據量的編碼和解碼,元數據是關于聲源的信息, 諸如指示聲源位置的信息。圖1是圖示被應用本技術的音頻系統的實施例的配置示例的示 圖。 陽05引該音頻系統包括麥克風11-1至麥克風11-N、空間位置信息輸出裝置12、編碼器13、解碼器14、重放裝置15 W及揚聲器16-1至16-J。
[005引麥克風11-1至麥克風11-N附接到用作例如聲源的對象,并且將通過收集環境聲 音而獲得的音頻數據提供給編碼器13。在該情況下,用作聲源的對象可W是移動對象等,其 靜止或者根據例如時間移動。
[0054] 應注意,在不必具體彼此區分麥克風11-1至麥克風11-N的情況下,麥克風11-1 至麥克風11-N在下文中也可W被簡稱為麥克風11。在圖1的示例中,麥克風11附接到彼 此不同的N個對象。
[0055] 空間位置信息輸出裝置12向編碼器13提供指示每次在空間中被附接麥克風11 的對象的位置的信息等作為音頻數據的元數據。
[0056] 編碼器13對從麥克風11提供的音頻數據和從空間位置信息輸出裝置12提供的 元數據編碼,并且將音頻數據和元數據輸出到解碼器14。編碼器13包括音頻數據編碼器 21和元數據編碼器22。
[0057] 音頻數據編碼器21對從麥克風11提供的音頻數據編碼,并且將音頻數據輸出到 解碼器14。更具體地,經編碼的音頻數據被復用成位流并且被傳輸到解碼器14。
[0058] 元數據編碼器22對從空間位置信息輸出裝置12提供的元數據編碼并且將元數據 提供給解碼器14。更具體地,經編碼的元數據在位流中描述,并且被傳輸到解碼器14。
[0059] 解碼器14對從編碼器13提供的音頻數據和元數據解碼并且將經解碼的音頻數據 和經解碼的元數據提供給重放裝置15。解碼器14包括音頻數據解碼器31和元數據解碼器 32〇
[0060] 音頻數據解碼器31對從音頻數據編碼器21提供的經編碼的音頻數據解碼,并且 將作為解碼結果獲得的音頻數據提供給重放裝置15。元數據解碼器32對從元數據編碼器 22提供的經編碼的元數據解碼,并且將作為解碼結果獲得的元數據提供給重放裝置15。
[0061] 重放裝置15基于從元數據解碼器32提供的元數據來調整從音頻數據解碼器31 提供的音頻數據的增益等,并且在需要時重放裝置15將已被調整的音頻數據提供給揚聲 器16-1至揚聲器16-J。揚聲器16-1至揚聲器16-J基于從重放裝置15提供的音頻數據播 放音頻。因此,可W在空間中在對應于每個對象的位置定位聲像,并且可WW高呈現度實現 音頻重放。
[0062] 應當注意,在不必具體彼此區分揚聲器16-1至揚聲器16-J的情況下,在下文中揚 聲器16-1至揚聲器16-J也可W被簡稱為揚聲器16。
[0063] 順便提及,在預先限定用于在編碼器13和解碼器14之間交換的音頻數據和元數 據的傳輸的總位率,并且元數據的數據量大的情況下,需要據此減少音頻數據的數據量。在 該情況下,音頻數據的聲音質量降低。
[0064] 因此,在本技術中,提高元數據的編碼效率W壓縮數據量,使得可W獲得更高質量 的音頻數據。 W65] <元數據〉
[0066] 首先,將說明元數據。
[0067] 從空間位置信息輸出裝置12提供給元數據編碼器22的元數據是與包括用于識別 N個對象(聲源)中的每個的位置的數據相關的數據。例如,對于每個對象,元數據包括如 下值1)至值5)中所示的如下五條信息。
[0068] 值1)指示對象的索引
[0069] 值2)在對象的水平方向上的角度0 陽070] 值3)在對象的豎直方向上的角度丫
[0071]值4)從對于到收聽者的距離r 陽072] 值5)對象的音頻的增益g
[0073] 更具體地,針對對象的音頻數據的每個帖,每預定的時間間隔將該元數據提供給 元數據編碼器22。
[0074] 例如,如圖2中所示,考慮=維坐標系,其中正在收聽從揚聲器16(未示出)輸出 的音頻的收聽者的位置被限定為原點0,并且圖中的右上方向、左上方向和上方向被限定為 彼此垂直的X軸、y軸和Z軸的方向。此時,在與單個對象對應的聲源被限定為虛擬聲源 VS11的情況下,可W將聲像定位在S維坐標系中的虛擬聲源VS11的位置。
[00巧]此時,例如,采用指示虛擬聲源VS11的信息作為指示元數據中包括的對象的索 弓I,并且該索引具有N個離散值的值中的任一值。 陽076] 例如,在連接虛擬聲源VS11和原點0的直線被限定為直線L的情況下,由直線L和 在xy平面上的X軸形成的在圖中的水平方向上的角度(方位角)是元數據中包括的水平 方向上的角度9,并且水平方向上的角度0是滿足-180。《0《180°的任何給定值。 [0077] 此外,由直線L和xy平面形成的角度,即圖中豎直方向上的角度(仰角),是元數 據中包括的豎直方向上的角度丫,并且豎直方向上的角度丫是滿足-90°《丫《90。的 任何給定值。直線L的長度,即從原點0到虛擬聲源VS11的距離是元數據中包括的到收聽 者的距離r,并且距離r是等于或大于0的值。更具體地,距離r是滿足0《r的值。 陽07引元數據中包括的每個對象的水平方向上的角度0、豎直方向上的角度丫和距離r 是指示對象位置的信息。在下面的說明中,在不必具體彼此區分對象的水平方向上的角度 9、豎直方向上的角度丫和距離r的情況下,對象的水平方向上的角度0、豎直方向上的角 度丫和距離r在下文中可W被簡稱為關于對象的位置信息。
[0079] 當基于增益g執行對象的音頻數據的增益調整時,可W按期望音量輸出音頻。
[0080] <元數據的編碼〉
[0081] 隨后,將說明上文所述的元數據的編碼。
[0082] 在元數據的編碼期間,在W下呈現的兩個步驟巧1)和巧2)的處理中對對象的位 置信息和增益編碼。在該情況下,(E1)中所示處理是第一步驟中的編碼處理,并且巧2)中 所示處理是第二步驟中的編碼處理。
[0083] 巧1)對每個對象的位置信息和增益進行量化。
[0084] 巧2)根據編碼模式進一步壓縮運樣量化的位置信息和增益。
[00化]應當注意,如下所示存在S種類型的編碼模式(F1)至(F3)。
[0086](FDRAW模式
[0087] (F2)運動式樣預測模式 陽0蝴 腳)殘差模式
[0089] 如(F1)中所示的RAW模式是如下模式:用于按原樣描述在位流中在如巧1)中所 示的第一步驟中的編碼處理中獲得的碼,作為經編碼的位置信息或增益。
[0090] 如(F2)中所示的運動式樣預測模式是如下模式:其中在可W根據過去的對象的 位置信息或增益預測元數據中包括的對象的位置信息或增益的情況下,在位流中描述可預 測的運動式樣。
[0091] 如(F3)中所示的殘差模式是用于基于位置信息或增益的殘差來執行編碼的模 式,并且更具體地,如(F3)中所示的殘差模式是如下模式:用于描述位流中的對象的位置 信息或增益的差異(移位),作為已被編碼的位置信息或增益。
[0092] 最終獲得的經編碼的元數據包括已在如上文說明的(F1)至(F3)中所示的=種類 型的編碼模式中的任一種編碼模式中被編碼的位置信息或增益。
[0093] 針對音頻數據的每個帖限定關于每個對象的位置信息和增益的編碼模式,但是每 個位置信息和增益的編碼模式被限定成使得最終獲得的元數據的數據量(位數)變得最 小。
[0094] 在下面的說明中,經編碼的元數據,即從元數據編碼器22輸出的元數據還可W被 特別地稱為編碼元數據。 陽0巧] < 第一步驟中的編碼處理〉
[0096] 隨后,將更詳細地描述在元數據的編碼期間的第一步驟中的處理和第二步驟中的 處理。
[0097] 首先,將說明編碼期間的第一步驟中的處理。
[0098] 例如,在第一步驟的編碼處理中,對用作關于對象的位置信息的水平方向上的角 度0、豎直方向上的角度丫和距離rW及增益g分別進行量化。
[0099] 更具體地,例如,針對水平方向上的角度0和豎直方向上的角度丫中的每個計算 下式(1),并且按例如R度的間隔對其進行量化(編碼)。
[0100] [數學式^
[0101] Codearc=rouncKArc剛/時...(1) 陽10引在式(1)中,Codegf。表示根據對水平方向上的角度0或豎直方向上的角度丫執 行量化而獲得的碼,并且ArCf。。表示在水平方向上的角度0或豎直方向上的角度丫的量 化之前的角度,并且更具體地,ArCf。。表示0或丫的值。在式(1)中,roundO指示例如取 整函數,并且R表示指示量化間隔的量化寬度,并且更具體地,R表示量