本發明涉及用于處理音頻信號的音頻處理器及方法、用于對音頻信號進行解碼的解碼器及方法以及用于對音頻信號進行編碼的編碼器及方法。此外,描述用于確定相位校正數據、音頻信號的計算器及方法以及用于執行先前提及的方法中的一個的計算機程序。換言之,本發明示出相位導數校正及帶寬擴展(BWE)用于感知的音頻編解碼器或用于基于感知重要性校正QMF域中的帶寬擴展信號的相位譜。
背景技術:
感知音頻編碼
至今所見的感知音頻編碼遵循多個常見主題,包括時域/頻域處理、冗余度縮減(熵編碼)及通過感知效果的發音開發的不相關性移除的使用[1]。通常,輸入信號由分析濾波器組分析,該分析濾波器組將時域信號轉換為譜(時間/頻率)表示。轉換為譜系數允許根據信號分量的頻率內容(例如具有其獨特泛音結構的不同樂器)選擇性地處理信號分量。
平行地,關于輸入信號的感知特性分析輸入信號,即(特別地)計算時間相依及頻率相依的掩蔽閾值。通過用于每個頻帶并對時間幀進行編碼的絕對能量值或掩蔽信號比(MSR)形式的目標編碼閾值將時間相依/頻率相依掩蔽閾值傳輸至量化單元。
對由分析濾波器組傳輸的譜系數進行量化以降低表示信號所需要的數據速率。此步驟意味著信息損失并將編碼失真(誤差、噪聲)引入信號中。為了最小化此編碼噪聲的可聽影響,根據用于每個頻帶及幀的目標編碼閾值控制量化器步長。理想地,注入至每個頻帶中的編碼噪聲低于編碼(掩蔽)閾值,且因此主觀音頻中的降級為不可感知的(不相干性的移除)。根據心理聲學要求對頻率及時間上的量化噪聲的此控制導致復雜噪聲成形效應,且使編碼器成為感知音頻編碼器。
隨后,現代音頻編碼器對量化的譜數據執行熵編碼(例如,霍夫曼編碼、算術編碼)。熵編碼為無損編碼步驟,其可進一步節省比特率。
最后,所有的編碼的譜數據及相關額外參數(旁側信息,如例如用于每個頻帶的量化器設置)一起打包至比特流中,其為用于文件存儲或傳輸的最終編碼表示。
帶寬擴展
在基于濾波器組的感知音頻編碼中,所消耗的比特率的主要部分通常消耗在量化的譜系數上。因此,以極低的比特率,不足的比特可用于以達到感知上未受損的再現所需的精度表示所有系數。因此,低比特率要求有效地設定對可通過感知音頻編碼獲取的音頻帶寬的限制。帶寬擴展[2]消除此長期存在的基本限制。帶寬擴展的中心思想在于通過額外高頻率處理器補充有限帶寬感知編解碼器,該額外高頻率處理器以緊湊參數形式傳輸并恢復缺失的高頻內容。可基于基帶信號的單個邊頻帶調制、基于如在譜帶復制(SBR)[3]中使用的備份技術或基于音高移位(pitch shifting)技術的應用(例如聲碼器[4])生成高頻內容。
數字音效
通常可通過應用時域技術(如同步疊加(SOLA))或頻域技術(聲碼器)獲取時間拉伸或音高移位效果。另外,已提出了在子帶中應用SOLA處理的混合系統。聲碼器及混合系統通常因可歸因于垂直相位相干性的損失的被稱為相位錯亂(phasiness)[8]的人為現象(artifact)而受損。一些出版物涉及通過在垂直相位相干性重要的情況下保留垂直相位相干性而對時間拉伸算法的音質的改良[6][7]。
最新技術的音頻編碼器[1]通常通過忽略待編碼信號的重要相位特性而對音頻信號的感知品質作出妥協。[9]中探討了在感知音頻編碼器中校正相位相干性的一般提議。
然而,并非所有種類的相位相干性誤差可同時校正,且并非所有相位相干性誤差在感知上都是重要的。例如,在音頻帶寬擴展中,自最新技術無法明確哪些相位相干性有關的誤差應當以最高優先權校正,及哪些誤差可僅被部分校正或關于其不重要的感知影響而被完全忽略。
特別地,由于音頻帶寬擴展的應用[2][3][4],頻率上及相位對時間的相干性常常是受損的。結果為展現聽覺粗糙度并可包括從原始信號中的聽覺對象分裂的額外感知音調的濁音,并因此被視為原始信號之外的聽覺對象。此外,聲音可似乎是來自遠距離,“嗡嗡聲”較低,并因此喚醒少數聽眾參與[5]。
因此,需要改進的方法。
技術實現要素:
本發明的目標在于提供一種用于處理音頻信號的改進的概念。通過獨立權利要求的主題實現此目標。
本發明基于可根據由音頻處理器或解碼器計算的目標相位校正音頻信號的相位的發現。目標相位可被視為未處理的音頻信號的相位的表示。因此,調整處理的音頻信號的相位以更好地適應未處理的音頻信號的相位。具有例如音頻信號的時間頻率表示,音頻信號的相位可在子帶中調整用于后續時間幀,或可在時間幀中調整用于后續頻率子帶。因此,發現計算器以自動檢測并選擇最適合的校正方法。可在不同實施例中實施或在解碼器和/或編碼器中共同實施所述發現。
實施例示出用于處理音頻信號的音頻處理器,該音頻處理器包括音頻信號相位測量計算器,該音頻信號相位測量計算器用于計算用于時間幀的音頻信號的相位測量。此外,音頻信號包括目標相位測量確定器,其用于確定用于所述時間幀的目標相位測量;以及相位校正器,其用于使用計算的相位測量及目標相位測量校正用于時間幀的音頻信號的相位,從而獲取處理的音頻信號。
根據另一實施例,音頻信號可包括用于時間幀的多個子帶信號。目標相位測量確定器用于確定用于第一子帶信號的第一目標相位測量以及用于第二子帶信號的第二目標相位測量。此外,音頻信號相位測量計算器確定用于第一子帶信號的第一相位測量及用于第二子帶信號的第二相位測量。相位校正器用于使用音頻信號的第一相位測量及第一目標相位測量校正第一子帶信號的第一相位,并用于使用音頻信號的第二相位測量及第二目標相位測量校正第二子帶信號的第二相位。因此,音頻處理器可包括音頻信號合成器,其用于使用校正的第一子帶信號及校正的第二子帶信號合成校正的音頻信號。
根據本發明,音頻處理器用于在水平方向上校正音頻信號的相位,即時間上的校正。因此,音頻信號可細分為成組的時間幀,其中可根據目標相位調整每個時間幀的相位。目標相位可以是原始音頻信號的表示,其中音頻處理器可以是用于解碼作為原始音頻信號的編碼表示的音頻信號的解碼器的部分。可選地,如果音頻信號在時間-頻率表示中可用,可針對音頻信號的多個子帶分別地應用水平相位校正。可通過從音頻信號的相位減去目標相位的相位對時間的導數與音頻信號的相位的偏差,執行音頻信號的相位的校正。
因此,由于相位對時間的導數為頻率(其中為相位),所描述的相位校正對于音頻信號的每個子帶執行頻率調整。換言之,可減少音頻信號的每個子帶與目標頻率的差異從而獲取音頻信號的較佳品質。
為了確定目標相位,目標相位確定器用于獲取用于當前時間幀的基本頻率估計,且用于使用用于時間幀的基本頻率估計計算用于時間幀的多個子帶中的每個子帶的頻率估計。可使用音頻信號的子帶的總數以及抽樣頻率將頻率估計轉換為相位對時間的導數。在另一實施例中,音頻處理器包括:目標相位測量確定器,其用于確定用于時間幀中的音頻信號的目標相位測量;相位誤差計算器,其用于使用音頻信號的相位及目標相位測量的時間幀計算相位誤差;以及相位校正器,其用于使用相位誤差校正音頻信號的相位及時間幀。
根據另一實施例,音頻信號在時間頻率表示中可用,其中音頻信號包括用于時間幀的多個子帶。目標相位測量確定器確定用于第一子帶信號的第一目標相位測量及用于第二子帶信號的第二目標相位測量。此外,相位誤差計算器形成相位誤差的向量,其中向量的第一元素代表第一子帶信號的相位與第一目標相位測量的第一偏差,且其中向量的第二元素代表第二子帶信號的相位與第二目標相位測量的第二偏差。另外,此實施例的音頻處理器包括音頻信號合成器,其用于使用校正的第一子帶信號及校正的第二子帶信號合成校正的音頻信號。此相位校正平均地產生校正的相位值。
附加地或可選地,多個子帶分為基帶及頻率修補(patch)的集合,其中基帶包括音頻信號的一個子帶,且頻率修補的集合包括在比基帶中的至少一個子帶的頻率高的頻率處的基帶的至少一個子帶。
另一實施例示出相位誤差計算器,其用于計算表示第二數量的頻率修補中的第一修補的相位誤差的向量的元素的平均值,從而獲取平均相位誤差。相位校正器用于使用加權的平均相位誤差校正修補信號的頻率修補集合中的第一頻率修補及后續頻率修補中的子帶信號的相位,其中根據頻率修補的索引除以平均相位誤差以獲取修改的修補信號。此相位校正提供在交越頻率(兩個后續頻率修補之間的邊界頻率)處的良好品質。
根據另一實施例,可組合兩個在先描述的實施例以獲取包括校正的音頻信號,該校正的音頻信號平均起來良好且位于交越頻率處的相位校正的值。因此,音頻信號相位導數計算器用于計算用于基帶的相位對頻率的導數的平均值。相位校正器通過將由當前子帶索引加權的相位對頻率的導數的平均值與音頻信號的基帶中具有最高子帶索引的子帶信號的相位相加,計算具有優化的第一頻率修補的另一修改的修補信號。此外,相位校正器可用于計算修改的修補信號與另一修改的修補信號的加權平均值以獲取組合修改的修補信號,并用于通過將由當前子帶的子帶索引加權的相位對頻率的導數的平均值與組合修改的修補信號的先前頻率修補中具有最高子帶索引的子帶信號的相位相加,基于頻率修補遞歸地更新組合修改的修補信號。
為確定目標相位,目標相位測量確定器可包括數據流提取器,該數據流提取器用于從數據流中提取音頻信號的當前時間幀中的峰位及峰位的基本頻率。可選地,目標相位測量確定器可包括音頻信號分析器,其用于分析當前時間幀從而計算當前時間幀中的峰位及峰位的基本頻率。此外,目標相位測量確定器包括目標譜生成器,其用于使用峰位及峰位的基本頻率估計當前時間幀中的其他峰位。具體地,目標譜生成器可包括用于生成時間的脈沖序列的峰值檢測器、用于根據峰位的基本頻率調整脈沖序列的頻率的信號形成器、用于根據位置調整脈沖序列的相位的脈沖定位器以及用于生成調整的脈沖序列的相位譜的譜分析器,其中時域信號的相位譜為目標相位測量。目標相位測量確定器的所描述的實施例對于生成用于包括具有峰值的波形的音頻信號的目標譜是有益的。
第二音頻處理器的實施例描述垂直相位校正。垂直相位校正在所有子帶上調整一個時間幀中的音頻信號的相位。針對每個子帶獨立應用的音頻信號的相位的調整,在合成音頻信號的子帶之后導致不同于未校正音頻信號的音頻信號的波形。因此,例如可能重新成形模糊的峰值或瞬態。
根據另一實施例,示出用于確定用于音頻信號的相位校正數據的計算器,該計算器具有用于在第一變化模式及第二變化模式中確定音頻信號的相位的變化的變化確定器、用于比較使用相位變化模式確定的第一變化及使用第二變化模式確定的第二變化的變化比較器,以及用于基于比較的結果根據第一變化模式或第二變化模式計算相位校正的校正數據計算器。
另一實施例示出變化確定器,其用于在第一變化模式中確定作為相位的變化的用于音頻信號的多個時間幀的相位對時間的導數(PDT)的標準差測量,或在第二變化模式中確定作為相位的變化的用于多個子帶的相位對頻率的導數(PDF)的標準差測量。變化比較器針對音頻信號的時間幀比較作為第一變化模式的相位對時間的導數的測量以及作為第二變化模式的相位對頻率的導數的測量。根據另一實施例,變化確定器用于在第三變化模式中確定音頻信號的相位的變化,其中第三變化模式為瞬態檢測模式。因此,變化比較器比較三個變化模式,且校正數據計算器基于比較的結果根據第一變化模式、第二變化或第三變化模式計算相位校正。
校正數據計算器的決策規則可描述如下。如果檢測到瞬態,則根據用于瞬態的相位校正對相位進行校正,從而恢復瞬態的形狀。否則,如果第一變化小于或等于第二變化,則應用第一變化模式的相位校正,或如果第二變化大于第一變化,則應用根據第二變化模式的相位校正。在檢測到無瞬態且第一變化及第二變化均超過閾值時,則不應用相位校正模式。
計算器可用于分析音頻信號(例如在音頻編碼階段中)以確定最佳相位校正模式并計算用于確定的相位校正模式的有關參數。在解碼階段中,可使用參數以獲取具有比使用現有技術的編解碼器解碼的音頻信號更好的品質的解碼的音頻信號。應注意的是,計算器針對音頻信號的每個時間幀自主地檢測合適的校正模式。
實施例示出用于對音頻信號進行解碼的解碼器,該解碼器具有用于使用第一校正數據生成用于音頻信號的第二信號的第一時間幀的目標譜的第一目標譜生成器,及用于以相位校正算法校正所確定的音頻信號的第一時間幀中的子帶信號的相位的第一相位校正器,其中通過減少音頻信號的第一時間幀中的子帶信號的測量與目標譜之間的差異來執行校正。另外,解碼器包括音頻子帶信號計算器,其用于使用用于時間幀的校正的相位計算用于第一時間幀的音頻子帶信號,且用于使用第二時間幀中的子帶信號的測量或使用根據不同于相位校正算法的另一相位校正算法的校正的相位計算,計算用于不同于第一時間幀的第二時間幀的音頻子帶信號。
根據另一實施例,解碼器包括等效于第一目標譜生成的第二目標譜生成器及第三目標譜生成器,以及等效于第一相位校正器的第二相位校正器及第三相位校正器。因此,第一相位校正器可執行水平相位校正,第二相位校正器可執行垂直相位校正,且第三相位校正器可執行相位校正瞬態。根據另一實施例,解碼器包括核心解碼器,其用于對具有關于音頻信號的減少數量的子帶的時間幀中的音頻信號進行解碼。此外,解碼器可包括修補器,其用于使用具有減少數量的子帶的核心解碼的音頻信號的子帶的集合修補相鄰于減少數量的子帶的時間幀中的其他子帶,其中子帶的集合形成第一修補,以獲取具有正常數量的子帶的音頻信號。此外,解碼器可包括用于處理時間幀中的音頻子帶信號的幅值的幅度處理器,及用于合成音頻子帶信號或處理的音頻子帶信號的幅度以獲取合成解碼的音頻信號的音頻信號合成器。此實施例可建立用于包括解碼的音頻信號的相位校正的帶寬擴展的解碼器。
因此,用于對音頻信號進行編碼的編碼器包括:相位確定器,其用于確定音頻信號的相位;計算器,其用于基于音頻信號的確定的相位確定用于音頻信號的相位校正數據;核心編碼器,其用于對音頻信號進行核心編碼,以獲取具有關于音頻信號的減少數量的子帶的核心編碼的音頻信號;以及參數提取器,其用于提取音頻信號的參數,以獲取用于不包括在核心編碼的音頻信號中的第二子帶集合的低分辨率參數表示;以及音頻信號形成器,其形成輸出信號,該輸出信號包括參數、核心編碼的音頻信號以及相位校正數據。該編碼器可形成用于帶寬擴展的編碼器。
所有在先描述的實施例可全部或以組合方式可參見(例如)于用于具有解碼的音頻信號的相位校正的帶寬擴展的編碼器及/或解碼器中。可選地,也有可能不互相參見獨立地考慮所有描述的實施例。
附圖說明
隨后將參考附圖論述本發明的實施例,其中:
圖1a在時間頻率表示中示出小提琴信號的幅度譜;
圖1b示出與圖1a的幅度譜對應的相位譜;
圖1c在時間頻率表示中示出QMF域中的長號信號的幅度譜;
圖1d示出與圖1c的幅度譜對應的相位譜;
圖2示出包括由時間幀及子帶定義的時間頻率頻塊(tile)(例如,QMF頻格(bin)、正交鏡相濾波器組頻格)的時間頻率圖;
圖3a示出音頻信號的示例性頻率圖,其中在十個不同子帶上繪示頻率的幅度;
圖3b示出在接收之后(例如在中間步驟的解碼過程期間)的音頻信號的示例性頻率表示;
圖3c示出重構的音頻信號Z(k,n)的示例性頻率表示;
圖4a在時間-頻率表示中示出使用直接備份SBR的QMF域中的小提琴信號的幅度譜;
圖4b示出與圖4a的幅度譜對應的相位譜;
圖4c在時間-頻率表示中示出使用直接備份SBR的QMF域中的長號信號的幅度譜;
圖4d示出與圖4c的幅度譜對應的相位譜;
圖5示出具有不同相位值的單個QMF頻格的時域表示;
圖6示出信號的時域及頻域呈現,該信號具有一個非零頻帶以及以π/4(上)及3π/4(下)的固定值變化的相位;
圖7示出信號的時域及頻域呈現,該信號具有一個非零頻帶以及隨機變化的相位;
圖8在四個時間幀及四個頻率子帶的時間頻率表示中示出關于圖6所描述的效果,其中僅第三子帶包括非零的頻率;
圖9示出信號的時域及頻域呈現,該信號具有一個非零時間幀以及以π/4(上)及3π/4(下)的固定值變化的相位;
圖10示出信號的時域及頻域呈現,該信號具有一個非零時間幀以及隨機變化的相位;
圖11示出與圖8中所示的時間頻率圖類似的時間頻率圖,其中僅第三時間幀包括非零的頻率;
圖12a在時間-頻率表示中示出QMF域中的小提琴信號的相位對時間的導數;
圖12b示出與圖12a中所示的相位對時間的導數對應的相位導數頻率;
圖12c在時間-頻率表示中示出QMF域中的長號信號的相位對時間的導數;
圖12d示出與圖12c的相位對時間的導數對應的相位對頻率的導數;
圖13a在時間-頻率表示中示出使用直接備份SBR的QMF域中的小提琴信號的相位對時間的導數;
圖13b示出與圖13a中所示的相位對時間的導數對應的相位對頻率的導數;
圖13c在時間-頻率表示中示出使用直接備份SBR的QMF域中的長號信號的相位對時間的導數;
圖13d示出與圖13c中所示的相位對時間的導數對應的相位對頻率的導數;
圖14a在單位圓中示意性地示出例如后續時間幀或頻率子帶的四個相位;
圖14b示出SBR處理之后的圖14a中所示的相位并以虛線示出校正的相位;
圖15示出音頻處理器50的示意性框圖;
圖16示出根據另一實施例的示意性框圖中的音頻處理器;
圖17在時間-頻率表示中示出使用直接備份SBR的QMF域中的小提琴信號的PDT中的平滑化誤差;
圖18a在時間-頻率表示中示出用于校正的SBR的QMF域中的小提琴信號的PDT中的誤差;
圖18b示出與圖18a中所示的誤差對應的相位對時間的導數;
圖19示出解碼器的示意性框圖;
圖20示出編碼器的示意性框圖;
圖21示出可作為音頻信號的數據流的示意性框圖;
圖22示出根據另一實施例的圖21的數據流;
圖23示出用于處理音頻信號的方法的示意性框圖;
圖24示出用于解碼音頻信號的方法的示意性框圖;
圖25示出用于編碼音頻信號的方法的示意性框圖;
圖26示出根據另一實施例的音頻處理器的示意性框圖;
圖27示出根據優選實施例的音頻處理器的示意性框圖;
圖28a示出音頻處理器中的相位校正器的示意性框圖,該示意性框圖更詳細地示出信號流;
圖28b從與圖26-28a相比的另一觀點示出相位校正的步驟;
圖29示出音頻處理器中的目標相位測量確定器的示意性框圖,該示意性框圖更詳細地示出目標相位測量確定器;
圖30示出音頻處理器中的目標譜生成器的示意性框圖,該示意性框圖更詳細地示出目標譜生成器;
圖31示出解碼器的示意性框圖;
圖32示出編碼器的示意性框圖;
圖33示出可作為音頻信號的數據流的示意性框圖;
圖34示出用于處理音頻信號的方法的示意性框圖;
圖35示出用于解碼音頻信號的方法的示意性框圖;
圖36示出用于解碼音頻信號的方法的示意性框圖;
圖37在時間-頻率表示中示出使用直接備份SBR的QMF域中的長號信號的相位譜中的誤差;
圖38a在時間-頻率表示中示出使用校正的SBR的QMF域中的長號信號的相位譜中的誤差;
圖38b示出與圖38a中所示的誤差對應的相位對頻率的導數;
圖39示出計算器的示意性框圖;
圖40示出計算器的示意性框圖,該示意性框圖更詳細地示出變化確定器中的信號流;
圖41示出根據另一實施例的計算器的示意性框圖;
圖42示出用于確定用于音頻信號的相位校正數據的方法的示意性框圖;
圖43a在時間-頻率表示中示出QMF域中的小提琴信號的相位對時間的導數的標準差;
圖43b示出與關于圖43a所示的相位對時間的導數的標準差對應的相位對頻率的導數的標準差;
圖43c在時間-頻率表示中示出QMF域中的長號信號的相位對時間的導數的標準差;
圖43d示出與圖43c中所示的相位對時間的導數的標準差對應的相位對頻率的導數的標準差;
圖44a在時間-頻率表示中示出QMF域中的小提琴+鼓掌信號的幅度;
圖44b示出對應于圖44a中所示的幅度譜的相位譜;
圖45a在時間-頻率表示中示出QMF域中的小提琴+鼓掌信號的相位對時間的導數;
圖45b示出與圖45a中所示的相位對時間的導數對應的相位對頻率的導數;
圖46a在時間頻率表示中示出使用校正的SBR的QMF域中的小提琴+鼓掌信號的相位對時間的導數;
圖46b示出與圖46a中所示的相位對時間的導數對應的相位對頻率的導數;
圖47在時間-頻率表示中示出QMF頻帶的頻率;
圖48a在時間-頻率表示中示出與所示的原始頻率相比的QMF頻帶直接備份SBR的頻率;
圖48b在時間-頻率表示中示出與原始頻率相比的使用校正的SBR的QMF頻帶的頻率;
圖49在時間-頻率表示中示出與原始信號的QMF頻帶的頻率相比的諧波的估計頻率;
圖50a在時間-頻率表示中示出具有壓縮的校正數據的使用校正的SBR的QMF域中的小提琴信號的相位對時間的導數中的誤差;
圖50b示出與圖50a中所示的相位對時間的導數的誤差對應的相位對時間的導數;
圖51a在時間圖中示出長號信號的波形;
圖51b示出與圖51a中的長號信號對應的時域信號,該時域信號僅含有估計峰值;其中已使用所傳輸元數據獲取到峰值的位置;
圖52a在時間-頻率表示中示出具有壓縮的校正數據的使用校正的SBR的QMF域中的長號信號的相位譜中的誤差;
圖52b示出與圖52a中所示的相位譜中的誤差對應的相位對頻率的導數;
圖53示出解碼器的示意性框圖;
圖54示出根據優選實施例的示意性框圖;
圖55示出根據另一實施例的解碼器的示意性框圖;
圖56示出編碼器的示意性框圖;
圖57示出可用于圖56中所示的編碼器中的計算器的框圖;
圖58示出用于解碼音頻信號的方法的示意性框圖;以及
圖59示出用于編碼音頻信號的方法的示意性框圖。
具體實施方式
下面將更詳細地描述本發明的實施例。各個圖中所示的具有相同或類似功能的元件具有與其相關的相同附圖標記。
關于特定信號處理描述本發明的實施例。因此,圖1-14描述應用于音頻信號的信號處理。即使關于此特殊信號處理描述實施例,本發明也不限于此處理,并可進一步應用于許多其他處理方案。此外,圖15-25示出可用于音頻信號的水平相位校正的音頻處理器的實施例。圖26-38示出可用于音頻信號的垂直相位校正的音頻處理器的實施例。此外,圖39-52示出用于確定用于音頻信號的相位校正數據的計算器的實施例。計算器可分析音頻信號并確定應用先前提及的音頻處理器中的哪些,或在沒有適用于音頻信號的音頻處理器的情況下則不將音頻處理器應用至音頻信號。圖53-59示出可包括第二處理器及計算器的解碼器及編碼器的實施例。
1介紹
感知音頻編碼已激增成為使得數字技術能夠用于使用具有有限容量的傳輸或儲存信道向消費者提供音頻及多媒體的所有類型的應用的主流。要求現代感知音頻編解碼器以越來越低的比特率傳輸令人滿意的音頻品質。相應地,不得不忍受大多數聽眾在最大程度上所能容忍的某些編碼人為現象。音頻帶寬擴展(BWE)是通過以引入某些人為現象為代價將傳輸的低頻帶信號部分譜轉移或換位至高頻帶而人工地擴展音頻編碼器的頻率范圍的技術。
發現,這些人為現象中的一些與人工擴展的高頻帶內的相位導數的變化有關。這些人為現象的一個為相位對頻率的導數(參見“垂直”相位相干性)[8]的變化。所述相位導數的保留對于具有諸如時域波形的脈沖序列及相當低的基本頻率的音調(tonal)信號是感知上重要的。與垂直相位導數的變化有關的人為現象對應于時間上的能量的局部逸散,且常見于已通過BWE技術處理的音頻信號中。另一人為現象為對于任何基本頻率的多陪音(overtone-rich)音調信號是感知上重要的相位對時間的導數(參見“水平”相位相干性)的變化。與水平相位導數的變化有關的人為現象對應于音高上的局部頻率偏移,且常見于已通過BWE技術處理的音頻信號中。
本發明呈現用于在已通過所謂的音頻帶寬擴展(BWE)的應用在此性質上作出妥協時重新調整此類信號的垂直相位導數或水平相位導數的手段。提供其他手段以決策相位導數的恢復是否是感知有益的,以及是調整垂直相位導數還是調整水平相位導數是感知較佳的。
帶寬擴展方法如譜帶復制(SBR)[9]通常用于低比特率編解碼器中。其允許僅將關于較高頻帶的參數信息與相對窄的低頻區域一同傳輸。由于參數信息的比特率較小,可獲取編碼效率的顯著改善。
通常,用于較高頻帶的信號通過從傳輸的低頻區域中簡單復制來獲取。通常在復雜調制的正交鏡象濾波器組(QMF)[10]域中執行處理,在下文中也作此假設。通過基于傳輸參數將備份信號的幅度譜與適合增益相乘,處理備份信號。目標在于獲取與原始信號的幅度譜類似的幅度譜。相反,通常根本不對備份信號的相位譜進行處理而直接使用備份相位譜。
下面探討直接使用備份相位譜的感知結果。基于觀察的效果,提出用于檢測在感知上最顯著效果的兩個度量。此外,提出如何基于此兩個度量校正相位譜的方法。最后,提出用于將用于執行校正的傳輸參數值的量最小化的策略。
本發明涉及相位導數的保留或恢復能夠補救由音頻帶寬擴展(BWE)技術引起的顯著人為現象的發現。例如,典型信號(其中相位導數的保留是重要的)是具有多諧波陪音內容的音調(如有聲語音、銅管樂器或弓弦)。
本發明進一步提供用于決策:對于給定信號幀,相位導數的恢復是否是感知有益的,以及是調整垂直相位導數還是調整水平相位導數是感知較佳的。
本發明結合以下方面使用BWE技術教示一種用于音頻編解碼器中的相位導數校正的裝置及方法:
1.相位導數校正的“重要性”的量化
2.垂直(“頻率”)相位導數校正或水平(“時間”)相位導數校正的信號相依優先化
3.校正方向(“頻率”或“時間”)的信號相依切換
4.用于瞬態的專用垂直相位導數校正模式
5.獲取用于平滑校正的穩定參數
6.校正參數的緊湊旁側信息傳輸格式
2在QMF域中的信號的呈現
例如,使用復雜調制的正交鏡象濾波器組(QMF),可在時間-頻率域中呈現時域信號x(m)(其中m為離散時間)。結果信號為X(k,n),其中k為頻帶索引且n為時間幀索引。為了可視化和實施例,假設64個頻帶的QMF及48kHz的抽樣頻率fs。因此,每個頻帶的帶寬fBW為375Hz,且時間跳躍大小thop(圖2中的17)為1.33ms。然而,處理不限于此變換。可選地,可替代地使用MDCT(改進離散余弦變換)或DFT(離散傅立葉變換)。
結果信號為X(k,n),其中k為頻帶索引且n為時間幀索引。X(k,n)為復雜信號。因此,可使用幅度Xmag(k,n)及相位分量Xpha(k,n)呈現該信號,其中j為復數:
主要使用Xmag(k,n)及Xpha(k,n)呈現音頻信號(參見用于兩個示例的圖1)。
圖1a示出小提琴信號的幅度譜Xmag(k,n),其中圖1b示出對應相位譜Xpha(k,n),兩者皆在QMF域中。此外,圖1c示出長號信號的幅度譜Xmag(k,n),其中圖1d在對應QMF域中再次示出對應相位譜。關于圖1a及圖1c中的幅度譜,顏色漸變指示從紅色=0dB至藍色=-80dB的幅度。此外,對于圖1b及圖1d中的相位譜,顏色漸變指示從紅色=π至藍色=-π的相位。
3音頻數據
用于示出所描述的音頻處理的效果的音頻數據對于長號的音頻信號被命名為“長號”,對于小提琴的音頻信號被命名為“小提琴”,以及對于中間增添有鼓掌的小提琴信號被命名為“小提琴+鼓掌”。
4SBR的基本操作
圖2示出包括由時間幀15及子帶20定義的時間頻率頻塊10(例如QMF頻格、正交鏡象濾波器組頻格)的時間頻率圖5。可使用QMF(正交鏡象濾波器組)變換、MDCT(改進離散余弦變換)或DFT(離散傅立葉變換)將音頻信號變換為如此的時間頻率表示。音頻信號在時間幀中的劃分可包括音頻信號的重疊部分。在圖1的下部,示出時間幀15的單個重疊,其中最多兩個時間幀同時重疊。此外,即如果需要更多冗余,也可使用多重疊來劃分音頻信號。在多重疊算法中,三個或更多個時間幀可包括在某個時間點處的音頻信號的相同部分。重疊的持續時間為跳躍大小thop 17。
假設信號X(k,n),通過備份所傳輸的低頻頻帶的某些部分從輸入信號X(k,n)獲取帶寬擴展(BWE)信號Z(k,n)。通過選擇待傳輸頻率區域,開始執行SBR算法。在此示例中,選擇從1至7的頻帶:
待傳輸頻帶的數量取決于期望比特率。使用7個頻帶生成附圖及公式,且從5至11的頻帶用于對應音頻數據。因此,傳輸的頻率區域與較高頻帶之間的交越頻率分別為從1875Hz至4125Hz。根本不傳輸此區域以上的頻帶,而是產生參數元數據來描述它們。編碼并傳輸Xtrans(k,n)。為簡單起見,盡管需要看到進一步的處理不限于假設的情況,仍假設編碼不以任何方式修改信號。
在接收端中,將傳輸的頻率區域直接用于對應頻率。
對于較高頻帶,可使用傳輸的信號以某種方式產生信號。一種方法是簡單地將傳輸的信號復制至較高頻率。在此使用稍微修改版本。首先,選擇基帶信號。該基帶信號可為整個傳輸的信號,但在此實施例中,省略第一頻帶。對此的原因在于,在許多情況下都注意到,相位譜對于第一頻帶是不規則的。因此,定義待備份的基帶為
其他帶寬也可用于傳輸的信號及基帶信號。使用基帶信號,產生用于較高頻率的未經處理的信號
Yraw(k,n,i)=Xbase(k,n) (4)
其中Yraw(k,n,i)為用于頻率修補i的復雜QMF信號。通過將未經處理的頻率修補信號與增益g(k,n,i)相乘,根據傳輸的元數據操作未經處理的頻率修補信號
Y(k,n,i)=Yraw(k,n,i)g(k,n,i) (5)
應當注意的是,增益為實值,并因此僅幅度譜受到影響且借此適于期望目標值。已知方法示出如何獲取增益。目標相位在所述已知方法中保持未校正。
通過串接傳輸的信號及修補信號(用于無縫擴展帶寬)獲取待再現的最終信號以獲取期望帶寬的BWE信號。在此實施例中,假設i=7。
圖3以圖解表示示出描述的信號。圖3a示出音頻信號的示例性頻率圖,其中在十個不同子帶上繪示頻率的幅度。前七個子帶反映傳輸頻帶Xtrans(k,n)25。通過選擇第二至第七子帶從傳輸頻帶得到基帶Xbase(k,n)30。圖3a示出原始音頻信號,即傳輸或編碼之前的音頻信號。圖3b示出在接收之后(例如在中間步驟的解碼過程期間)的音頻信號的示例性頻率表示。音頻信號的頻譜包括傳輸頻帶25和被復制至頻譜的較高子帶的七個基帶信號30以形成包括比基帶中的頻率較高的頻率的音頻信號32。完整的基帶信號也被稱為頻率修補。圖3c示出重構的音頻信號Z(k,n)35。與圖3b相比,將基帶信號的修補與增益因數分別相乘。因此,音頻信號的頻譜包括主頻譜25及多個幅度校正的修補Y(k,n,1)40。此修補方法被稱為直接備份修補。盡管本發明不限于此修補算法,直接備份修補示例性地用于描述本發明。可使用的另一修補算法為,例如諧波修補算法。
假設較高頻帶的參數表示是理想的,即重構信號的幅度譜與原始信號的幅度譜相同
Zmag(k,n)=Xmag(k,n) (7)
然而,應當注意的是,相位譜并未通過該算法以任何方式校正,因此即使算法運行良好相位譜仍不正確。因此,實施例示出如何將Z(k,n)的相位譜額外調節并校正為目標值,以獲取感知品質的提升。在實施例中,可使用三種不同的處理模式(即“水平”、“垂直”及“瞬態”)執行校正。在下文中單獨論述這些模式。
圖4中針對小提琴及長號信號繪示Zmag(k,n)及Zpha(k,n)。圖4示出具有直接備份修補的使用譜帶寬復制(SBR)的重構的音頻信號35的示例性譜。圖4a中示出小提琴信號的幅度譜Zmag(k,n),其中圖4b示出對應相位譜Zpha(k,n)。圖4c及圖4d示出用于長號信號的對應譜。在QMF域中呈現所有信號。如在圖1中已看到的,顏色漸變指示從紅色=0dB至藍色=80dB的幅度及從紅色=π至藍色=-π的相位。可看出,它們的相位譜不同于原始信號的譜(見圖1)。由于SBR,小提琴被感知為含有不和諧性,且長號被感知為在交越頻率處含有調制噪聲。然而,相位圖看起來很隨機,且難以說明其如何不同以及差異的感知效果是什么。此外,發送用于此類隨機數據的校正數據在需要低比特率的編碼應用中是不可行的。因此,需要理解相位譜的感知效果并找到用于描述感知效果的度量。在以下章節中論述此主題。
5QMF域中的相位譜的意義
通常認為頻帶的索引定義單個音調分量的頻率,幅度定義單個音調分量的等級,以及相位定義單個音調分量的“時序(timing)”。然而,QMF帶的帶寬相對較大,且數據是過抽樣的。因此,時間-頻率頻塊(即,QMF頻格)之間的交互實際上定義所有這些性質。
圖5中繪示具有三個不同相位值(即,Xmag(3,1)=1且Xpha(3,1)=0,π/2或π)的單個QMF頻格的時域表示。結果為具有13.3ms長度的類辛格函數(sinc-like function)。函數的精確形狀由相位參數定義。
對于所有時間幀考慮僅有一個頻帶是非零的情況,即,
通過以固定值α改變時間幀之間的相位,即,
Xpha(k,n)=Xpha(k,n-1)+α (9)
產生正弦曲線。在圖6中以α=π/4(頂部)及3π/4(底部)的值示出結果信號(即,逆QMF變換后的時域信號)。可看出,正弦曲線的頻率受相位變化的影響。圖6右側示出信號的頻域且左側示出信號的時域。
相應地,若隨機地選擇相位,結果為窄帶噪聲(見圖7)。因此,可以說QMF頻格的相位控制對應頻帶內部的頻率內容。
圖8在四個時間幀及四個頻率子帶的時間頻率表示中示出關于圖6所描述的效果,其中僅第三子帶包括非零的頻率。此導致在圖8的右側示意性呈現的來自圖6的頻域信號,且導致在圖8的底部示意性呈現的圖6的時域表示。
對于所有頻帶考慮僅一個時間幀為非零的情況,即,
通過以固定值α改變頻帶之間的相位,即
Xpha(k,n)=Xpha(k-1,n)+α (11)
產生瞬態。在圖9中以α=π/4(頂部)及3π/4(底部)的值示出結果信號(即,逆QMF變換后的時域信號)。可看出,瞬態的時間位置受相位變化影響。圖9的右側示出信號的頻域且左側示出信號的時域。
相應地,若隨機地選擇相位,則結果為短突發噪聲(見圖10)。因此,可以說QMF頻格的相位也控制對應時間幀內部的諧波的時間位置。
圖11示出類似于圖8中所示的時間頻率圖的時間頻率圖。在圖11中,僅第三時間幀包括不同于零的值,具有從一個子帶至另一子帶的π/4的時移。變換至頻域,獲取來自圖9右側的頻域信號,示意性地呈現于圖11的右側。在圖11的底部示出圖9左部的時域表示的示意圖。通過將時間頻率域變換成時域信號得到此信號。
6用于描述相位譜的感知上相關性質的測量
如第4章中所論述,相位譜本身上看起來相當混亂,且難以直接看出相位譜對感知的影響是什么。第5章呈現可由操縱QMF域中的相位譜引起的兩個影響:(a)時間上的恒定相位變化產生正弦曲線且相位變化的量控制正弦曲線的頻率,及(b)頻率上的恒定相位變化產生瞬態且相位變化的量控制瞬態的時間位置。
顯然,分音(partial)的頻率及時間位置對于人類感知顯然是重要的,因此檢測這些性質是潛在有用的。可通過計算相位對時間的導數(PDT)
Xpdt(k,n)=Xpha(k,n+1)-Xpha(k,n) (12)
及通過計算相位對頻率的導數(PDF)
Xpdf(k,n)=Xpha(k+1,n)-Xpha(k,n) (13)
估計這些性質。Xpdt(k,n)與頻率有關且Xpdf(k,n)與分音的時間位置有關。由于QMF分析的性質(相鄰時間幀的調制器的相位如何在瞬態的位置處匹配),為可視化目的,在圖中將π添加至Xpdf(k,n)的偶數時間幀,以產生平滑曲線。
然后,檢查這些測量對于示例性信號看起來如何。圖12示出用于小提琴及長號信號的導數。更具體地,圖12a示出QMF域中的原始(即,未處理的)小提琴音頻信號的相位對時間的導數Xpdt(k,n)。圖12b示出對應的相位對頻率的導數Xpdf(k,n)。圖12c及圖12d分別示出用于長號信號的相位對時間的導數及相位對頻率的導數。顏色漸變指示從紅色=π至藍色=-π的相位值。對于小提琴,幅度譜基本上為噪聲,直至約0.13秒為止(見圖1),且因此導數也是有噪的。從大約0.13秒開始,Xpdt顯現為具有隨時間的相對穩定值。此意味信號含有強烈的、相對穩定的正弦曲線。通過Xpdt值確定這些正弦曲線的頻率。相反地,Xpdf圖顯現為相對有噪的,因此使用它未發現用于小提琴的相關數據。
對于長號,Xpdt是相對有噪的。相反地,Xpdf顯現為在所有頻率處具有大約相同的值。實際上,此意味所有諧波分量在時間上一致,從而產生類瞬態信號。通過Xpdf值確定瞬態的時間位置。
也可針對SBR處理的信號Z(k,n)計算同樣的導數(見圖13)。圖13a至圖13d與圖12a至圖12d直接有關,通過使用在先描述的直接備份SBR算法得出。由于相位譜是從基帶簡單復制至較高修補,頻率修補的PDT與基帶的PDT相同。因此,對于小提琴,PDT在時間上是相對平滑的,從而產生穩定的正弦曲線,正如原始信號的情況。然而,Zpdt的值不同于原始信號Xpdt的值,致使產生的正弦曲線具有與原始信號中不同的頻率。在第7章中論述此情況的感知效果。
相應地,頻率修補的PDF另外與基帶的PDF相同,但實際上在交越頻率處,PDF是隨機的。實際上,在交越處,PDF被計算為介于頻率修補的最后相位值與第一相位值之間,即,
Zpdt(7,n)=Zpha(8,n)-Zpha(7,n)=Ypha(1,n,i)-Ypha(6,n,i) (14)
該值取決于實際PDF及交越頻率,且該值與原始信號的值不匹配。
對于長號,除交越頻率之外,備份信號的PDF值是正確的。因此,大部分諧波的時間位置在正確的地方,但在交越頻率處的諧波實際上在隨機位置。第7章中論述此情況的感知效果。
7相位誤差的人類感知
聲音可大致上分為兩種:諧波及類噪聲信號。類噪聲信號已通過定義具有有噪相位性質。因此,假設由SBR引起的相位誤差在具有相位誤差的情況下并非是感知顯著的。相反,其集中在諧波信號上。大多數樂器以及語音對信號產生諧波結構,即,音調含有在頻率上由基本頻率間隔的強正弦分量。
通常,假設人類聽力表現為好像包括被稱為聽覺濾波器的重疊帶通濾波器組。因此,可假設聽力處理復雜聲音,使得聽覺濾波器內部的分音被分析為一個實體。這些濾波器的寬度可近似遵循等效矩形帶寬(ERB)[11],其可根據以下公式確定:
ERB=24.7(4.37fc+1), (15)
其中fc為頻帶的中心頻率(以kHz為單位)。如第4章中所論述,基帶與SBR修補之間的交越頻率大約為3kHz。在此頻率處,ERB約為350Hz。QMF頻帶的帶寬實際上相對地接近于此(為375Hz)。因此,可假設QMF頻帶的帶寬在感興趣的頻率處遵循ERB。
在第6章中觀察到可由于錯誤的相位譜而出錯的聲音的兩個性質:分音分量的頻率及時序。對于頻率,問題在于人類聽力可感知單獨諧波的頻率嗎?若可以,則應校正由SBR引起的頻率偏移,而若不可以,則不需要校正。
分解及未分解的諧波[12]的概念可用來闡明此主題。若在ERB內部僅存在一個諧波,則諧波稱為分解的。通常,假設人類聽力單獨地處理分解的諧波,且因此對分解的諧波是頻率敏感的。實際上,改變分解的諧波的頻率被感知為導致不和諧性。
相應地,若ERB內部有多個諧波,則諧波稱為未分解的。假設人類聽力并不單獨地處理這些諧波,相反,其聯合效應通過聽覺系統可見。結果為周期信號,且周期的長度由諧波的間隔確定。音高感知與周期的長度有關,因此假設人類聽力對其敏感。然而,若以相同量對SBR中的頻率修補內部的所有諧波移位,則諧波之間的間隔及因此所感知的音高保持相同。因此,在未分解的諧波的情況下,人類聽力并不將頻率偏移感知為不和諧性。
然后,考慮由SBR引起的時序有關誤差。通過時序表示諧波分量的時間位置或相位。此不應與QMF頻格的相位混淆。在[13]中詳細研究了時序有關誤差的感知。可觀察到,對于大多數信號,人類聽力對諧波分量的時序或相位不敏感。然而,存在某些信號,在此類信號的情況下,人類聽力對分音的時序極其敏感。此類信號包括例如長號及小號聲音及語音。在此類信號的情況下,與所有諧波在同一時刻發生某一相位角。在[13]中模擬不同聽覺頻帶的神經放電速率。發現,在此類相位敏感信號的情況下,產成的神經放電速率在所有聽覺頻帶處具有峰值,且峰值在時間上對齊。改變甚至單個諧波的相位可以改變在此類信號情況下的神經放電速率的峰度。根據正式的聽音測試的結果,人類聽力對于此是敏感的[13]。產成的效果為在相位被修改的頻率處對添加的正弦分量或窄帶噪聲的感知。
另外,發現,對時序有關效果的敏感度取決于諧音的基本頻率[13]。基本頻率越低,感知效果越大。如果基本頻率超過約800Hz,則聽覺系統對于時序有關效果完全不敏感。
因此,若基本頻率為低,且若諧波的相位在頻率上對齊(此意味著諧波的時間位置是對齊的),則諧波的時序(或換言之,相位)上的變化可由人類聽力感知。若基本頻率為高和/或諧波的相位在頻率上未對齊,則人類聽力對諧波的時序上的變化不敏感。
8校正方法
在第7章中,注意到,人類對分解的諧波的頻率中的誤差敏感。另外,若基本頻率為低,且若諧波在頻率上對齊,則人類對諧波的時間位置中的誤差敏感。SBR可引起此兩種誤差,如第6章中所論述,因此可通過校正此類誤差提升感知品質。在本章中提出用于進行此的方法。
圖14示意性地例示校正方法的基本思想。圖14a在單位圓中示意性地示出例如后續時間幀或頻率子帶的四個相位45a-d。相位45a-d以90°等分地間隔。圖14b示出SBR處理之后的相位并以虛線示出校正的相位。處理之前的相位45a可移至相位角45a’。同樣適用于相位45b至45d。此表明,在SBR處理之后可破壞處理之后的相位之間的差異(即相位導數)。例如,相位45a’與相位45b’之間的差異在SBR處理之后為110°,在處理之前為90°。校正方法將相位值45b’改變至新相位值45b”以恢復90°的舊相位導數。同樣的校正被應用于相位45d’及45d”。
8.1校正頻率誤差——水平相位導數校正
如第7章中所論述,人類大多在一個ERB內部僅存在一個諧波的時候可感知諧波的頻率中的誤差。此外,QMF頻帶的帶寬可用于估計在第一交越處的ERB。因此,僅當一個頻帶內部存在一個諧波時需要校正頻率。此是非常便利的,因為第5章表明,若存在每頻帶一個諧波,則產成的PDT值為穩定的,或隨時間緩慢改變,且可使用低比特率被潛在地校正。
圖15示出用于處理音頻信號55的音頻處理器50。音頻處理器50包括音頻信號相位測量計算器60、目標相位測量確定器65以及相位校正器70。音頻信號相位測量計算器60用于計算用于時間幀75的音頻信號55的相位測量80。目標相位測量確定器65用于確定用于所述時間幀75的目標相位測量85。此外,相位校正器用于使用計算的相位測量80及目標相位測量85校正用于時間幀75的音頻信號55的相位45,以獲取處理的音頻信號90。可選地,音頻信號55包括用于時間幀75的多個子帶信號95。關于圖16描述音頻處理器50的另外的實施例。根據實施例,目標相位測量確定器65用于確定第一目標相位測量85a及用于第二子帶信號95b的第二目標相位測量85b。因此,音頻信號相位測量計算器60用于確定用于第一子帶信號95a的第一相位測量80a及用于第二子帶信號95b的第二相位測量80b。相位校正器用于使用音頻信號55的第一相位測量80a及第一目標相位測量85a校正第一子帶信號95a的相位45a,并用于使用音頻信號55的第二相位測量80b及第二目標相位測量85b校正第二子帶信號95b的第二相位45b。此外,音頻處理器50包括音頻信號合成器100,其用于使用處理的第一子帶信號95a及處理的第二子帶信號95b合成處理的音頻信號90。根據另外的實施例,相位測量80為相位對時間的導數。因此,音頻信號相位測量計算器60可針對多個子帶中的每個子帶95計算當前時間幀75b的相位值45和未來時間幀75c的相位值的相位導數。因此,相位校正器70可針對當前時間幀75b的多個子帶中的每個子帶95計算目標相位導數85與相位對時間的導數80之間的偏差,其中使用偏差執行由相位校正器70執行的校正。
實施例示出相位校正器70,其用于校正時間幀75內的音頻信號55的不同子帶的子帶信號95,使得校正的子帶信號95的頻率具有和諧分配至音頻信號55的基本頻率的頻率值。基本頻率是存在于音頻信號55中的最低頻率(或換言之是音頻信號55的第一諧波)。
此外,相位校正器70用于在先前時間幀75a、當前時間幀75b及未來時間幀75c上將用于多個子帶中的每個子帶95的偏差105平滑化,并用于減少子帶95內的偏差105的急劇變化。根據其他實施例,平滑化為加權平均值,其中相位校正器70用于計算在先前時間幀75a、當前時間幀75b及未來時間幀75c上的加權平均值,此加權平均值通過先前時間幀75a、當前時間幀75b及未來時間幀75c中的音頻信號55的幅度加權。
實施例示出先前描述的處理步驟基于向量。因此,相位校正器70用于形成偏差105的向量,其中向量的第一元素代表用于多個子帶中的第一子帶95a的第一偏差105a,且向量的第二元素代表用于來自先前時間幀75a至當前時間幀75b的多個子帶中的第二子帶95b的第二偏差105b。此外,相位校正器70可將偏差105的向量施加于音頻信號55的相位45,其中將向量的第一元素施加于音頻信號55的多個子帶中的第一子帶95a中的音頻信號55的相位45a,并將向量的第二元素施加于音頻信號55的多個子帶中的第二子帶95b中的音頻信號55的相位45b。
從另一觀點可以表明,音頻處理器50中的全部處理是基于向量的,其中每個向量表示時間幀75,其中多個子帶中的每個子帶95包括向量的元素。另一實施例關注目標相位測量確定器,其用于獲取用于當前時間幀75b的基本頻率估計85b,其中目標相位測量確定器65用于使用用于時間幀75的基本頻率估計85計算用于時間幀75的多個子帶中的每個子帶的頻率估計85。此外,目標相位測量確定器65可使用音頻信號55的子帶95的總數及抽樣頻率將用于多個子帶中的每個子帶95的頻率估計85轉換為相位對時間的導數。為了闡明,需要注意的是,目標相位測量確定器65的輸出85可以是頻率估計或相位對時間的導數,此取決于實施例。因此,在一個實施例中,頻率估計已包括正確的格式用于在相位校正器70中的進一步處理,其中在另一實施例中,頻率估計需要轉換為適合格式(其可以是相位對時間的導數)。
相應地,目標相位測量確定器65也可被視為基于向量。因此,目標相位測量確定器65可形成用于多個子帶中的每個子帶95的頻率估計85的向量,其中向量的第一元素代表用于第一子帶95a的頻率估計85a,以及向量的第二元素代表用于第二子帶95b的頻率估計85b。此外,目標相位測量確定器65可使用基本頻率的倍數計算頻率估計85,其中當前子帶95的頻率估計85為最接近于子帶95的中心的基本頻率的倍數,或其中若在當前子帶95內沒有基本頻率的倍數,則當前子帶的頻率估計85為當前子帶95的邊界頻率。
換言之,用于利用音頻處理器50校正諧波的頻率中的誤差的所提出算法如下地作用。首先,計算PDT以及SBR處理的信號Zpdt。Zpdt(k,n)=Zpha(k,n+1)-Zpha(k,n)。然后,計算其與用于水平校正的目標PDT之間的差值:
此時,可假設目標PDT與輸入信號的輸入的PDT相等:
之后,將呈現如何以低比特率獲取目標PDT。
使用漢寧窗(Hann window)W(l)在時間上將此值(即誤差值105)平滑化。例如,適合的長度為QMF域中的41個樣本(對應于55ms的間隔)。通過對應時間-頻率頻塊的幅度對平滑化進行加權:
其中circmean{a,b}表示計算用于以值b加權的角度值a的三角平均值(circular mean)。針對使用直接備份SBR的QMF域中的小提琴信號,在圖17中繪示PDT中的平滑化誤差顏色漸變指示從紅色=π至藍色=-π的相位值。
然后,創建調制器矩陣以用于修改相位譜從而獲取期望PDT:
使用此矩陣處理相位譜
圖18a示出用于校正的SBR的QMF域中的小提琴信號的相位對時間的導數(PDT)中的誤差圖18b示出對應的相位對時間的導數其中通過將圖12a中呈現的結果與圖18b中呈現的結果進行比較,得出圖18a中所示的PDT中的誤差。再次,顏色漸變指示從紅色=π至藍色=-π的相位值。針對校正的相位譜計算PDT(見圖18b)。可看出,校正的相位譜的PDT很好地提醒原始信號的PDT(見圖12),且針對含有顯著能量的時間-頻率頻塊的誤差較小(見圖18a)。可注意到,未校正的SBR數據的不和諧性在很大程度上消失。此外,該算法似乎不引起顯著人為現象。
使用Xpdt(k,n)作為目標PDT,可能傳輸用于每個時間-頻率頻塊的PDT誤差值在第9章中示出計算目標PDT從而降低用于傳輸的帶寬的另一方法。
在另一實施例中,音頻處理器50可以是解碼器110的部分。因此,用于解碼音頻信號55的解碼器110可包括音頻處理器50、核心解碼器115及修補器(patcher)120。核心解碼器115用于對具有關于音頻信號55的減少數量的子帶的時間幀75中的音頻信號25進行核心解碼。修補器使用具有減少數量的子帶的核心解碼的音頻信號25的子帶95的集合修補與減少數量的子帶相鄰的時間幀75中的其他子帶,其中子帶的集合形成第一修補30a,以獲取具有正常數量的子帶的音頻信號55。此外,音頻處理器50用于根據目標函數85校正第一修補30a的子帶內的相位45。已關于圖15及圖16描述音頻處理器50及音頻信號55,其中解釋了圖19中未繪示的附圖標記。根據實施例的音頻處理器執行相位校正。根據實施例,音頻處理器可進一步包括通過帶寬擴展參數應用器(applicator)125將BWE或SBR參數應用于修補而實現的音頻信號的幅度校正。此外,音頻處理器可包括用于組合(即合成)音頻信號的子帶以獲取正常音頻文件的合成器100(例如,合成濾波器組)。
根據另一實施例,修補器120用于使用音頻信號25的子帶95的集合修補相鄰于第一修補的時間幀的其他子帶,其中子帶的集合形成第二修補,且其中音頻處理器50用于校正第二修補的子帶內的相位45。可選地,修補器120用于使用校正的第一修補來修補相鄰于第一修補的時間幀的其他子帶。
換言之,在第一選項中,修補器從音頻信號的傳輸部分建立具有正常數量的子帶的音頻信號,并隨后校正音頻信號的每個修補的相位。第二選項首先校正關于音頻信號的傳輸部分的第一修補的相位,并隨后使用已校正后第一修補建立具有正常數量的子帶的音頻信號。
另一實施例示出解碼器110,其包括用于從數據流135中提取音頻信號55的當前時間幀75的基本頻率114的數據流提取器130,其中數據流進一步包括具有減少數量的子帶的編碼的音頻信號145。可選地,解碼器可包括基本頻率分析器150,其用于分析核心解碼的音頻信號25,從而計算基本頻率140。換言之,用于得出基本頻率140的選項是例如在解碼器中或在編碼器中分析音頻信號,其中在后一種情況下,基本頻率可以更加精確但以較高數據速率為代價,因為值需要從編碼器傳輸至解碼器。
圖20示出用于編碼音頻信號55的編碼器155。編碼器包括核心編碼器160,其用于對音頻信號55進行核心編碼以獲取具有關于音頻信號的減少數量的子帶的核心編碼的音頻信號145,且編碼器包括基本頻率分析器175,其用于分析音頻信號55或音頻信號55的低通濾波版本以用于獲取音頻信號的基本頻率估計。此外,編碼器包括參數提取器165,其用于提取未包括在核心編碼的音頻信號145中的音頻信號55的子帶的參數,且編碼器包括輸出信號形成器170,其用于形成輸出信號135,該輸出信號包括核心編碼的音頻信號145、參數及基本頻率估計。在此實施例中,編碼器155可包括在核心解碼器160前面的低通濾波器以及在參數提取器165前面的高通濾波器185。根據另一實施例,輸出信號形成器170用于將輸出信號135形成為幀序列,其中每幀包括核心編碼的信號145、參數190,且其中僅每第n幀包括基本頻率估計140,其中n≥2。在實施例中,核心編碼器160可為例如AAC(高級音頻編碼)編碼器。
在可選實施例中,智能間隙填充編碼器可用于編碼音頻信號55。因此,核心編碼器編碼全帶寬音頻信號,其中音頻信號的至少一個子帶被省去。因此,參數提取器165提取用于重構從核心編碼器160的編碼過程中省去的子帶的參數。
圖21示出輸出信號135的示意圖。輸出信號為音頻信號,其包括具有關于原始音頻信號55的減少數量的子帶的核心編碼的音頻信號145、表示未包括在核心編碼的音頻信號145中的音頻信號的子帶的參數190,以及音頻信號135或原始音頻信號55的基本頻率估計140。
圖22示出音頻信號135的實施例,其中將音頻信號形成為幀序列195,其中每幀195包括核心編碼的音頻信號145、參數190,且其中僅每第n幀195包括基本頻率估計140,其中n≥2。此可描述用于例如每第二十幀的等間隔的基本頻率估計傳輸,或其中不規則地(例如,按需要或有目的地)傳輸基本頻率估計。
圖23示出用于處理音頻信號的方法2300,具有步驟2305“利用音頻信號相位導數計算器計算用于時間幀的音頻信號的相位測量”、步驟2310“利用目標相位導數確定器確定用于所述時間幀的目標相位測量”以及步驟2315“使用計算的相位測量及目標相位測量利用相位校正器校正用于時間幀的音頻信號的相位,從而獲取處理的音頻信號”。
圖24示出用于解碼音頻信號的方法2400,具有步驟2405“解碼具有關于音頻信號的減少數量的子帶的時間幀中的音頻信號”、步驟2410“使用具有減少數量的子帶的解碼的音頻信號的子帶的集合修補與減少數量的子帶相鄰的時間幀中的其他子帶,其中子帶的集合形成第一修補,以獲取具有正常數量的子帶的音頻信號”以及步驟2415“利用音頻處理根據目標函數校正第一修補的子帶內的相位”。
圖25示出用于編碼音頻信號的方法2500,具有步驟2505“利用核心編碼器對音頻信號進行核心編碼,以獲取具有關于音頻信號的減少數量的子帶的核心編碼的音頻信號”、步驟2510“利用基本頻率分析器分析音頻信號或音頻信號的低通濾波版本,以用于獲取用于音頻信號的基本頻率估計”、步驟2515“利用參數提取器提取未包括在核心編碼的音頻信號中的音頻信號的子帶的參數”以及步驟2520“利用輸出信號形成器形成包括核心編碼的音頻信號、參數及基本頻率估計的輸出信號”。
當計算機程序在電腦上運行時,可以在計算機程序的程序代碼中實施描述的方法2300、2400及2500用于執行方法。
8.2校正時間誤差——垂直相位導數校正
如先前所論述,若諧波在頻率上同步且基本頻率較低,人類可感知諧波的時間位置中的誤差。在第5章中示出,若相位對頻率的導數在QMF域中是恒定的,則諧波同步。因此,在每個頻帶中具有至少一個諧波是有利的。否則,“空”頻帶可具有隨機相位且將干擾此測量。幸運地,人類僅在基本頻率較低時對諧波的時間位置敏感(見第7章)。因此,由于諧波的時間移動,可將相位對頻率的導數用作用于確定感知上的顯著效果的測量。
圖26示出用于處理音頻信號55的音頻處理器50’的示意性框圖,其中音頻處理器50’包括目標相位測量確定器65’、相位誤差計算器200及相位校正器70’。目標相位測量確定器65’確定用于時間幀75中的音頻信號55的目標相位測量85’。相位誤差計算器200使用時間幀75中的音頻信號55的相位及目標相位測量85’計算相位誤差105’。相位校正器70’使用相位誤差105’校正時間幀中的音頻信號55的相位,從而形成處理的音頻信號90’。
圖27示出根據另一實施例的音頻處理器50’的示意性框圖。因此,音頻信號55包括用于時間幀75的多個子帶95。相應地,目標相位測量確定器65’用于確定用于第一子帶信號95a的第一目標相位測量85a’以及用于第二子帶信號95b的第二目標相位測量85b’。相位誤差計算器200形成相位誤差105’的向量,其中向量的第一元素代表第一子帶信號95的相位與第一目標相位測量85a’的第一偏差105a’,且其中向量的第二元素代表第二子帶信號95b的相位與第二目標相位測量85b’的第二偏差105b’。此外,音頻處理器50’包括用于使用校正的第一子帶信號90a’及校正的第二子帶信號90b’合成校正的音頻信號90’的音頻信號合成器100。
對于其他實施例,將多個子帶95分組為基帶30及頻率修補的集合40,基帶30包括音頻信號55的一個子帶95,且頻率修補的集合40包括在比基帶中的至少一個子帶的頻率高的頻率處的基帶30的至少一個子帶95。應當注意的是,音頻信號的修補已關于圖3進行了描述,且因此不在此描述部分中進行詳細描述。應當提及的是,頻率修補40可以是與增益因子相乘并復制至較高頻率的未經處理的基帶信號,其中可應用相位校正。此外,根據優選實施例,可將增益的相乘與相位校正交換,從而在乘以增益因子之前將未經處理的基帶信號的相位復制至較高頻率。實施例進一步示出相位誤差計算器200,其計算代表頻率修補的集合40中的第一修補40a的相位誤差105’的向量的元素的平均值以獲取平均相位誤差105”。此外,示出音頻信號相位導數計算器210,其用于計算用于基帶30的相位對頻率的導數215的平均值。
圖28a在框圖中示出相位校正器70’的更詳細的描述。在圖28a的頂部的相位校正器70’用于校正頻率修補的集合中的第一及后續頻率修補40中的子帶信號95的相位。在圖28a的實施例中,示出屬于修補40a的子帶95c及95d,以及屬于頻率修補40b的子帶95e及95f。使用加權的平均相位誤差對相位進行校正,其中根據頻率修補40的索引對平均相位誤差105進行加權以獲取修改的修補信號40’。
圖28a的底部繪示另一實施例。在相位校正器70’的左上角示出用于從修補40及平均相位誤差105”獲取修改的修補信號40’的已描述的實施例。此外,相位校正器70’通過將由當前子帶索引加權的相位對頻率的導數215的平均值與音頻信號55的基帶30中具有最高子帶索引的子帶信號的相位相加,在初始化步驟中計算具有優化的第一頻率修補的另一修改的修補信號40”。對于此初始化步驟,開關220a位于其左側位置。對于任何進一步的處理步驟,開關位于形成垂直直接連接的其他位置。
在另一實施例中,音頻信號相位導數計算器210用于計算包括比基帶信號30更高的頻率的多個子帶信號的相位對頻率的導數215的平均值,以檢測子帶信號95中的瞬態。應當注意的是,瞬態校正類似于音頻處理器50’的垂直相位校正,其差異在于基帶30中的頻率不反映瞬態的較高頻率。因此,對于瞬態的相位校正需要考慮這些頻率。
在初始化步驟之后,相位校正70’用于通過將由當前子帶95的子帶索引加權的相位對頻率的導數215的平均值與先前頻率修補中具有最高子帶索引的子帶信號的相位相加,基于頻率修補40遞歸地更新另一修改的修補信號40”。優選實施例為先前所描述的實施例的組合,其中相位校正器70’計算修改的修補信號40’和另一修改的修補信號40”的加權平均值以獲取組合修改的修補信號40”’。因此,相位校正器70’通過將由當前子帶95的子帶索引加權的相位對頻率的導數215的平均值與組合修改的修補信號40”’的先前頻率修補中具有最高子帶索引的子帶信號的相位相加,基于頻率修補40遞歸地更新組合修改的修補信號40”’。為了獲取組合修改的修補40a”’、40b”’等,在每次遞歸之后將開關220b移至下一位置,從用于初始化步驟的組合修改的48”’開始,在第一次遞歸之后切換至組合修改的修補40b”’,等等。
此外,相位校正器70’可使用以第一特定加權函數加權的當前頻率修補中的修補信號40’及以第二特定加權函數加權的當前頻率修補中的修改的修補信號40”的三角平均值,計算修補信號40’及修改的修補信號40”的加權平均值。
為了提供音頻處理器50與音頻處理器50’之間的互用性,相位校正器70’可形成相位偏差的向量,其中使用組合修改的修補信號40”’及音頻信號55計算相位偏差。
圖28b從另一觀點示出相位校正的步驟。對于第一時間幀75a,通過在音頻信號55的修補上應用第一相位校正模式得到修補信號40’。在第二校正模式的初始化步驟中使用修補信號40’以獲取修改的修補信號40”。修補信號40’及修改的修補信號40”的組合導致組合修改的修補信號40”’。
因此將第二校正模式應用于組合修改的修補信號40”’以獲取用于第二時間幀75b的修改的修補信號40”。另外,將第一校正模式應用于第二時間幀75b中的音頻信號55的修補以獲取修補信號40’。再次,修補信號40’及修改的修補信號40”的組合導致組合修改的修補信號40”’。相應地,將針對第二時間幀描述的處理方案應用于音頻信號55的第三時間幀75c及任何另一時間幀。
圖29示出目標相位測量確定器65’的詳細框圖。根據實施例,目標相位測量確定器65’包括數據流提取器130’,其用于從數據流135中提取音頻信號55的當前時間幀中的峰位230及峰位的基本頻率235。可選地,目標相位測量確定器65’包括音頻信號分析器225,其用于分析當前時間幀中的音頻信號55從而計算當前時間幀中的峰位230及峰位的基本頻率235。另外,目標相位測量確定器包括目標譜生成器240,其用于使用峰位230及峰位的基本頻率235估計當前時間幀中的其他峰位。
圖30示出圖29中所描述的目標譜生成器240的詳細框圖。目標譜生成器240包括用于生成隨時間的脈沖序列265的峰值生成器245。信號形成器250根據峰位的基本頻率235調整脈沖序列的頻率。此外,脈沖定位器255根據峰位230調整脈沖序列265的相位。換言之,信號形成器250改變脈沖序列265的隨機頻率的形式,使得脈沖序列的頻率等于音頻信號55的峰位的基本頻率。此外,脈沖定位器255移位脈沖序列的相位,使得脈沖序列的峰值中的一個等于峰位230。之后,譜分析器260生成調整的脈沖序列的相位譜,其中時域信號的相位譜為目標相位測量85’。
圖31示出用于解碼音頻信號55的解碼器110’的示意性框圖。解碼器110包括用于對基帶的時間幀中的音頻信號25進行核心解碼的核心解碼115,及用于使用解碼的基帶的子帶95的集合修補相鄰于基帶的時間幀中的其他子帶的修補器120,其中子帶的集合形成修補,以獲取包括比基帶中的頻率更高的頻率的音頻信號32。此外,解碼器110’包括音頻處理器50’,其用于根據目標相位測量校正修補的子帶的相位。
根據另一實施例,修補器120用于使用音頻信號25的子帶95的集合修補相鄰于修補的時間幀的其他子帶,其中子帶的集合形成另一修補,且其中音頻處理器50’用于校正另一修補的子帶內的相位。可選地,修補器120用于使用校正的修補來修補相鄰于修補的時間幀的其他子帶。
另一實施例涉及用于解碼包括瞬態的音頻信號的解碼器,其中音頻處理器50’用于校正瞬態的相位。換言之,在第8.4章中描述瞬態處理。因此,解碼器110包括另一音頻處理器50’,其用于接收頻率的另一相位導數并使用接收的頻率或相位導數校正音頻信號32中的瞬態。此外,應當注意的是,圖31的解碼器110’與圖19的解碼器110類似,使得在不涉及音頻處理器50及50’中的差異的情況下可互換關于主要元件的描述。
圖32示出用于編碼音頻信號55的編碼器155’。編碼器155’包括核心編碼器160、基本頻率分析器175’、參數提取器165及輸出信號形成器170。核心編碼器160用于對音頻信號55進行核心編碼,以獲取具有關于音頻信號55的減少數量的子帶的核心編碼的音頻信號145。基本頻率分析器175’分析音頻信號55中的峰位230或音頻信號的低通濾波版本,以用于獲取音頻信號中的峰位的基本頻率估計235。此外,參數提取器165提取未包括在核心編碼的音頻信號145中的音頻信號55的子帶的參數190,且輸出信號形成器170形成輸出信號135,輸出信號包括核心編碼的音頻信號145、參數190、峰位的基本頻率235及,峰位230中的一個。根據實施例,輸出信號形成器170用于將輸出信號135形成為幀序列,其中每幀包括核心編碼的音頻信號145、參數190,且其中僅每第n幀包括峰位的基本頻率估計235及峰位230,其中n≥2。
圖33示出音頻信號135的實施例,該音頻信號包括具有關于原始音頻信號55的減少數量的子帶的核心編碼的音頻信號145、表示未包括在核心編碼的音頻信號中的音頻信號的子帶的參數190、音頻信號55的峰位的基本頻率估計235及峰位估計230。可選地,音頻信號135形成為幀序列,其中每幀包括核心編碼的音頻信號145、參數190,且其中僅每第n幀包括峰位的基本頻率估計235及峰位230,其中n≥2。已關于圖22描述了此想法。
圖34示出用于利用音頻處理器處理音頻信號的方法3400。方法3400包括步驟3405“利用目標相位測量,確定用于時間幀中的音頻信號的目標相位測量”、步驟3410“使用時間幀中的音頻信號的相位及目標相位測量利用相位誤差計算器計算相位誤差”及步驟3415“使用相位誤差利用相位校正,校正時間幀中的音頻信號的相位”。
圖35示出用于利用解碼器解碼音頻信號的方法3500。方法3500包括步驟3505“利用核心解碼器對基帶的時間幀中的音頻信號進行解碼”、步驟3510“利用修補器使用解碼的基帶的子帶的集合修補與基帶相鄰的時間幀中的其他子帶,其中子帶的集合形成修補,以獲取包括比基帶中的頻率更高的頻率的音頻信號”及步驟3515“根據目標相位測量利用音頻處理器校正第一修補的子帶內的相位”。
圖36示出用于利用編碼器編碼音頻信號的方法3600。方法3600包括步驟3605“利用核心編碼器對音頻信號進行核心編碼,從而獲取具有關于音頻信號的減少數量的子帶的核心編碼的音頻信號”、步驟3610“利用基本頻率分析器分析音頻信號或音頻信號的低通濾波版本,從而用于獲取音頻信號中的峰位的基本頻率估計”、步驟3615“利用參數提取器提取未包括在核心編碼的音頻信號中的音頻信號的子帶的參數”及步驟3620“利用輸出信號形成器形成包括核心編碼的音頻信號、參數、峰位的基本頻率及峰位的輸出信號”。
換言之,用于校正諧波的時間位置中的誤差的所提出算法如下地作用。首先,計算目標信號與SBR處理的信號的相位譜(和Zpha)之間的差異:
此在圖37中繪示。圖37示出使用直接備份SBR的QMF域中的長號信號的相位譜中的誤差Dpha(k,n)。此時,可假設目標相位譜等于輸入信號的相位譜:
之后,將呈現如何以低比特率獲取目標相位譜。
使用兩種方法執行垂直相位導數校正,并獲取作為此兩種方法的混合的最終校正的相位譜。
首先,可看出誤差在頻率修補內部是相對恒定的,且誤差在進入新頻率修補時跳轉為新值。這是有道理的,因為相位在原始信號中的所有頻率處以隨頻率的恒定值變化。在交越處形成誤差,且誤差在修補內部保持恒定。因此,單個值足以校正用于全部頻率修補的相位誤差。此外,可使用與頻率修補的索引數相乘之后的此誤差值校正較高頻率修補的相位誤差。
因此,針對第一頻率修補計算相位誤差的三角平均值:
可使用三角平均值校正相位譜:
若目標PDF(例如相位對頻率的導數Xpdf(k,n))在所有頻率處完全恒定,此未經處理的校正產生精確結果。然而,如在圖12中可看出,通常在值中存在隨頻率的輕微波動。因此,可通過在交越處使用增強處理而獲取較佳結果,從而避免所產生的PDF中的任何不連續性。換言之,此校正平均地產生用于PDF的校正值,但在頻率修補的交越頻率處可存在輕微不連續性。為避免不連續性,應用校正方法。獲取作為兩個校正方法的混合的最終校正的相位譜
另一校正方法從計算基帶中的PDF的平均值開始:
可通過假設相位以此平均值變化,使用此測量校正相位譜,即,
其中為兩個校正方法的組合的修補信號。
此校正在交越處提供良好品質,但可引起PDF中朝向較高頻率的漂移。為避免此情況,通過計算兩個校正方法的加權的三角平均值,組合兩個校正方法:
其中C表示校正方法或以及Wfc(k,c)為加權函數:
Wfc(k,1)=[0.2,0.45,0.7,1,1,1]
Wfc(k,2)=[0.8,0.55,0.3,0,0,0] (26a)
結果相位譜既不因連續性也不因漂移而受損。在圖38中繪示校正的相位譜與原始譜相比的誤差及PDF。圖38a示出使用相位校正的SBR信號的QMF域中的長號信號的相位譜中的誤差,其中圖38b示出對應的相位對頻率的導數可看出,誤差明顯小于未校正的情況,且PDF不因主不連續性而受損。在某些時間幀處存在顯著誤差,但這些幀具有低能量(見圖4),因此它們具有不顯著的感知效果。具有顯著能量的時間幀可得到相對好的校正。可注意到的是,未校正的SBR的人為現象可被顯著地減輕。
可通過連接校正的頻率修補獲取校正的相位譜為了與水平校正模式兼容,也可使用調制器矩陣(見公式18)呈現垂直相位校正:
8.3不同相位校正方法之間的切換
第8.1章及第8.2章示出可通過將PDT校正應用于小提琴并將PDF校正應用于長號來校正SBR引起的相位誤差。然而,并未考慮如何知道應將校正中的哪一個應用于未知信號,或是否應當應用其中的任何校正。本章提出用于自動選擇校正方向的方法。基于輸入信號的相位導數的變化決策校正方向(水平/垂直)。
因此,在圖39中,示出用于確定用于音頻信號55的相位校正數據的計算器。變化確定器275在第一變化模式及第二變化模式中確定音頻信號55的相位45的變化。變化比較器280比較使用第一變化模式確定的第一變化290a和使用第二變化模式確定的第二變化290b,且校正數據計算器基于比較器的結果根據第一變化模式或第二變化模式計算相位校正數據295。
此外,變化確定器275可用于在第一變化模式中確定作為相位的變化290a的用于音頻信號55的多個時間幀的相位對時間的導數(PDT)的標準差測量,且用于在第二變化模式中確定作為相位的變化290b的用于音頻信號55的多個子帶的相位對頻率的導數(PDF)的標準差測量。因此,變化比較器280針對音頻信號的時間幀比較作為第一變化290a的相位對時間的導數的測量及作為第二變化290b的相位對頻率的導數的測量。
實施例示出變化確定器275,其用于確定作為標準差測量的音頻信號55的當前幀及多個先前幀的相位對時間的導數的圓形標準差,且用于確定作為標準差測量的用于當前時間幀的音頻信號55的當前幀及多個未來幀的相位對時間的導數的圓形標準差。此外,變化確定器275在確定第一變化290a時計算兩個圓形標準差的最小值。在另一實施例中,變化確定器275在第一變化模式中計算作為用于時間幀75中的多個子帶95的標準差測量的組合的變化290a,以形成頻率的平均標準差測量。變化比較器280用于通過使用當前時間幀75中的子帶信號95的幅值計算作為能量測量的多個子帶的標準差測量的能量加權平均值執行標準差測量的組合。
在優選實施例中,變化確定器275在確定第一變化290a時,在當前時間幀、多個先前時間幀及多個未來時間幀上將平均標準差測量平滑化。根據使用對應時間幀及開窗函數計算的能量對平滑化加權。此外,變化確定器275用于在確定第二變化290b時,在當前時間幀、多個先前時間幀及多個未來時間幀75上將標準差測量平滑化,其中根據使用對應時間幀75及開窗函數計算的能量對平滑化加權。因此,變化比較器280比較作為使用第一變化模式確定的第一變化290a的平滑化平均標準差測量,和作為使用第二變化模式確定的第二變化290b的平滑化標準差測量。
在圖40中繪示優選實施例。根據此實施例,變化確定器275包括用于計算第一變化及第二變化的兩種處理路徑。第一處理路徑包括PDT計算器300a,其用于從音頻信號55或音頻信號的相位計算相位對時間的導數305a的標準差測量。圓形標準差計算器310a從相位對時間的導數305a的標準差測量確定第一圓形標準差315a及第二圓形標準差315b。通過比較器320比較第一圓形標準差315a及第二圓形標準差315b。比較器320計算兩個圓形標準差測量315a及315b的最小值325。組合器組合在頻率上的最小值325以形成平均標準差測量335a。平滑器340a將平均標準差測量335a平滑化以形成平滑化平均標準差測量345a。
第二處理路徑包括PDF計算器300b,其用于從音頻信號55或音頻信號的相位計算相位對頻率的導數305b。圓形標準差計算器310b形成相位對頻率的導數305的標準差測量335b。通過平滑器340b將標準差測量305平滑化以形成平滑化標準差測量345b。平滑化平均標準差測量345a及平滑化標準差測量345b分別為第一變化及第二變化。變化比較器280比較第一變化與第二變化,且校正數據計算器285基于第一變化與第二變化的比較計算相位校正數據295。
另一實施例示出處理三種不同相位校正模式的計算器270。圖41中示出圖形化框圖。圖41示出變化確定器275在第三變化模式中進一步確定音頻信號55的相位的第三變化290c,其中第三變化模式為瞬態檢測模式。變化比較器280比較使用第一變化模式確定的第一變化290a、使用第二變化模式確定的第二變化290b及使用第三變化確定的第三變化290c。因此,校正數據計算器285基于比較的結果根據第一校正模式、第二校正模式或第三校正模式計算相位校正數據295。為了在第三變化模式中計算第三變化290c,變化比較器280可用于計算當前時間幀的即時能量估計及多個時間幀75的時間平均的能量估計。因此,變化比較器280用于計算即時能量估計與時間平均的能量估計的比值,并用于比較該比值與定義的閾值以檢測時間幀75中的瞬態。
變化比較器280需基于三個變化確定適合的校正模式。基于此決策,若檢測到瞬態,校正數據計算器285根據第三變化模式計算相位校正數據295。此外,若未檢測到瞬態且若在第一變化模式中確定的第一變化290a小于或等于在第二變化模式中確定的第二變化290b,則校正數據計算器85根據第一變化模式計算相位校正數據295。因此,若未檢測到瞬態且若在第二變化模式中確定的第二變化290b小于在第一變化模式中確定的第一變化290a,則根據第二變化模式計算相位校正數據295。
校正數據計算器還用于針對當前時間幀、一個或多個先前時間幀及一個或多個未來時間幀計算用于第三變化290c的相位校正數據295。因此,校正數據計算器285用于針對當前時間幀、一個或多個先前時間幀及一個或多個未來時間幀計算用于第二變化模式290b的相位校正數據295。此外,校正數據計算器285用于計算用于水平相位校正及第一變化模式的校正數據295,計算用于第二變化模式中的垂直相位校正的校正數據295,并計算用于第三變化模式中的瞬態校正的校正數據295。
圖42示出用于從音頻信號確定相位校正數據的方法4200。方法4200包括步驟4205“在第一變化模式及第二變化模式中利用變化確定器確定音頻信號的相位的變化”、步驟4210“利用變化比較器比較使用第一變化模式和第二變化模式確定的變化”及步驟4215“基于比較的結果根據第一變化模式或第二變化模式利用校正數據計算器計算相位校正”。
換言之,小提琴的PDT在時間上為平滑的,而長號的PDF在頻率上為平滑的。因此,作為變化的測量的這些測量的標準差(STD)可用于選擇適當的校正方法。相位對時間的導數的STD可計算為:
Xstdt1(k,n)=circstd{Xpdt(k,n+l)},-23≤l≤0
Xstdt2(k,n)=circstd{Xpdt(k,n+l},0≤l≤23
Xstdt(k,n)=min{Xstdt1(k,n),Xstdt2(k,n)} (27)
且相位對頻率的導數的STD可計算為:
Xstdf(n)=circstd(Xpdf(k,n)},2≤k≤13 (28)
其中circstd{}表示計算圓形STD(可潛在地以能量對角度值加權,從而避免由于有噪低能量頻格造成的高STD,或STD計算可限制于具有充足能量的頻格)。圖43a、圖43b及圖43c、圖43d分別示出用于小提琴及長號的STD。圖43a及圖43c示出QMF域中的相位對時間的導數的標準差Xstdt(k,n),其中圖43b及圖43d示出無相位校正的情況下的對應的頻率上標準差Xstdf(n)。顏色漸變指示從紅色=1至藍色=0的值。可看出,PDT的STD對于小提琴較低,而PDF的STD對于長號較低(尤其對于具有高能量的時間-頻率頻塊)。
基于哪個STD較低,選擇用于每個時間幀所使用的校正方法。對此,需在頻率上組合Xstdt(k,n)值。通過計算用于預定頻率范圍的能量加權平均值執行合并:
在時間上將偏差估計平滑化以獲得平滑的切換,并因此避免潛在人為現象。使用漢寧窗執行平滑化,且以時間幀的能量對此平滑化進行加權:
其中W(l)為窗函數,且為Xmag(k,n)在頻率上的和。對應公式用于平滑化Xstdf(n)。
通過比較與確定相位校正方法。默認方法為PDT(水平)校正,且若則對于區間[n-5,n+5]應用PDF(垂直)校正。若兩個偏差均較大(例如,大于預定閾值),則不應用校正方法,且可節省比特率。
8.4瞬態處理——用于瞬態的相位導數校正
圖44中呈現具有在中間增添拍掌的小提琴信號。圖44a中示出QMF域中的小提琴+鼓掌信號的幅度Xmag(k,n),且圖44b中示出對應相位譜Xpha(k,n)。關于圖44a,顏色漸變指示從紅色=0dB至藍色=-80dB的幅值。因此,對于圖44b,相位漸變指示從紅色=π至藍色=-π的相位值。圖45中呈現相位對時間的導數及相位對頻率的導數。圖45a中示出QMF域中的小提琴+鼓掌信號的相位對時間的導數Xpdt(k,n),且圖45b中示出對應相位對頻率的導數Xpdf(k,n)。顏色漸變指示從紅色=π至藍色=-π的相位值。可看出,PDT對于鼓掌為有噪的,但PDF稍微平滑,至少在高頻率處是平滑的。因此,對于鼓掌應應用PDF校正以便維持鼓掌的銳度。然而,由于小提琴聲音在低頻率處干擾導數,第8.2章中所提出的校正方法在此信號的情況下可能不正常工作。因此,基帶的相位譜不反映高頻率,且因此使用單個值的頻率修補的相位校正可能不工作。此外,低頻率處的噪聲PDF值可導致基于PDF值的變化檢測瞬態(見第8.3章)難以實現。
該問題的解決方案是明確的。首先,使用簡單基于能量的方法檢測瞬態。將中/高頻率的即時能量與平滑化能量估計相比較。中/高頻率的即時能量計算為
使用一階IIR濾波器執行平滑化:
若則已檢測到瞬態。可微調閾值θ以檢測期望數量的瞬態。例如,可使用θ=2。檢測到的幀并不直接選擇為瞬態幀。相反,從檢測到的幀周圍搜索局部能量最大值。在當前實施中,選擇的區間為[n-2,n+7]。將此區間內具有最大能量的時間幀選擇為瞬態。
理論上,垂直校正模式也適用于瞬態。然而,在瞬態的情況下,基帶的相位譜通常不反映高頻率。此可在處理的信號中導致前回聲和后回聲。因此,對于瞬態提出稍加修改的處理。
計算在高頻率處的瞬態的平均PDF:
使用如在公式24中的此恒定相位變化合成用于瞬態幀的相位譜,但由替代。此同樣的校正應用于區間[n-2,n+2]內的時間幀(由于QMF的性質,將π添加至幀n-1及n+1的PDF,見第6章)。此校正已將瞬態產生到適合位置,但瞬態的形狀未必是期望的,并且由于QMF幀的大量時間重疊而呈現顯著旁瓣(即,額外瞬態)。因此,需校正絕對相位角。通過計算合成相位譜與原始相位譜之間的平均誤差校正絕對角。針對瞬態的每個時間幀分別執行校正。
圖46中呈現瞬態校正的結果。示出使用相位校正的SBR的QMF域中的小提琴+鼓掌信號的相位對時間的導數Xpdf(k,n)。圖47b示出對應的相位對頻率的導數Xpdf(k,n)。再次,顏色漸變指示從紅色=π至藍色=-π的相位值。雖然與直接備份相比的差異不大,但可感知相位校正的鼓掌具有與原始信號相同的銳度。因此,當僅使能直接備份時未必在所有情況下需要瞬態校正。相反,若使能PDT校正,瞬態處理是重要的,因為否則PDT校正將嚴重地模糊瞬態。
9校正數據的壓縮
第8章示出可校正相位誤差,但完全不考慮用于校正的適當比特率。本章提出如何以低比特率表示校正數據的方法。
9.1PDT校正數據的壓縮——產生用于水平校正的目標譜
存在可被傳輸以使能PDT校正的多個可能參數。然而,由于在時間上被平滑化,其為用于低比特率傳輸的潛在候選者。
首先,論述用于參數的適當更新速率。僅針對每N個幀更新值并將其線性內插于中間。用于良好品質的更新間隔約為40ms。對于某些信號,稍小為有利的,且對于其他信號,稍多為有利的。正式聽音測試對于評價優化的更新速率將是有用的。然而,相對長的更新間隔似乎是可接受的。
還研究了用于的適當角度準確度。6個比特(64個可能的角度值)對于感知上的良好品質是足夠的。此外,測試僅傳輸值的變化。通常,值似乎僅輕微變化,因此可應用不均勻量化以對于小變化具有更高精確度。使用此方法,發現4個比特(16個可能的角度值)提供良好品質。
最后要考慮的是適當譜準確度。如在圖17中可看出,許多頻帶似乎共享大致上相同值。因此,一個值可能用于表示多個頻帶。另外,在高頻率處,在一個頻帶內存在多個諧波,因此可能需要較小準確度。然而,發現另一潛在優選方法,因此未徹底地研究此選項。在下文中論述提出的更有效的方法。
9.1.1使用頻率估計以壓縮PDT校正數據
如第5章中所論述,相位對時間的導數基本上表示所產生的正弦曲線的頻率。可使用以下公式將所應用的64頻帶復雜QMF的PDT變換為頻率
產成的頻率在區間finter(k)=[fc(k)-fBW,fc(k)+fBW]內,其中fc(k)為頻帶k的中心頻率,且fBW為375Hz。圖47中以用于小提琴信號的QMF帶的頻率Xfreq(k,n)的時間-頻率表示示出結果。可看出,頻率似乎遵循音調的基本頻率的倍數,且諧波因此在頻率上通過基本頻率間隔。另外,顫音似乎引起頻率調制。
同樣的圖表可應用于直接備份Zfreq(k,n)及校正的SBR(分別參見圖48a及圖48b)。圖48a示出與圖47中所示的原始信號Xfreq(k,n)相比的直接備份SBR信號Zfreq(k,n)的QMF帶的頻率的時間-頻率表示。圖48b示出用于校正的SBR信號的對應圖表。在圖48a及圖48b的圖表中,以藍色繪制原始信號,其中以紅色繪制直接備份SBR及校正的SBR信號。圖中可見直接備份SBR的不和諧性,尤其在樣本的開始及最后。另外,可看出,頻率調制深度明顯小于原始信號的頻率調制深度。相反,在校正的SBR的情況下,諧波的頻率似乎遵循原始信號的頻率。另外,調制深度似乎是正確的。因此,此圖表似乎證實提出的校正方法的有效性。因此,隨后關注校正數據的實際壓縮。
由于Xfreq(k,n)的頻率以相同量間隔,所以如果估計并傳輸頻率之間的間隔,則可近似所有頻帶的頻率。在諧波信號的情況下,間隔應等于音調的基本頻率。因此,僅需要傳輸單個值用于表示所有頻帶。在更不規則信號的情況下,需要更多值以描述諧波行為。例如,諧波的間隔在鋼琴音調的情況下稍微增大[14]。為簡單起見,在下文中假設諧波以相同量間隔。但是,此不限制所描述的音頻處理的一般性。
因此,估計音調的基本頻率以估計諧波的頻率。基本頻率的估計是廣泛研究的主題(例如,見[14])。因此,實施簡單估計方法生成用于進一步處理步驟的數據。基本上,方法計算諧波的間隔,且根據一些試探法(多少能量、值在頻率及時間上多穩定等等)組合結果。在任何情況下,結果為用于每個時間幀的基本頻率估計換言之,相位對時間的導數涉及對應QMF頻格的頻率。另外,與PDT中的誤差有關的人為現象在諧波信號的情況下大多是可感知的。因此,提出可使用基本頻率f0的估計來估計目標PDT(見公式16a)。基本頻率的估計為廣泛研究的主題,且存在可用于獲取基本頻率的可靠估計的多個穩健方法。
在此,假設基本頻率其在執行BWE以及在BWE內使用本發明的相位校正之前對解碼器是已知的。因此,有利的是,編碼階段對估計的基本頻率進行傳輸。另外,對于改進的編碼效率,可僅針對例如每第二十時間幀(對應于-27ms的間隔)更新值,并將其內插于中間。
可選地,可在解碼階段估計基本頻率,且不需要傳輸信息。然而,如果利用在編碼階段中的原始信號執行估計,則可預期較佳的估計。
解碼器處理從獲取用于每個時間幀的基本頻率估計開始。
可通過將該基本頻率估計與索引向量相乘,獲取諧波的頻率:
圖49中繪示結果。圖49示出與原始信號的QMF帶的頻率Xfreq(k,n)相比的諧波的估計頻率Xharm(κ,n)的時間頻率表示。再次,藍色指示原始信號以及紅色指示估計信號。估計諧波的頻率極佳地匹配原始信號。這些頻率可被視為“允許”頻率。若算法產生這些頻率,則不和諧性有關的人為現象應被避免。
算法的傳輸參數為基本頻率為了改進的編碼效率,僅針對每第二十時間幀(即,每27ms)更新值。此值似乎基于非正式聽音提供良好感知品質。然而,正式聽音測試對于評價用于更新速率的更優化的值是有用的。
算法的下一步驟為找到用于每個頻帶的適合值。通過選擇最接近于每個頻帶的中心頻率fc(k)的Xharm(κ,n)的值來反映該頻帶以執行此步驟。如果最接近的值在頻帶(finter(k))的可能值之外,則使用頻帶的邊界值。結果矩陣包含用于每個時間-頻率頻塊的頻率。
校正數據壓縮算法的最終步驟為將頻率數據轉換回PDT數據:
其中mod()指示模數運算子。實際校正算法如第8.1章中所呈現地工作。公式16a中的由替換以作為目標PDT,且如第8.1章中使用公式17-19。圖50中示出使用壓縮校正數據的校正算法的結果。圖50示出使用壓縮校正數據的校正的SBR的QMF域中的小提琴信號的PDT中的誤差圖50b示出對應的相位對時間的導數顏色漸變指示從紅色=π至藍色=-π的值。PDT值遵循原始信號的PDT值,其具有與無數據壓縮的校正方法的相似準確度(見圖18)。因此,壓縮算法是有效的。使用和不使用校正數據的壓縮,感知品質是相似的。
實施例對于低頻率使用較高準確度且對于高頻率使用較低準確度,對于每個值使用共計12個比特。結果比特率約為0.5kbps(無任何壓縮,如熵編碼)。此準確度產生如未量化的相同感知品質。然而,顯著較低的比特率或許可能用在產生足夠良好的感知品質的許多情況中。
用于低比特率方案的一種選項是使用傳輸信號在解碼階段中估計基本頻率。在此情況下無需傳輸值。另一選項為使用傳輸信號估計基本頻率,將其與使用寬帶信號獲取的估計相比較,且僅傳輸差異。可假設可使用極低比特率表示此差異。
9.2PDF校正數據的壓縮
如第8.2章中所論述,用于PDF校正的適當數據為第一頻率修補的平均相位誤差結合對此值的認識對所有頻率修補執行校正,因此對于每個時間幀需要僅一個值的傳輸。然而,對于每個時間幀傳輸甚至單個值也可導致極高的比特率。
檢驗針對長號的圖12,可看出,PDF在頻率上具有相對恒定的值,且對于一些時間幀存在相同值。只要同樣的瞬態在QMF分析視窗的能量中占優勢,值在時間上是恒定的。當新瞬態開始占優勢時,存在新值。從一個瞬態至另一瞬態,這些PDF值之間的角度改變似乎是相同的。這是有道理的,因為PDF控制瞬態的時間位置,且若信號具有恒定基本頻率,則瞬態之間的間隔應為恒定的。
因此,PDF(或瞬態的位置)可在時間上僅稀疏地傳輸,且可使用對基本頻率的認識估計在這些時刻中間的PDF行為。可使用此信息執行PDF校正。此思想實際上與PDT校正是對偶的,其中假設諧波的頻率為等間隔的。在此,使用相同思想,但相反地,假設瞬態的時間位置為等間隔的。下面提出一種方法,其基于檢測波形中的峰值位置,并用此信息,針對相位校正創建參考譜。
9.2.1使用峰值檢測用于壓縮PDF校正數據——創建用于垂直校正的目標譜
需估計峰值位置以用于執行成功的PDF校正。一種解決方案為使用PDF值計算峰值位置(與公式34中類似),并使用估計的基本頻率,估計在中間的峰值位置。然而,此方法可能需要相對穩定的基本頻率估計。實施例示出簡單的、快速實施的可選方法,其示出所提出的壓縮方法是可能的。
圖51中示出長號信號的時域表示。圖51a在時域表示中示出長號信號的波形。圖51b示出對應的僅含有估計峰值的時域信號,其中已使用傳輸的元數據獲取峰值位置。圖51b中的信號為例如關于圖30所描述的脈沖序列265。算法以分析波形中的峰值位置為開始。通過搜索局部最大值執行此算法。對于每27ms(即,對于每20個QMF幀),傳輸最接近于幀的中心點的峰值位置。在傳輸的峰位中間,假設峰值在時間上被均勻地間隔。因此,通過已知基本頻率,可估計峰值位置。在此實施例中,傳輸已檢測的峰值的數量(應注意,此需要所有峰值的成功檢測;基于基本頻率的估計可能導致更穩健的結果)。結果比特率約為0.5kbps(無任何壓縮,如熵編碼),其包括使用9個比特傳輸用于每27ms的峰值位置并使用4個比特傳輸在中間的瞬態的數量。發現此準確度產生如未量化的相同感知品質。然而,顯著較低的比特率可以用在產生足夠良好的感知品質的許多情況中。
使用傳輸的元數據,創建時域信號,其由估計峰值的位置中的脈沖組成(見圖51b)。針對此信號執行QMF分析,并計算相位譜另外如第8.2章中所提出地執行實際PDF校正,但公式20a中的由替代。
具有垂直相位相干性的信號的波形通常為有峰值的,且可令人聯想到脈沖序列。因此,提出可通過將其模型化為脈沖序列的相位譜以估計用于垂直校正的目標相位譜,該脈沖序列在對應位置及對應基本頻率處具有峰值。
針對例如每第二十時間幀(對應于-27ms的間隔)傳輸與時間幀的中心最接近的位置。以相等速率傳輸的估計基本頻率用于將峰位內插于傳輸位置之間。
可選地,可在解碼階段中估計基本頻率及峰位,且無需傳輸信息。然而,若在編碼階段中利用原始信號執行估計,則可預期較佳的估計。
解碼器處理以獲取用于每個時間幀的基本頻率估計為開始,并估計波形中的峰位。峰位用于產生由在這些位置處的脈沖組成的時域信號。QMF分析用于產生對應相位譜可在公式20a中使用此估計相位譜作為目標相位譜:
所提出的方法使用編碼階段以僅以更新速率(例如,27ms)傳輸估計峰位及基本頻率。另外,應注意的是,垂直相位導數中的誤差僅當基本頻率相對較低時才可感知。因此,可以以相對較低的比特率傳輸基本頻率。
圖52中示出具有壓縮校正數據的校正算法的結果。圖52a示出具有校正的SBR及壓縮校正數據的QMF域中的長號信號的相位譜中的誤差。相應地,圖52b示出對應的相位對頻率的導數顏色漸變指示從紅色=π至藍色=-π的值。PDF值遵循原始信號的PDF值,其具有與無數據壓縮情況下的校正方法相似的準確度(見圖13)。因此,壓縮算法是有效的。使用以及不使用校正數據的壓縮,感知品質是相似的。
9.3瞬態處理數據的壓縮
由于瞬態可假設為相對稀疏的,可假設可直接傳輸此數據。實施例示出每瞬態傳輸六個值:用于平均PDF的一個值,及用于絕對相位角中的誤差的五個值(用于區間[n-2,n+2]內的每個時間幀的一個值)。可選方案為傳輸瞬態的位置(即,一個值),并如在垂直校正的情況下估計目標相位譜
如果需要針對瞬態壓縮比特率,則可使用與用于PDF校正(見第9.2章)的方法類似的方法。簡單地,可傳輸瞬態的位置(即,單個值)。如在第9.2章中,可使用此位置值獲取目標相位譜及目標PDF。
可選地,可在解碼階段中估計瞬態位置,且無需傳輸信息。然而,如果在編碼階段中利用原始信號執行估計,則可預期較佳的估計。
可從其他實施例單獨地或可以實施例的組合考慮所有在先描述的實施例。因此,圖53至圖57呈現組合一些之前描述的實施例的編碼器及解碼器。
圖53示出用于解碼音頻信號的解碼器110”。解碼器110”包括第一目標譜生成器65a、第一相位校正器70a及音頻子帶信號計算器350。第一目標譜生成器65a(也被稱為目標相位測量確定器)使用第一校正數據295a生成用于音頻信號32的子帶信號的第一時間幀的目標譜85a”。第一相位校正器70a以相位校正算法校正所確定的音頻信號32的第一時間幀中的子帶信號的相位45,其中通過減小音頻信號32的第一時間幀中的子帶信號的測量與目標譜85”之間的差異執行校正。音頻子帶信號計算器350使用用于時間幀的校正的相位91a計算用于第一時間幀的音頻子帶信號355。可選地,音頻子帶信號計算器350使用第二時間幀中的子帶信號85a”的測量或使用根據不同于相位校正算法的另一相位校正算法的校正的相位計算,計算用于與第一時間幀不同的第二時間幀的音頻子帶信號355。圖53進一步示出分析器360,其選擇性地關于幅度47及相位45分析音頻信號32。另一相位校正算法可在第二相位校正器70b或第三相位校正器70c中執行。關于圖54示出這些其他的相位校正器。音頻子帶信號計算器250使用用于第一時間幀的校正的相位91及第一時間幀的音頻子帶信號的幅值47計算用于第一時間幀的音頻子帶信號,其中幅值47為音頻信號32在第一時間幀中的幅度或音頻信號35在第一時間幀中的處理的幅度。
圖54示出解碼器110”的另一實施例。因此,解碼器110”包括第二目標譜生成器65b,其中第二目標譜生成器65b使用第二校正數據295b生成用于音頻信號32的子帶的第二時間幀的目標譜85b”。檢測器110”還包括第二相位校正器70b,其用于以第二相位校正算法校正所確定的音頻信號32的時間幀中的子帶的相位45,其中通過減小音頻信號的子帶的時間幀的測量與目標譜85b”之間的差異執行校正。
相應地,解碼器110”包括第三目標譜生成器65c,其中第三目標譜生成器65c使用第三校正數據295c生成用于音頻信號32的子帶的第三時間幀的目標譜。此外,解碼器110”包括第三相位校正器70c,其用于以第三相位校正算法校正所確定的音頻信號32的子帶信號及時間幀的相位45,其中通過減少音頻信號的子帶的時間幀的測量與目標譜85c之間的差異執行校正。音頻子帶信號計算器350可使用第三相位校正器的相位校正計算用于與第一時間幀及第二時間幀不同的第三時間幀的音頻子帶信號。
根據實施例,第一相位校正器70a用于存儲音頻信號的先前時間幀的相位校正的子帶信號91a,或用于從第三相位校正器70c的第二相位校正器70b接收音頻信號的先前時間幀的相位校正的子帶信號375。此外,第一相位校正器70a基于先前時間幀的存儲或接收的相位校正的子帶信號91a、375校正音頻子帶信號的當前時間幀中的音頻信號32的相位45。
另一實施例示出執行水平相位校正的第一相位校正器70a、執行垂直相位校正的第二相位校正器70b及執行用于瞬態的相位校正的第三相位校正器70c。
從另一觀點,圖54示出相位校正算法中的解碼階段的框圖。至處理的輸入為時間-頻率域中的BWE信號及元數據。再次,在實際應用中,本發明的相位導數校正對共同使用濾波器組或現有BWE方案的變換是優選的。在當前示例中,此為如在SBR中所使用的QMF域。第一解多工器(未繪示)從通過本發明校正所增強的配備有BWE的感知編解碼器的比特流中提取相位導數校正數據。
第二解多工器130(DEMUX)首先將接收到的元數據135劃分為激活數據365及用于不同校正模式的校正數據295a-c。基于激活數據,針對合適校正模式激活目標譜的計算(其他可閑置)。使用目標譜,使用期望校正模式對所接收的BWE信號執行相位校正。應注意的是,由于水平校正70a被遞歸地(換言之:取決于先前信號幀)執行,其也從其他校正模式70b、70c接收先前的校正矩陣。最后,基于激活數據將校正的信號或未處理的信號設為輸出。
在校正了相位數據之后,繼續下游的下層BWE合成,在當前示例的情況下為SBR合成。在相位校正恰好插入BWE合成信號流中的情況下,可能存在變化。優選地,進行相位導數校正作為具有相位Zpha(k,n)的未經處理的頻譜修補上的初始調整,且在下游對校正的相位執行所有額外BWE處理或調整步驟(在SBR中,此可為噪聲添加、反向濾波、遺漏正弦曲線等)。
圖55示出解碼器110”的另一實施例。根據此實施例,解碼器110”包括核心解碼器115、修補器120、合成器100及模塊A,其為根據圖54中所示的先前實施例的解碼器110”。核心解碼器115用于解碼具有關于音頻信號55的減少數量的子帶的時間幀中的音頻信號25。修補器120使用具有減少數量的子帶的核心解碼的音頻信號25的子帶的集合修補與減少數量的子帶相鄰的時間幀中的其他子帶,其中子帶的集合形成第一修補,以獲取具有正常數量的子帶的音頻信號32。幅度處理器125’處理時間幀中的音頻子帶信號355的幅值。根據先前解碼器110及110’,幅度處理器可為帶寬擴展參數應用器125。
在切換信號處理器模塊的情況下可想到許多其他實施例。例如,可交換幅度處理器125’及模塊A。因此,模塊A作用于重構的音頻信號35,其中已校正修補的幅值。可選地,音頻子帶信號計算器350可位于幅度處理器125’之后,以便從音頻信號的相位校正及幅度校正的部分形成校正的音頻信號355。
此外,解碼器110”包括合成器100,其用于合成相位及幅度校正的音頻信號以獲取經頻率組合處理的音頻信號90。可選擇地,由于在核心解碼的音頻信號25上既不應用幅度校正也不應用相位校正,所述音頻信號可直接被傳輸至合成器100。在先前描述的解碼器110或110’的一個中應用的任何可選處理模塊也可應用于解碼器110”中。
圖56示出用于編碼音頻信號55的編碼器155”。編碼器155”包括連接至計算器270的相位確定器380,核心編碼器160、參數提取器165及輸出信號形成器170。相位確定器380確定音頻信號55的相位45,其中計算器270基于音頻信號55的確定的相位45確定用于音頻信號55的相位校正數據295。核心編碼器160對音頻信號55進行核心編碼,以獲取具有關于音頻信號55的減少數量的子帶的核心編碼的音頻信號145。參數提取器165從音頻信號55中提取參數190,以用于獲取用于未包括在核心編碼的音頻信號中的第二子帶集合的低分辨率參數表示。輸出信號形成器170形成輸出信號135,其包括參數190、核心編碼的音頻信號145及相位校正數據295’。可選擇地,編碼器155”包括在對音頻信號55進行核心編碼之前的低通濾波器(LP)180及在從音頻信號55提取參數190之前的高通濾波器(HP)185。可選地,可使用間隙填充算法而不對音頻信號55進行低通濾波或高通濾波,其中核心編碼器160對減少數量的子帶進行核心編碼,其中子帶集合內的至少一個子帶未被核心編碼。此外,參數提取器從未利用核心編碼器160編碼的至少一個子帶中提取參數190。
根據實施例,計算器270包括校正數據計算器集合285a-c,其用于根據第一變化模式、第二變化模式或第三變化模式校正相位校正。此外,計算器270確定用于激活校正數據計算器集合285a-c中的一個校正數據計算器的激活數據365。輸出信號形成器170形成輸出信號,其包括激活數據、參數、核心編碼的音頻信號及相位校正數據。
圖57示出計算器270的可選實施,該計算器270可用于圖56中所示的編碼器155”中。校正模式計算器385包括變化確定器275及變化比較器280。激活數據365是對不同變化進行比較的結果。此外,激活數據365根據確定的變化將校正數據計算器185a-c中的一個激活。計算的校正數據295a、295b或295c可作為編碼器155”的輸出信號形成器170的輸入且因此作為輸出信號135的部分。
實施例示出包括元數據形成器390的計算器270,其形成包括計算的校正數據295a、295b或295c及激活數據365的元數據流295’。若校正數據自身不包括當前校正模式的充分信息,則可將激活數據365傳輸至解碼器。充分信息可為(例如)用于表示與校正數據295a、校正數據295b及校正數據295c不同的校正數據的比特數。此外,輸出信號形成器170可額外使用激活數據365,使得可忽略元數據形成器390。
從另一觀點,圖57的框圖示出相位校正算法中的編碼階段。至處理的輸入為原始音頻信號55及時間-頻率域。在實際應用中,本發明的相位導數校正對于共同使用濾波器組或現有BWE方案的變換是優選的。在當前示例中,此為在SBR中使用的QMF域。
校正模式計算模塊首先計算對于每個時間幀應用的校正模式。基于激活數據365,在合適校正模式(其他校正模式可閑置)中激活校正數據295a-c計算。最后,多工器(MUX)組合激活數據及來自不同校正模式的校正數據。
另一多工器(未繪示)將相位導數校正數據合并至BWE以及通過本發明校正所增強的感知編碼器的比特流中。
圖58示出用于解碼音頻信號的方法5800。方法5800包括步驟5805“使用第一校正數據利用第一目標譜生成器生成用于音頻信號的子帶信號的第一時間幀的目標譜”、步驟5810“利用以相位校正算法確定的第一相位校正器校正音頻信號的第一時間幀中的子帶信號的相位,其中通過減少音頻信號的第一時間幀中的子帶信號的測量與目標譜之間的差異執行校正”及步驟5815“使用時間幀的校正的相位利用音頻子帶信號計算器計算用于第一時間幀的音頻子帶信號,及用于使用第二時間幀中的子帶信號的測量或使用根據與相位校正算法不同的另一相位校正算法的校正的相位計算,計算用于與第一時間幀不同的第二時間幀的音頻子帶信號”。
圖59示出用于編碼音頻信號的方法5900。方法5900包括步驟5905“利用相位確定器確定音頻信號的相位”、步驟5910“基于音頻信號的確定的相位利用計算器確定用于音頻信號的相位校正數據”、步驟5915“利用核心編碼器對音頻信號進行核心編碼,以獲取具有關于音頻信號的減少數量的子帶的核心編碼的音頻信號”、步驟5920“利用參數提取器從音頻信號中提取參數,以用于獲取用于未包括在核心編碼的音頻信號中的第二子帶集合的低分辨率參數表示”及步驟5925“利用輸出信號形成器形成輸出信號,其包括參數、核心編碼的音頻信號及相位校正數據”。
可在計算機上執行的計算機程序中實施方法5800及5900以及在先描述的方法2300、2400、2500、3400、3500、3600及4200。
應注意的是,將音頻信號55用作用于音頻信號的一般術語,尤其用于原始(即未處理的)音頻信號、音頻信號的傳輸部分Xtrans(k,n)25、基帶信號Xbase(k,n)30、與原始音頻信號相比時包括較高頻率的處理的音頻信號32、重構的音頻信號35、幅度校正的頻率修補Y(k,n,i)40、音頻信號的相位45或音頻信號的幅度47。因此,由于實施例的上下文,不同音頻信號可彼此交換。
可選實施例涉及用于所發明的時間-頻率處理的不同濾波器組或變換域,例如短時傅立葉變換(STFT)、復雜改進離散余弦變換(CMDCT)或離散傅立葉變換(DFT)域。因此,可考慮與變換有關的特定相位性質。具體地,若備份系數是從偶數復制至奇數(或反之亦然),即,如在實施例中所描述,將原始音頻信號的第二子帶復制至第九子帶而不是第八子帶,則修補的共軛復數可用于處理。同樣適用于修補的鏡象,而不使用(例如)備份算法,以克服修補內的相位角的逆序。
其他實施例可放棄來自編碼器的旁側信息并估計在解碼器處的一些或所有的必要校正參數。另一實施例可具有其他下層BWE修補方案,例如使用不同基帶部分、不同數量或大小的修補或不同換位技術,例如頻譜鏡象或單側頻帶調制(SSB)。在相位校正恰好被協調至BWE合成信號流中的情況下,也可存在變化。此外,使用滑動漢寧窗執行平滑化,其可被(例如)一階IIR替換以獲得較佳計算效率。
通常,最新技術的感知音頻編解碼器的使用有損音頻信號的譜分量的相位相干性,尤其在低比特率下,其中應用如帶寬擴展的參數編碼技術。此導致音頻信號的相位導數的變化。然而,在某些信號類型中,相位導數的保留是重要的。因此,此類聲音的感知品質受損。若相位導數的恢復是感知有益的,則本發明重新調整此類信號的相位對頻率(“垂直”)或相位對時間(“水平”)的導數。此外,作出是調整垂直相位導數還是調整水平相位導數是感知上更優的決策。僅需要極緊湊旁側信息的傳輸以控制相位導數校正處理。因此,本發明以適度旁側信息為代價提升感知音頻編碼器的聲音品質。
換言之,譜帶復制(SBR)可引起相位譜中的誤差。對這些誤差的人類感知進行研究,揭示兩個感知上的顯著影響:在諧波的頻率和時間位置上的差異。僅當基本頻率足夠高使得在ERB帶內僅存在一個諧波時,頻率誤差似乎是可感知的。相應地,僅在基本頻率較低且諧波的相位在頻率上對齊的情況下,時間位置誤差似乎是可感知的。
可通過計算相位對時間的導數(PDT)檢測頻率誤差。若PDT值在時間上是穩定的,則應校正SBR處理的信號與原始信號之間的PDT值的差異。此有效地校正諧波的頻率,且因此避免不和諧性的感知。
可通過計算相位對頻率的導數(PDF)檢測時間位置誤差。若PDF值在頻率上是穩定的,則應校正SBR處理的信號與原始信號之間的PDF值的差異。此有效地校正諧波的時間位置,且因此避免在交越頻率處調制噪聲的感知。
雖然已在模塊表示實際或邏輯硬件組件的框圖的上下文中描述本發明,但也可通過計算機實施的方法實施本發明。在后一種情況下,模塊表示對應方法步驟,其中此步驟代表由對應邏輯或物理硬件模塊執行的功能。
盡管在裝置的上下文中已描述了一些方面,顯然,此方面也可表示對應方法的描述,其中模塊或裝置與方法步驟或方法步驟的特征相對應。類似地,方法步驟的上下文中所描述的方面也表示對應裝置的對應模塊或項目或特征的描述。可通過(使用)硬件裝置(例如微處理器、可編程計算機或電子電路)執行方法步驟中的一些或全部。在一些實施例中,可通過此裝置執行最重要的方法步驟中的一些或多個。
本發明的傳輸或編碼的音頻信號可存儲于數字儲存介質上或可在傳輸介質(如無線傳輸介質或有線傳輸介質(如因特網))上傳輸。
根據某些實施需求,本發明的實施例可在硬件或軟件中實施。可使用在其上存儲有電子可讀控制信號的數字存儲介質(如軟盤、DVD、藍光光碟、CD、ROM、PROM及EPROM、EEPROM或閃存)執行實施,其可(或能夠)與可編程計算機系統協作從而執行各個方法。因此,數字儲存介質可以是計算機可讀的。
根據本發明的一些實施例包括具有電子可讀控制信號的數據載體,其能夠與可編程計算機系統協作從而執行本文描述的方法中的一個。
通常,本發明的實施例可實施為具有程序代碼的計算機程序產品,當計算機程序產品在計算機上運行時,可操作的程序代碼用于執行方法中的一個。程序代碼可(例如)存儲于計算機可讀載體上。
其他實施例包括儲存于機器可讀載體上的計算機程序,其用于執行本文所述方法中的一個。
換言之,本發明的方法的實施例(因此)是具有程序代碼的計算機程序,當該計算機程序在計算機上運行時程序代碼用于執行本文描述的方法中的一個。
因此,本發明的方法的另一實施例是一種數據載體(或諸如數字存儲介質的非易失性存儲介質,或計算機可讀介質),其包括記錄在其上的用于執行本文描述的方法的一個的計算機程序。數據載體、數字存儲介質或記錄介質通常是有形的和/或非易失的。
因此,本發明的方法的另一實施例是一種表示用于執行本文所述方法的一個的計算機程序的數據流或信號序列。數據流或信號序列可(例如)用于通過數據通信連接(例如,通過因特網)被傳輸。
另一實施例包括一種處理構件,例如,計算機或可編程邏輯設備,其用于或適用于執行本文所述方法的一個。
另一實施例包括計算機,其上安裝有用于執行本文所述方法中的一個的計算機程序。
根據本發明的另一實施例包括一種裝置或系統,其用于將用于執行本文所述方法的一個的計算機程序傳輸(例如,電子地或光學地)至接收器。接收器可例如是計算機、移動設備、存儲設備或類似。此裝置或系統可(例如)包括用于將計算機程序傳輸至接收器的文件服務器。
在一些實施例中,使用一種可編程邏輯設備(例如,現場可編程門陣列)用于執行本文所述方法的功能中的一些或全部。在一些實施例中,現場可編程門陣列可與微處理器協作,以便執行本文所述方法中的一個。通常,可通過任何硬件裝置優選地執行此方法。
上面描述的實施例僅示出本發明的原理。應理解的是,本文所描述的布置及細節的修改及變形對本領域技術人員是顯而易見的。因此,意圖在于,僅通過權利要求的范圍而不通過本文實施例的描述及說明書的方式呈現的特定細節限制本發明。
參考文獻
[1]Painter,T.:Spanias,A.Perceptual coding of digital audio,Proceedings of the IEEE,88(4),2000;pp.451-513.
[2]Larsen,E.;Aarts,R.Audio Bandwidth Extension:Application of psychoacoustics,signal processing and loudspeaker design,John Wiley and Sons Ltd,2004,Chapters 5,6.
[3]Dietz,M.;Liljeryd,L.;Kjorling,K.;Kunz,0.Spectral Band Replication,a Novel Approach in Audio Coding,112th AES Convention,April 2002,Preprint 5553.
[4]Nagel,F.;Disch,S.;Rettelbach,N.A Phase Vocoder Driven Bandwidth Extension Method with Novel Transient Handling for Audio Codecs,126th AES Convention,2009.
[5]D.Griesinger'The Relationship between Audience Engagement and the ability to Perceive Pitch,Timbre,Azimuth and Envelopment of Multiple Sources'Tonmeister Tagung 2010.
[6]D.Dorran and R.Lawlor,"Time-scale modification of music using a synchronized subband/time domain approach,"IEEE International Conference on Acoustics,Speech and Signal Processing,pp.IV 225-IV 228,Montreal,May 2004.
[7]J.Laroche,"Frequency-domain techniques for high quality voice modification,"Proceedings of the International Conference on Digital Audio Effects,pp.328-322,2003.
[8]Laroche,J.;Dolson,M.;,"Phase-vocoder:about this phasiness business,"Applications of Signal Processing to Audio and Acoustics,1997.1997IEEE ASSP Workshop on,vol.,no.,pp.4pp.,19-22,Oct 1997
[9]M.Dietz,L.Liljeryd,K.and O.Kunz,“Spectral band replication,a novel approach in audio coding,"in AES 112th Convention,(Munich,Germany),May 2002.
[10]P.Ekstrand,“Bandwidth extension of audio signals by spectral band replication,"in IEEE Benelux Workshop on Model based Processing and Coding of Audio,(Leuven,Belgium),November 2002.
[11]B.C.J.Moore and B.R.Glasberg,“Suggested formulae for calculating auditory-filter bandwidths and excitation patterns,"J.Acoust.Soc.Am.,vol.74,pp.750-753,September 1983.
[12]T.M.Shackleton and R.P.Carlyon,“The role of resolved and unresolved harmonics in pitch perception and frequency modulation discrimination,"J.Acoust.Soc.Am.,vol.95,pp.3529-3540,June 1994.
[13]M.-V.Laitinen,S.Disch,and V.Pulkki,“Sensitivity of human hearing to changes in phase spectrum,"J.Audio Eng.Soc.,vol.61,pp.860{877,November 2013.
[14]A.Klapuri,“Multiple fundamental frequency estimation based on harmonicity and spectral smoothness,"IEEE Transactions on Speech and Audio Processing,vol.11,November 2003.