語音去混響的方法、設備和系統的制作方法
【專利說明】
[0001] 相關申請的交叉引用
[0002] 本申請要求于2013年4月10日提交的美國臨時專利申請No. 61/810, 437和于 2013年6月28日提交的美國臨時專利申請No. 61/840, 744的優先權,這兩個申請當中每一 個的全部內容都通過引用被結合于此。
技術領域
[0003] 本公開涉及音頻信號的處理。特別地,本公開涉及處理用于遠程通信的音頻信號, 包括但不限于處理用于電話會議或視頻會議的音頻信號。
【背景技術】
[0004] 在遠程通信中,常常有必要捕獲不在麥克風附近的參與者的語音。在這種情況下, 直接的聲學反射和后續的房間混響的效果(reverberation)會不利地影響可理解性。在空 間捕獲系統的情況下,這種混響可以被人類聽覺處理系統與直接的聲音(至少在某種程度 上)感知分離。在實踐當中,當經多聲道渲染試聽時,這種空間混響可以改善用戶體驗,并 且存在一些證據暗示混響會幫助表演空間中聲音源的分離和錨定。但是,當信號重疊、作為 單聲道或單個聲道導出和/或帶寬減小時,混響的效果一般更難以讓人類聽覺處理系統管 理。相應地,改善的音頻處理系統將是期望的。
【發明內容】
[0005] 根據本文所述的一些實現方式,一種方法可以涉及接收包括頻域音頻數據的信號 并且對頻域音頻數據應用濾波器組(filterbank),以便產生在多個子帶內的頻域音頻數 據。該方法可以涉及為每個子帶中的頻域音頻數據確定振幅調制信號值,并且對每個子帶 中的振幅調制信號值應用帶通濾波器以便為每個子帶產生帶通濾波后的振幅調制信號值。 帶通濾波器可以具有超過人類語音的平均節奏(cadence)的中心頻率。
[0006] 該方法可以涉及至少部分地基于振幅調制信號值和帶通濾波后的振幅調制信號 值的函數為每個子帶確定增益。該方法可以涉及對每個子帶應用確定的增益。確定振幅調 制信號值的處理可以涉及為每個子帶中的頻域音頻數據確定對數功率值。
[0007] 在一些實現方式中,用于較低頻率子帶的帶通濾波器可以比用于較高頻率子帶的 帶通濾波器通過更大的頻率范圍。用于每個子帶的帶通濾波器可以具有在10-20HZ范圍內 的中心頻率。在一些實現方式中,用于每個子帶的帶通濾波器可以具有大約15Hz的中心頻 率。
[0008] 函數可以包括形式為RIOa的表達式。R可以與子帶中每個樣本的帶通濾波后的 振幅調制信號值除以振幅調制信號值成比例。"A"可以與子帶中每個樣本的振幅調制信號 值減去帶通濾波后的振幅調制信號值成比例。在一些實現方式中,A可以包括指示抑制率 (rate of suppression)的常量。確定增益可以涉及確定是應用通過形式為1?1(^的表達式 產生的增益值還是應用最大抑制值。該方法可以涉及確定對象的擴散率并且至少部分地基 于擴散率為該對象確定最大抑制值。在一些實現方式中,可以為相對較擴散的對象確定相 對較高的最大抑制值。
[0009] 在一些例子中,應用濾波器組的處理可以涉及產生在5-10的范圍內的個數的子 帶的頻域音頻數據。在其它實現方式中,其中應用濾波器組的處理可以涉及產生在10-40 的范圍內或者在某個其它范圍內的個數的子帶的頻域音頻數據。
[0010] 該方法可以涉及在對每個子帶應用確定的增益之后應用平滑函數。該方法還可以 涉及接收包括時域音頻數據的信號并且把時域音頻數據變換成頻域音頻數據。
[0011] 根據一些實現方式,這些方法和/或其它方法可以經由其上存儲了軟件的一個或 多個非臨時性介質來實現。軟件可以包括用于至少部分地控制一個或多個設備執行這種方 法的指令。
[0012] 根據本文所述的一些實現方式,一種裝置可以包括接口系統和邏輯系統。邏輯系 統可以包括通用的單-或多-芯片處理器、數字信號處理器(DSP)、專用集成電路(ASIC)、 現場可編程門陣列(FPGA)或其它可編程邏輯設備、分立門或晶體管邏輯、分立硬件部件和 /或其組合。
[0013] 接口系統可以包括網絡接口。一些實現方式包括存儲器設備。接口設備可以包括 邏輯系統與存儲器系統之間的接口。
[0014] 根據一些實現方式,邏輯系統可以能夠執行以下操作:接收包括頻域音頻數據的 信號;對頻域音頻數據應用濾波器組,以便產生在多個子帶內的頻域音頻數據;為每個子 帶中的頻域音頻數據確定振幅調制信號值;并且對每個子帶中的振幅調制信號值應用帶通 濾波器,以便為每個子帶產生帶通濾波后的振幅調制信號值。帶通濾波器可以具有超過人 類語音的平均節奏的中心頻率。
[0015] 邏輯系統還可以能夠至少部分地基于振幅調制信號值和帶通濾波后的振幅調制 信號值的函數為每個子帶確定增益。邏輯系統還可以能夠對每個子帶應用確定的增益。邏 輯系統還可以能夠在對每個子帶應用確定的增益之后應用平滑函數。邏輯系統還可以能夠 接收包括時域音頻數據的信號并且把時域音頻數據變換成頻域音頻數據。
[0016] 確定振幅調制信號值的處理可以涉及為每個子帶中的頻域音頻數據確定對數功 率值。用于較低頻率子帶的帶通濾波器可以比用于較高頻率子帶的帶通濾波器通過更大的 頻率范圍。用于每個子帶的帶通濾波器可以具有在10-20HZ范圍內的中心頻率。例如,用 于每個子帶的帶通濾波器可以具有大約15Hz的中心頻率。
[0017] 在一些實現方式中,函數可以包括形式為RIOa的表達式。R可以與子帶中每個樣 本的帶通濾波后的振幅調制信號值除以振幅調制信號值成比例。"A"可以與子帶中每個樣 本的振幅調制信號值減去帶通濾波后的振幅調制信號值成比例。"A"可以包括指示抑制率 的常量。確定增益可以涉及確定是應用通過形式為RIOa的表達式產生的增益值還是應用 最大抑制值。
[0018] 邏輯系統還可以能夠確定對象的擴散率并且至少部分地基于擴散率為該對象確 定最大抑制值。可以為相對較擴散的對象確定相對較高的最大抑制值。
[0019] 應用濾波器組的處理可以涉及產生在5-10范圍內的個數的子帶的頻域音頻數 據。作為替代,應用濾波器組的處理可以涉及產生在10-40范圍內或者在某個其它范圍內 的個數的子帶的頻域音頻數據。
[0020] 本說明書中所述主題的一種或多種實現方式的細節在附圖和以下描述中闡述。其 它特征、方面和優點將從描述、附圖和權利要求變得清楚。應當指出,以下附圖的相對維度 可以不是按比例繪制的。
【附圖說明】
[0021] 圖1示出了電話會議系統的元素的例子。
[0022] 圖2是寬帶語音信號的一個例子的聲壓的圖。
[0023] 圖3是圖2中所表示的語音信號組合了混響信號的例子的聲壓的圖。
[0024] 圖4是圖2的語音信號的功率以及圖3的組合的語音和混響信號的功率的圖。
[0025] 圖5是指示在變換到頻域之后圖4的功率曲線的圖。
[0026] 圖6是圖2的語音信號的對數功率以及圖3的組合的語音和混響信號的對數功率 的圖。
[0027] 圖7是指示在變換到頻域之后圖6的對數功率曲線的圖。
[0028] 圖8A和8B是語音信號的低頻子帶和高頻子帶的聲壓的圖。
[0029] 圖9是概述用于緩解音頻數據中的混響的處理的流程圖。
[0030] 圖10示出了用于彼此重疊的多個頻帶的帶通濾波器的例子。
[0031] 圖11是根據一些例子指示等式3的增益抑制對對數功率比的圖。
[0032] 圖12是示出最大抑制對擴散率的圖的各種例子的圖。
[0033] 圖13是提供能夠緩解混響的音頻處理裝置的部件的例子的框圖。
[0034] 圖14是提供音頻處理裝置的部件的例子的框圖。
[0035] 相同的標號和指示在各個圖中指示相同的元素。
【具體實施方式】
[0036] 以下描述針對某些實現方式以用于描述本公開內容的一些創新方面的目的,以及 這些創新方面可以在其中實現的上下文的例子。但是,本文的教導可以以各種不同途徑被 應用。例如,雖然各種實現方式是關于特定的聲音捕獲和再現環境來描述的,但是本文的教 導可以廣泛適用于其它已知的聲音捕獲和再現環境,以及可能在將來引入的聲音捕獲和再 現環境。類似地,雖然在本文提供了揚聲器配置、麥克風配置等等的例子,但是其它實現方 式也是發明人預期的。而且,所述實施例可以在各種硬件、軟件、固件等等中實現。相應地, 本公開內容的教導不是要局限于圖中所示和/或本文描述的實現方式,而是具有廣泛的適 用性。
[0037] 圖1示出了電話會議系統的元素的例子。在這個例子中,電話會議在位于位置 105a、105b、105c和105d的參與者之間發生。在這個例子中,位置105a-105d當中每一個具 有不同的揚聲器配置和不同的麥克風配置。而且,位置105a_105d當中每一個包括具有不 同尺寸和不同聲學屬性的房間。因此,位置l〇5a_105d當中每一個將趨于產生不同的聲學 反射和房間混響效果。
[0038] 例如,位置105a是其中多個參與者110經由電話會議電話115參與電話會議的會 議室。參與者110離電話會議電話115處于不同距離的位置。電話會議電話115包括揚聲 器120、兩個內部麥克風125以及外部麥克風125。會議室還包括兩個天花板安裝的揚聲器 120 (以虛線示出)。
[0039] 位置105a_105d當中每一個被配置為經由網關130與網絡117中的至少一個通 信。在這個例子中,網絡117包括公共交換電話網絡(PSTN)和因特網。
[0040] 在位置105b,單個參與者110經由膝上型計算機135經由因特網協議語音(VoIP) 連接來參與。膝上型計算機135包括立體聲揚聲器,但是參與者110在使用單個的麥克風 125。位置105b在這個例子中是小的家庭