音頻信號解混響方法和裝置的制造方法
【專利摘要】本申請公開了一種音頻信號解混響方法和裝置。所述的方法包括:獲取單通道音頻信號,單通道音頻信號包括早期混響信號和晚期混響信號;判斷單通道音頻信號是否為語音信號;若是,則更新早期混響信號的聯合概率密度分布的方差,并基于早期混響信號的聯合概率密度分布的方差更新子帶濾波器的濾波器系數,其中,子帶濾波器用于濾除單通道音頻信號中包含的晚期混響信號;以及基于更新后的濾波器系數確定解混響的單通道音頻信號。本申請的方案,可以將輸入的音頻信號中的晚期混響信號濾除,從而提高后續語音識別的準確率。
【專利說明】
音頻信號解混響方法和裝置
技術領域
[0001] 本申請涉及計算機技術領域,具體涉及音頻信號處理領域,尤其涉及音頻信號解 混響方法和裝置。
【背景技術】
[0002] 在音頻尤其是語音信號處理的過程中,若用于采集音頻信號的采集裝置(例如,麥 克風)距離聲源的位置較遠,采集裝置接收到的音頻信號將不可避免地受到混響的影響。混 響的存在不僅會降低音頻信號的聽感質量,而且會導致現有語音識別系統的精度急劇下 降。
[0003] 混響可以分解為早期混響和晚期混響,其中對音頻質量以及識別系統精度影響較 大的是晚期混響,因此解混響的主要目標是如何降低晚期混響。
[0004] 在現有技術中,已存在一些用于濾除采集裝置采集到的語音信號中的晚期混響的 算法。然而,這些算法通常都存在如下的問題:
[0005] 1)在求解用于濾除晚期混響的濾波器的濾波器系數時,需要獲得全部的音頻數 據,從而導致算法的實時率較低,進而會導致解混響算法的延時比較高。而在語音通信及語 音識別領域中,對解混響算法的實時性要求較高。
[0006] 2)、在求解用于濾除晚期混響的濾波器的濾波器系數時,通常會涉及矩陣求逆的 計算。而在矩陣求逆過程中一旦矩陣不可逆,則求得的濾波器系數就不準確,進而影響解混 響的性能。此外,矩陣求逆的運算量較大,從另一方面也造成了解混響算法的實時性較差。
【發明內容】
[0007] 本申請的目的在于提出一種改進的音頻信號解混響方法和裝置,來解決以上背景 技術部分提到的技術問題。
[0008] 第一方面,本申請提供了一種音頻信號解混響方法,包括:獲取單通道音頻信號, 單通道音頻信號包括早期混響信號和晚期混響信號;判斷單通道音頻信號是否為語音信 號;若是,則更新早期混響信號的聯合概率密度分布的方差,并基于早期混響信號的聯合概 率密度分布的方差更新子帶濾波器的濾波器系數,其中,子帶濾波器用于濾除單通道音頻 信號中包含的晚期混響信號;以及基于更新后的濾波器系數確定解混響后的音頻信號。
[0009] 在一些實施例中,判斷單通道音頻信號是否為語音信號包括:通過語音活動檢測 技術判斷單通道音頻信號是否為語音信號。
[0010] 在一些實施例中,早期混響信號的聯合概率密度分布的方差為更新前的子帶濾波 器的濾波器系數的轉置矩陣與子帶濾波器的輸入信號向量的乘積與在t時刻接收到的單通 道音頻信號的譜系數xt,f之差的絕對值的平方;更新后的濾波器系數gf(t+l)為更新前的濾 波器系數與更新變化量之和;其中,更新變化量為第一更新變化參數和第二更新變化參數 之比;第一更新變化參數為子帶濾波器的迭代步長、子帶濾波器的實際輸出和期望輸出之 間的誤差、以及子帶濾波器的輸入信號向量的乘積;第二更新變化參數為子帶濾波器的輸 入信號向量的轉置與子帶濾波器的輸入信號向量的乘積;子帶濾波器的實際輸出與期望輸 出之間的誤差等于在t時刻接收到的單通道音頻信號的譜系數與t時刻的早期混響信號的 聯合概率密度分布的方差之比減去更新前的子帶濾波器的濾波器系數的轉置與子帶濾波 器的輸入信號向量的乘積。
[0011] 在一些實施例中,解混響后的音頻信號dt,f等于在t時刻接收到的單通道音頻信號 的譜系數減去t+1時刻的子帶濾波器的濾波器系數的轉置與子帶濾波器的輸入信號向量的 乘積。在一些實施例中,在判斷單通道音頻信號是否為語音信號之后,方法還包括:若否,則 將更新前的早期混響信號的聯合概率密度分布的方差和更新前的子帶濾波器的濾波器系 數作為更新后的早期混響信號的聯合概率密度分布的方差和更新后的子帶濾波器的濾波 器系數。
[0012] 在一些實施例中,方法還包括:判斷子帶濾波器的實際輸出與期望輸出之間的誤 差是否滿足誤差絕對值的平方大于在t時刻接收到的單通道音頻信號的譜系數的絕對值的 平方與預設閾值K的乘積;若是,則將濾波器系數置為零向量;其中,K>1。
[0013] 第二方面,本申請提供了一種音頻信號解混響裝置,包括:獲取模塊,配置用于獲 取單通道音頻信號,單通道音頻信號包括早期混響信號和晚期混響信號;判斷模塊,配置用 于判斷單通道音頻信號是否為語音信號;第一更新模塊,配置用于若單通道音頻信號為語 音信號,則更新早期混響信號的聯合概率密度分布的方差,并基于早期混響信號的聯合概 率密度分布的方差更新子帶濾波器的濾波器系數,其中,子帶濾波器用于濾除單通道音頻 信號中包含的晚期混響信號;以及確定模塊,配置用于基于更新后的濾波器系數確定解混 響后的音頻信號。
[0014] 在一些實施例中,判斷模塊進一步配置用于:通過語音活動檢測技術判斷單通道 音頻信號是否為語音信號。
[0015] 在一些實施例中,早期混響信號的聯合概率密度分布的方差為:更新前的子帶濾 波器的濾波器系數的轉置矩陣與子帶濾波器的輸入信號向量的乘積與在t時刻接收到的單 通道音頻信號的譜系數xt,f之差的絕對值的平方;更新后的濾波器系數gf(t+l)為更新前的 濾波器系數與更新變化量之和;其中,更新變化量為第一更新變化參數和第二更新變化參 數之比;第一更新變化參數為子帶濾波器的迭代步長、子帶濾波器的實際輸出和期望輸出 之間的誤差、以及子帶濾波器的輸入信號向量的乘積;第二更新變化參數為子帶濾波器的 輸入信號向量的轉置與子帶濾波器的輸入信號向量的乘積;子帶濾波器的實際輸出與期望 輸出之間的誤差等于在t時刻接收到的單通道音頻信號的譜系數與t時刻的早期混響信號 的聯合概率密度分布的方差之比減去更新前的子帶濾波器的濾波器系數的轉置與子帶濾 波器的輸入信號向量的乘積。
[0016] 在一些實施例中,解混響后的音頻信號dt,f等于在t時刻接收到的單通道音頻信號 的譜系數減去t+1時刻的子帶濾波器的濾波器系數的轉置與子帶濾波器的輸入信號向量的 乘積。
[0017] 在一些實施例中,裝置還包括第二更新模塊;第二更新模塊配置用于若單通道音 頻信號不是語音信號,則將更新前的早期混響信號的聯合概率密度分布的方差和更新前的 子帶濾波器的濾波器系數作為更新后的早期混響信號的聯合概率密度分布的方差和更新 后的子帶濾波器的濾波器系數。
[0018] 在一些實施例中,裝置還包括置零模塊;置零模塊配置用于判斷子帶濾波器的實 際輸出與期望輸出之間的誤差是否滿足誤差絕對值的平方大于在t時刻接收到的單通道音 頻信號的譜系數的絕對值的平方與預設閾值K的乘積;以及若是,則將濾波器系數置為零向 量;其中,K>1。
[0019] 本申請提供的音頻信號解混響方法和裝置,通過基于輸入的語音信號不斷地更新 早期混響信號的聯合概率密度分布的方差以及子帶濾波器的參數,使得子帶濾波器濾波能 夠將輸入的單通道音頻信號中的晚期混響信號濾除,從而提高后續語音識別的準確率。
[0020] 此外,本申請的音頻信號解混響方法和裝置,早期混響信號的聯合概率密度分布 的方差的更新以及子帶濾波器參數更新所需計算量較小,且更新過程僅與一段時間內的單 通道音頻信號相關,具有較高的實時性。
【附圖說明】
[0021] 通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它 特征、目的和優點將會變得更明顯:
[0022]圖1是本申請可以應用于其中的示例性系統架構圖;
[0023] 圖2是根據本申請的音頻信號解混響方法的一個實施例的流程圖;
[0024] 圖3是根據本申請的音頻信號解混響方法的另一個實施例的流程圖;
[0025] 圖4是根據本申請的音頻信號解混響裝置的一個實施例的結構示意圖;
[0026] 圖5是適于用來實現本申請實施例的終端設備或服務器的計算機系統的結構示意 圖。
【具體實施方式】
[0027] 下面結合附圖和實施例對本申請作進一步的詳細說明。可以理解的是,此處所描 述的具體實施例僅僅用于解釋相關發明,而非對該發明的限定。另外還需要說明的是,為了 便于描述,附圖中僅示出了與有關發明相關的部分。
[0028] 需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相 互組合。下面將參考附圖并結合實施例來詳細說明本申請。
[0029] 圖1示出了可以應用本申請的音頻信號解混響方法或音頻信號解混響裝置的實施 例的示例性系統架構100。
[0030] 如圖1所示,系統架構100可以包括終端設備101、102、103,網絡104和服務器105。 網絡104用以在終端設備101、102、103和服務器105之間提供通信鏈路的介質。網絡104可以 包括各種連接類型,例如有線、無線通信鏈路或者光纖電纜等等。
[0031] 用戶可以使用終端設備101、102、103通過網絡104與服務器105交互,以接收或發 送消息等。終端設備101、102、103上可以安裝有各種通訊客戶端應用,例如網頁瀏覽器應 用、購物類應用、搜索類應用、即時通信工具、郵箱客戶端、社交平臺軟件等。
[0032] 終端設備101、102、103可以是具有采集音頻信號的能力的各種電子設備,包括但 不限于智能手機、平板電腦、MP3播放器(Moving Picture Experts Group Audio Layer III,動態影像專家壓縮標準音頻層面3)、MP4(Moving Picture Experts Group Audio Layer IV,動態影像專家壓縮標準音頻層面4)播放器、膝上型便攜計算機和臺式計算機等 等。
[0033] 服務器105可以是提供各種服務的服務器,例如對終端設備101、102、103采集的音 頻信號進行處理的音頻處理服務器。音頻處理服務器可以對接收到的音頻信號等數據進行 分析等處理,并將處理結果(例如經混響去除處理的音頻數據)反饋給終端設備。
[0034] 需要說明的是,本申請實施例所提供的音頻信號解混響方法既可以由終端設備 101、102、103執行,也可以由服務器105執行,還可以一部分步驟由終端設備101、102、103執 行而另一部分步驟由服務器105執行。相應地,音頻信號解混響裝置既可以設置于終端設備 101、102、103中,也可以設置于服務器105中,或者一部分模塊設置于終端設備101、102、103 中而另一部分模塊設置于服務器中。
[0035] 應該理解,圖1中的終端設備、網絡和服務器的數目僅僅是示意性的。根據實現需 要,可以具有任意數目的終端設備、網絡和服務器。
[0036] 繼續參考圖2,示出了根據本申請的音頻信號解混響方法的一個實施例的流程 200。所述的音頻信號解混響方法,包括以下步驟:
[0037] 步驟210,獲取單通道音頻信號,其中,單通道音頻信號包括早期混響信號和晚期 混響信號。
[0038] 在本實施例中,音頻信號解混響方法運行于其上的電子設備(例如圖1所示的服務 器)可以通過有線連接方式或者無線連接方式從用戶利用其進行音頻信號采集的終端接收 單通道音頻信號。需要指出的是,上述無線連接方式可以包括但不限于3G/4G連接、WiFi連 接、藍牙連接、WiMAX連接、Zigbee連接、UWB(ultra wideband)連接、以及其他現在已知或將 來開發的無線連接方式。
[0039] -般而言,當采集聲音的設備和聲源之間存在一定的距離時,采集聲音的設備采 集到的音頻信號將受到混響的影響。混響通常按照直達聲(也即直接從聲源傳達至采集聲 音的設備的音頻信號)與傳遞至采集聲音的設備的混響之間的時間差分為早期混響和晚期 混響。例如,可將直達聲以后30ms(毫秒)內到達采集聲音的設備的混響作為早期混響,而將 超過30ms到達采集聲音的設備的混響作為晚期混響。早期混響對語音幅值、相位延時、共振 峰影響較小,而晚期混響則會對語音幅值、相位延時、共振峰影響比較大,而且會導致語言 音節的相互掩蔽,這些都降低了語音清晰度,給語音識別帶來了很大的難度。
[0040] 步驟220,判斷單通道音頻信號是否為語音信號。
[0041] 本實施例的音頻信號解混響方法,旨在對采集到的語音信號進行解混響處理,進 而使得處理后的語音信號能夠更真實地反映用戶實際說出的語音。進而提升后續語音識別 等信號處理的準確率。
[0042]此外,語音信號與其它音頻信號存在較為顯著的差異,因此,通過在步驟中判斷獲 取到的單通道音頻信號是否為語音信號,可以在后續的處理步驟中,僅針對語音信號進行 相應的濾波等操作,從而提高語音信號的解混響處理效率和實時性。
[0043] 在一些可選的實現方式中,例如,可以通過VAD(Voice Activity Detection,語音 活動檢測)技術來進行語音信號的識別,從而判斷在步驟210中獲取到的單通道音頻信號是 否為語音信號。
[0044] 步驟230,若是,則更新早期混響信號的聯合概率密度分布的方差,并基于早期混 響信號的聯合概率密度分布的方差更新子帶濾波器的濾波器系數。
[0045] 早期混響信號的聯合概率密度分布的方差可以為更新前的子帶濾波器的濾波器 系數的轉置矩陣與子帶濾波器的輸入信號向量的乘積與在t時刻接收到的單通道音頻信號 的譜系數xt,f之差的絕對值的平方。
[0046] 示例性地,早期混響信號的聯合概率密度分布的方差可以滿足:
[0047] < =|^., x^-〇,;|2 ( 1 )
[0048] 其中,xt,f為在t時刻接收到的單通道音頻信號的譜系數,^為更新前的子帶濾波 器的濾波器系數的轉置,元-~為子帶濾波器的輸入信號向量。
[0049] 更新后的濾波器系數gf(t+l)為更新前的濾波器系數與更新變化量之和。其中,更 新變化量為第一更新變化參數和第二更新變化參數之比。第一更新變化參數為子帶濾波器 的迭代步長、子帶濾波器的實際輸出和期望輸出之間的誤差、以及子帶濾波器的輸入信號 向量的乘積。第二更新變化參數為子帶濾波器的輸入信號向量的轉置與子帶濾波器的輸入 信號向量的乘積。子帶濾波器的實際輸出與期望輸出之間的誤差等于在t時刻接收到的單 通道音頻信號的譜系數與t時刻的早期混響信號的聯合概率密度分布的方差之比減去更新 前的子帶濾波器的濾波器系數的轉置與子帶濾波器的輸入信號向量的乘積。
[0050] 示例性地,更新后的濾波器系數gf(t+l)可以滿足:
(2)
[0052]其中,y為子帶濾波器的迭代步長,e(t)為子帶濾波器的實際輸出與期望輸出之間 的誤差e(t)滿足:
[0053] e{t) = Jt f-gTfxxt_Df ( 3 )
[0054]在這里,子帶濾波器的濾波器系數的初始值gf(0)可以為一階數為N的全零向量。
[0055] 其中,N為子帶濾波器的抽頭數目,且滿足:
[0056] n=L_D+1〇
[0057] L為混響時間與單通道音頻信號一幀的幀時間長度之比,D為早期混響的混響時間 與單通道音頻信號一幀的幀時間長度之比。而混響時間例如可以定義為室內聲音達到穩定 狀態,聲源停止發聲后殘余聲音在房間內反復經吸聲材料吸收,平均聲壓級衰減60dB所需 的時間。
[0058] 此外,子帶濾波器的輸入信號向量Is,/可以具有如下的表現形式:
[0059] = \-xt-D.f >> 〇
[0060] 也即是說乂 4,/可以理解為子帶濾波器從t-D時刻至t-L+1時刻接收到的輸入信號 形成的輸入信號向量。
[0061] 此外,公式(3)中:
[0063] 相應地,公式(2)和公式(3)中:
[0064]義成廠二[i?卜認廠,毛-乃―"廠,…,無―i+u-]。
[0065]通過上述的公式(1)~(3)可以看出,在對早期混響信號的聯合概率密度分布的方 差進行更新時,采用的濾波器系數為t時刻的濾波器系數(即gf或者公式(2)中的gf(t)),在 完成了早期混響信號的聯合概率密度分布的方差的更新之后,再對濾波器的系數進行更新 (即公式(2)中的g f(t+l))。
[0066]步驟240,基于更新后的濾波器系數確定解混響后的音頻信號。
[0067] 采用如上所述的公式(1)~(3)對早期混響信號的聯合概率密度分布的方差以及 子帶濾波器的濾波器系數進行更新后,解混響后的音頻信號dt, f等于在t時刻接收到的單通 道音頻信號的譜系數減去t+1時刻的子帶濾波器的濾波器系數的轉置與所述子帶濾波器的 輸入信號向量的乘積。
[0068] 示例性地,解混響后的音頻信號dt, f可以滿足:
[0069] d, , = .v, , -gTf(l + \)xx,_D f ( 4 )
[0070] 此外,在一些可選的實現方式中,本實施例的音頻信號解混響方法還可以包括如 下的步驟:
[0071]判斷子帶濾波器的實際輸出與期望輸出之間的誤差是否滿足誤差絕對值的平方 大于在t時刻接收到的單通道音頻信號的譜系數的絕對值的平方與預設閾值K的乘積。也即 是說,判斷子帶濾波器的實際輸出與期望輸出之間的誤差e(t)是否滿足|e(t)| 2>KX |xt,f I2;
[0072]若是,則將濾波器系數置為零向量。
[0073]其中,K為預先設置的閾值,且滿足K>1。
[0074]此外,當|e(t)|2>KX |Xt,f|2時,可認為子帶濾波器發散,在下一步對早期混響信 號的聯合概率密度分布的方差進行更新時,公式(1)的gf為零向量。
[0075] 采用本實施例的音頻信號解混響方法,其解混響過程所需計算量較小,且運算過 程僅需要t_D~t-L+1時刻之間輸入的單通道音頻信號以及當前幀輸入的單通道音頻信號, 使得本實施例的解混響過程的實時性較強。
[0076] 進一步參考圖3,其示出了音頻信號解混響方法的又一個實施例的流程300。該音 頻信號解混響方法的流程300。
[0077]本實施例中可以具有與圖2所示實施例中步驟210~步驟240相對應的步驟310~ 步驟340。
[0078] 與圖2所示實施例不同的是,本實施例還進一步包括:
[0079] 步驟350,若在步驟320中的判斷結果為否,則將更新前的早期混響信號的聯合概 率密度分布的方差和更新前的子帶濾波器的濾波器系數作為更新后的早期混響信號的聯 合概率密度分布的方差和更新后的子帶濾波器的濾波器系數。
[0080] 也即是說,若步驟320中判斷出步驟310中獲取到的單通道音頻信號不是語音信 號,則不更新早期混響信號的聯合概率密度分布的方差以及子帶濾波器的濾波器系數,并 基于更新前的早期混響信號的聯合概率密度分布的方差以及子帶濾波器的濾波器系數對 步驟310中獲取到的單通道音頻信號進行解混響處理(步驟340)。
[0081 ]與圖2所示的實施例相比,本實施例的音頻信號解混響方法可以避免步驟320中判 斷結果的誤差可能導致的輸出異常,進一步提升經本實施例的方法處理后的音頻信號的晚 期混響過濾效果。
[0082]進一步參考圖4,作為對上述各圖所示方法的實現,本申請提供了一種音頻信號解 混響裝置的一個實施例,該裝置實施例與圖2所示的方法實施例相對應,該裝置具體可以應 用于各種電子設備中。
[0083]如圖4所示,本實施例所述的音頻信號解混響裝置400包括獲取模塊410、判斷模塊 420、第一更新模塊430以及確定模塊440:
[0084] 其中:
[0085] 獲取模塊410可配置用于獲取單通道音頻信號,單通道音頻信號包括早期混響信 號和晚期混響信號。
[0086]判斷模塊420可配置用于判斷單通道音頻信號是否為語音信號。
[0087] 第一更新模塊430可配置用于若單通道音頻信號為語音信號,則更新早期混響信 號的聯合概率密度分布的方差,并基于早期混響信號的聯合概率密度分布的方差更新子帶 濾波器的濾波器系數,其中,子帶濾波器用于濾除單通道音頻信號中包含的晚期混響信號。
[0088] 確定模塊440可配置用于基于更新后的濾波器系數確定解混響后的音頻信號。 [0089]在一些可選的實現方式中,判斷模塊420可進一步配置用于:通過語音活動檢測技 術判斷單通道音頻信號是否為語音信號。
[0090] 在一些可選的實現方式中,
[0091] 早期混響信號的聯合概率密度分布的方差可以為更新前的子帶濾波器的濾波器 系數的轉置矩陣與子帶濾波器的輸入信號向量的乘積與在t時刻接收到的單通道音頻信號 的譜系數xt,f之差的絕對值的平方。
[0092] 示例性地,早期混響信號的聯合概率密度分布的方差可以滿足:
[0093] crfj =]x(i/-^xjf,_〇/|2_
[0094] 其中,xt,f為在t時刻接收到的單通道音頻信號的譜系數,為更新前的子帶濾波 器的濾波器系數的轉置,為所述子帶濾波器的輸入信號向量;
[0095] 更新后的濾波器系數gf(t+l)為更新前的濾波器系數與更新變化量之和。其中,更 新變化量為第一更新變化參數和第二更新變化參數之比。第一更新變化參數為子帶濾波器 的迭代步長、子帶濾波器的實際輸出和期望輸出之間的誤差、以及子帶濾波器的輸入信號 向量的乘積。第二更新變化參數為子帶濾波器的輸入信號向量的轉置與子帶濾波器的輸入 信號向量的乘積。子帶濾波器的實際輸出與期望輸出之間的誤差等于在t時刻接收到的單 通道音頻信號的譜系數與t時刻的早期混響信號的聯合概率密度分布的方差之比減去更新 前的子帶濾波器的濾波器系數的轉置與子帶濾波器的輸入信號向量的乘積。
[0096] 示例性地,更新后的濾波器系數gf(t+l)可以滿足:
[0098] 其中,y為子帶濾波器的迭代步長,e(t)為子帶濾波器的實際輸出與期望輸出之間 的誤差e(t)滿足:
[0099] , -g] x.f, nfa
[0100] 在一些可選的實現方式中,解混響后的音頻信號dt,f等于在t時刻接收到的單通道 音頻信號的譜系數減去t+1時刻的子帶濾波器的濾波器系數的轉置與所述子帶濾波器的輸 入信號向量的乘積。
[0101 ]示例性地,解混響后的音頻信號dt,f可以滿足:
[0102] <, = Xf>/ - g} (f +1) x 元―。
[0103] 在一些可選的實現方式中,本實施例的音頻信號解混響裝置還可以進一步包括第 二更新模塊(圖中未示出)。
[0104] 第二更新模塊可配置用于若單通道音頻信號不是語音信號,則將更新前的早期混 響信號的聯合概率密度分布的方差和更新前的子帶濾波器的濾波器系數作為更新后的早 期混響信號的聯合概率密度分布的方差和更新后的子帶濾波器的濾波器系數。
[0105] 在一些可選的實現方式中,本實施例的音頻信號解混響裝置還可以進一步包括置 零模塊(圖中未示出)。
[0106] 置零模塊可配置用于判斷子帶濾波器的實際輸出與期望輸出之間的誤差是否滿 足誤差絕對值的平方大于在t時刻接收到的單通道音頻信號的譜系數的絕對值的平方與預 設閾值K的乘積。也即是說,判斷子帶濾波器的實際輸出與期望輸出之間的誤差e(t)是否滿 足|e(t)| 2>KX |xt,f|2;以及若是,則將濾波器系數置為零向量;其中,K為預先設置的閾值, 且滿足K>1。
[0107]本領域技術人員可以理解,上述音頻信號解混響裝置400還可以包括一些其他公 知結構,例如處理器、存儲器等,為了不必要地模糊本公開的實施例,這些公知的結構在圖4 中未示出。
[0108] 下面參考圖5,其示出了適于用來實現本申請實施例的終端設備或服務器的計算 機系統500的結構示意圖。
[0109] 如圖5所示,計算機系統500包括中央處理單元(CPU)501,其可以根據存儲在只讀 存儲器(R0M)502中的程序或者從存儲部分508加載到隨機訪問存儲器(RAM)503中的程序而 執行各種適當的動作和處理。在RAM 503中,還存儲有系統500操作所需的各種程序和數據。 CPU 501、R0M 502以及RAM 503通過總線504彼此相連。輸入/輸出(I/O)接口505也連接至總 線 504。
[0110]以下部件連接至I/O接口 505:包括鍵盤、鼠標等的輸入部分506;包括諸如陰極射 線管(CRT)、液晶顯示器(LCD)等以及揚聲器等的輸出部分507;包括硬盤等的存儲部分508; 以及包括諸如LAN卡、調制解調器等的網絡接口卡的通信部分509。通信部分509經由諸如因 特網的網絡執行通信處理。驅動器510也根據需要連接至I/O接口 505。可拆卸介質511,諸如 磁盤、光盤、磁光盤、半導體存儲器等等,根據需要安裝在驅動器510上,以便于從其上讀出 的計算機程序根據需要被安裝入存儲部分508。
[0111] 特別地,根據本公開的實施例,上文參考流程圖描述的過程可以被實現為計算機 軟件程序。例如,本公開的實施例包括一種計算機程序產品,其包括有形地包含在機器可讀 介質上的計算機程序,所述計算機程序包含用于執行流程圖所示的方法的程序代碼。在這 樣的實施例中,該計算機程序可以通過通信部分509從網絡上被下載和安裝,和/或從可拆 卸介質511被安裝。
[0112] 附圖中的流程圖和框圖,圖示了按照本申請各種實施例的系統、方法和計算機程 序產品的可能實現的體系架構、功能和操作。在這點上,流程圖或框圖中的每個方框可以代 表一個模塊、程序段、或代碼的一部分,所述模塊、程序段、或代碼的一部分包含一個或多個 用于實現規定的邏輯功能的可執行指令。也應當注意,在有些作為替換的實現中,方框中所 標注的功能也可以以不同于附圖中所標注的順序發生。例如,兩個接連地表示的方框實際 上可以基本并行地執行,它們有時也可以按相反的順序執行,這依所涉及的功能而定。也要 注意的是,框圖和/或流程圖中的每個方框、以及框圖和/或流程圖中的方框的組合,可以用 執行規定的功能或操作的專用的基于硬件的系統來實現,或者可以用專用硬件與計算機指 令的組合來實現。
[0113] 描述于本申請實施例中所涉及到的模塊可以通過軟件的方式實現,也可以通過硬 件的方式來實現。所描述的模塊也可以設置在處理器中,例如,可以描述為:一種處理器包 括獲取模塊、判斷模塊、第一更新模塊和確定模塊。其中,這些模塊的名稱在某種情況下并 不構成對該模塊本身的限定,例如,獲取模塊還可以被描述為"獲取單通道音頻信號的模 塊"。
[0114] 作為另一方面,本申請還提供了一種非易失性計算機存儲介質,該非易失性計算 機存儲介質可以是上述實施例中所述裝置中所包含的非易失性計算機存儲介質;也可以是 單獨存在,未裝配入終端中的非易失性計算機存儲介質。上述非易失性計算機存儲介質存 儲有一個或者多個程序,當一個或者多個程序被一個設備執行時,使得設備:獲取單通道音 頻信號,單通道音頻信號包括早期混響信號和晚期混響信號;判斷單通道音頻信號是否為 語音信號;若是,則更新早期混響信號的聯合概率密度分布的方差,并基于早期混響信號的 聯合概率密度分布的方差更新子帶濾波器的濾波器系數,其中,子帶濾波器用于濾除單通 道音頻信號中包含的晚期混響信號;以及基于更新后的濾波器系數確定解混響的單通道音 頻信號。
[0115] 以上描述僅為本申請的較佳實施例以及對所運用技術原理的說明。本領域技術人 員應當理解,本申請中所涉及的發明范圍,并不限于上述技術特征的特定組合而成的技術 方案,同時也應涵蓋在不脫離所述發明構思的情況下,由上述技術特征或其等同特征進行 任意組合而形成的其它技術方案。例如上述特征與本申請中公開的(但不限于)具有類似功 能的技術特征進行互相替換而形成的技術方案。
【主權項】
1. 一種音頻信號解混響方法,其特征在于,包括: 獲取單通道音頻信號,所述單通道音頻信號包括早期混響信號和晚期混響信號; 判斷所述單通道音頻信號是否為語音信號; 若是,則更新所述早期混響信號的聯合概率密度分布的方差,并基于所述早期混響信 號的聯合概率密度分布的方差更新子帶濾波器的濾波器系數,其中,所述子帶濾波器用于 濾除所述單通道音頻信號中包含的晚期混響信號;以及 基于更新后的所述濾波器系數確定解混響的單通道音頻信號。2. 根據權利要求1所述的方法,其特征在于,所述判斷所述單通道音頻信號是否為語音 信號包括: 通過語音活動檢測技術判斷所述單通道音頻信號是否為語音信號。3. 根據權利要求1所述的方法,其特征在于: 所述早期混響信號的聯合概率密度分布的方差為更新前的所述子帶濾波器的濾波器 系數的轉置矩陣與所述子帶濾波器的輸入信號向量的乘積與在t時刻接收到的單通道音頻 信號的譜系數xt,f之差的絕對值的平方; 更新后的濾波器系數gf(t+l)為更新前的濾波器系數與更新變化量之和; 其中,所述更新變化量為第一更新變化參數和第二更新變化參數之比; 所述第一更新變化參數為所述子帶濾波器的迭代步長、所述子帶濾波器的實際輸出和 期望輸出之間的誤差、以及所述子帶濾波器的輸入信號向量的乘積; 所述第二更新變化參數為所述子帶濾波器的輸入信號向量的轉置與所述子帶濾波器 的輸入信號向量的乘積; 所述子帶濾波器的實際輸出與期望輸出之間的誤差等于在t時刻接收到的單通道音頻 信號的譜系數與t時刻的早期混響信號的聯合概率密度分布的方差之比減去更新前的所述 子帶濾波器的濾波器系數的轉置與所述子帶濾波器的輸入信號向量的乘積。4. 根據權利要求1所述的方法,其特征在于,所述解混響后的音頻信號dt,f等于在t時刻 接收到的單通道音頻信號的譜系數減去t+Ι時刻的子帶濾波器的濾波器系數的轉置與所述 子帶濾波器的輸入信號向量的乘積。5. 根據權利要求1-4任意一項所述的方法,其特征在于,在所述判斷所述單通道音頻信 號是否為語音信號之后,所述方法還包括: 若否,則將更新前的所述早期混響信號的聯合概率密度分布的方差和更新前的子帶濾 波器的濾波器系數作為所述更新后的早期混響信號的聯合概率密度分布的方差和更新后 的子帶濾波器的濾波器系數。6. 根據權利要求1-4任意一項所述的方法,其特征在于,所述方法還包括: 判斷所述子帶濾波器的實際輸出與期望輸出之間的誤差是否滿足誤差絕對值的平方 大于在t時刻接收到的單通道音頻信號的譜系數的絕對值的平方與預設閾值K的乘積; 若是,則將所述濾波器系數置為零向量; 其中,K>1。7. -種音頻信號解混響裝置,其特征在于,包括: 獲取模塊,配置用于獲取單通道音頻信號,所述單通道音頻信號包括早期混響信號和 晚期混響信號; 判斷模塊,配置用于判斷所述單通道音頻信號是否為語音信號; 第一更新模塊,配置用于若所述單通道音頻信號為語音信號,則更新所述早期混響信 號的聯合概率密度分布的方差,并基于所述早期混響信號的聯合概率密度分布的方差更新 子帶濾波器的濾波器系數,其中,所述子帶濾波器用于濾除所述單通道音頻信號中包含的 晚期混響信號;以及 確定模塊,配置用于基于更新后的所述濾波器系數確定解混響的單通道音頻信號。8. 根據權利要求7所述的裝置,其特征在于,所述判斷模塊進一步配置用于: 通過語音活動檢測技術判斷所述單通道音頻信號是否為語音信號。9. 根據權利要求7所述的裝置,其特征在于: 所述早期混響信號的聯合概率密度分布的方差為: 更新前的所述子帶濾波器的濾波器系數的轉置矩陣與所述子帶濾波器的輸入信號向 量的乘積與在t時刻接收到的單通道音頻信號的譜系數xt,f之差的絕對值的平方; 更新后的濾波器系數gf(t+l)為更新前的濾波器系數與更新變化量之和; 其中,所述更新變化量為第一更新變化參數和第二更新變化參數之比; 所述第一更新變化參數為所述子帶濾波器的迭代步長、所述子帶濾波器的實際輸出和 期望輸出之間的誤差、以及所述子帶濾波器的輸入信號向量的乘積; 所述第二更新變化參數為所述子帶濾波器的輸入信號向量的轉置與所述子帶濾波器 的輸入信號向量的乘積; 所述子帶濾波器的實際輸出與期望輸出之間的誤差等于在t時刻接收到的單通道音頻 信號的譜系數與t時刻的早期混響信號的聯合概率密度分布的方差之比減去更新前的所述 子帶濾波器的濾波器系數的轉置與所述子帶濾波器的輸入信號向量的乘積。10. 根據權利要求7所述的裝置,其特征在于,所述解混響后的音頻信號dt,f等于在t時 刻接收到的單通道音頻信號的譜系數減去t+Ι時刻的子帶濾波器的濾波器系數的轉置與所 述子帶濾波器的輸入信號向量的乘積。11. 根據權利要求7-10任意一項所述的裝置,其特征在于,所述裝置還包括第二更新模 塊; 所述第二更新模塊配置用于若所述單通道音頻信號不是語音信號,則將更新前的所述 早期混響信號的聯合概率密度分布的方差和更新前的子帶濾波器的濾波器系數作為所述 更新后的早期混響信號的聯合概率密度分布的方差和更新后的子帶濾波器的濾波器系數。12. 根據權利要求7-10任意一項所述的裝置,其特征在于,所述裝置還包括置零模塊; 所述置零模塊配置用于判斷所述子帶濾波器的實際輸出與期望輸出之間的誤差是否 滿足誤差絕對值的平方大于在t時刻接收到的單通道音頻信號的譜系數的絕對值的平方與 預設閾值K的乘積;以及 若是,則將所述濾波器系數置為零向量; 其中,K>1。
【文檔編號】G10L19/02GK105931648SQ201610474006
【公開日】2016年9月7日
【申請日】2016年6月24日
【發明人】崔瑋瑋, 宋輝, 徐楊飛
【申請人】百度在線網絡技術(北京)有限公司