本申請實施例涉及音頻處理,尤其涉及一種音頻降噪方法、裝置、設備、存儲介質及產品。
背景技術:
1、在網絡直播、音視頻通話過程中,噪聲會導致用戶無法聽清對方的音頻信息。為了提高用戶的使用體驗,麥克風采集的音頻需要在保留人聲、音樂等有效信號的基礎上抑制噪聲,提高音頻清晰度。傳統降噪算法一般通過噪聲估計對穩態噪聲進行有效抑制,在非穩態噪聲和瞬態噪聲場景表現較差。而ai(artificial?intelligence,人工智能)降噪算法以數據為驅動,利用神經網絡學習人聲、音樂、噪聲各自的特性,能應對各類復雜噪聲場景。
2、智能降噪算法通常以帶噪幅度譜或者帶噪復數譜為輸入,利用神經網絡估計降噪幅度譜或者降噪復數譜,以干凈信號為學習目標進行迭代更新。為了保證降噪效果,智能降噪模型往往具有較大的參數量和計算量,難以直接應用于移動端實時任務。知識蒸餾通過教師模型和真實標簽引導訓練,使得輕量化的學生模型收斂至與教師模型相近的效果,但是要求教師模型足夠強大以產生高質量的訓練數據,且學生模型不一定能掌握教師模型的所有知識,局限性較大。
技術實現思路
1、本申請實施例提供一種音頻降噪方法、裝置、設備、存儲介質及產品,以解決移動端平臺中ai小模型音頻降噪效果較差的技術問題,可有效提高移動端實時音頻降噪效果。
2、在第一方面,本申請實施例提供了一種音頻降噪方法,包括:
3、獲取待降噪音頻;
4、將所述待降噪音頻發送至訓練完成的音頻降噪模型,通過所述音頻降噪模型對所述待降噪音頻進行編碼處理得到音頻編碼信息;
5、通過所述音頻降噪模型中多個基于不同設定學習路線訓練得到的信息建模及解碼分支,獲取所述音頻編碼信息在多個所述設定學習路線對應的建模信息以及解碼信息,并對所述建模信息進行解碼處理得到掩膜信息,其中,所述信息建模及解碼分支包括多個基于不同設定音頻特征標簽漸進式配置的信息建模子分支及解碼子分支;
6、通過所述音頻降噪模型,根據所述掩膜信息和所述解碼信息對所述待降噪音頻進行降噪處理得到降噪音頻。
7、在第二方面,本申請實施例提供了一種音頻降噪裝置,包括音頻獲取模塊、音頻編碼模塊、音頻分析模塊和音頻降噪模塊,其中:
8、所述音頻獲取模塊,配置為獲取待降噪音頻;
9、所述音頻編碼模塊,配置為將所述待降噪音頻發送至訓練完成的音頻降噪模型,通過所述音頻降噪模型對所述待降噪音頻進行編碼處理得到音頻編碼信息;
10、所述音頻分析模塊,配置為通過所述音頻降噪模型中多個基于不同設定學習路線訓練得到的信息建模及解碼分支,獲取所述音頻編碼信息在多個所述設定學習路線對應的建模信息以及解碼信息,并對所述建模信息進行解碼處理得到掩膜信息,其中,所述信息建模及解碼分支包括多個基于不同設定音頻特征標簽漸進式配置的信息建模子分支及解碼子分支;
11、所述音頻降噪模塊,配置為通過所述音頻降噪模型,根據所述掩膜信息和所述解碼信息對所述待降噪音頻進行降噪處理得到降噪音頻。
12、在第三方面,本申請實施例提供了一種音頻降噪設備,包括:存儲器以及一個或多個處理器;
13、所述存儲器,用于存儲一個或多個程序;
14、當所述一個或多個程序被所述一個或多個處理器執行,使得所述一個或多個處理器實現如第一方面所述的音頻降噪方法。
15、在第四方面,本申請實施例提供了一種存儲計算機可執行指令的非易失性存儲介質,所述計算機可執行指令在由計算機處理器執行時用于執行如第一方面所述的音頻降噪方法。
16、在第五方面,本申請實施例提供了一種計算機程序產品,該計算機程序產品包括計算機程序,該計算機程序存儲在計算機可讀存儲介質中,設備的至少一個處理器從計算機可讀存儲介質讀取并執行計算機程序,使得設備執行如第一方面所述的音頻降噪方法。
17、本申請實施例通過音頻降噪模型對待降噪音頻進行編碼處理得到音頻編碼信息,利用多個基于不同設定學習路線訓練得到的信息建模及解碼分支,獲取音頻編碼信息在多個設定學習路線對應的建模信息以及解碼信息,并對建模信息進行解碼處理得到掩膜信息,根據掩膜信息和解碼信息對待降噪音頻進行降噪處理得到降噪音頻,其中,信息建模及解碼分支包括多個基于不同設定音頻特征標簽漸進式配置的信息建模子分支及解碼子分支。音頻降噪過程接受多個設定音頻特征標簽的循序漸進的指導,從不同設定學習路線逐漸加深對帶噪音頻的理解,輸出更干凈的降噪音頻,有效提高音頻降噪效果。
1.一種音頻降噪方法,其特征在于,包括:
2.根據權利要求1所述的音頻降噪方法,其特征在于,所述通過所述音頻降噪模型中多個基于不同設定學習路線訓練得到的信息建模及解碼分支,獲取所述音頻編碼信息在多個所述設定學習路線對應的建模信息以及解碼信息,包括:
3.根據權利要求1所述的音頻降噪方法,其特征在于,所述解碼信息包括信號活躍度檢測信息、聲音事件檢測信息、信噪比信息和基頻諧波信息中的一種或多種的組合。
4.根據權利要求1所述的音頻降噪方法,其特征在于,所述對所述建模信息進行解碼處理得到掩膜信息,包括:
5.根據權利要求1所述的音頻降噪方法,其特征在于,所述對所述建模信息進行解碼處理得到掩膜信息,包括:
6.根據權利要求5所述的音頻降噪方法,其特征在于,所述根據所述解碼信息對所述第一掩膜信息進行調整,得到第二掩膜信息,包括:
7.根據權利要求6所述的音頻降噪方法,其特征在于,所述根據所述音頻特征信息對所述第一掩膜信息進行調整,得到第二掩膜信息,包括:
8.根據權利要求5所述的音頻降噪方法,其特征在于,所述根據所述解碼信息對所述第一掩膜信息進行調整,得到第二掩膜信息,包括:
9.根據權利要求1所述的音頻降噪方法,其特征在于,所述音頻降噪模型的訓練步驟包括:
10.一種音頻降噪裝置,其特征在于,包括音頻獲取模塊、音頻編碼模塊、音頻分析模塊和音頻降噪模塊,其中:
11.一種音頻降噪設備,其特征在于,包括:存儲器以及一個或多個處理器;
12.一種存儲計算機可執行指令的非易失性存儲介質,其特征在于,所述計算機可執行指令在由計算機處理器執行時用于執行如權利要求1-9任一項所述的音頻降噪方法。
13.一種計算機程序產品,包括計算機程序,其特征在于,所述計算機程序被處理器執行時實現權利要求1-9任一項所述的音頻降噪方法。