背景技術:
1、本說明書涉及使用機器學習模型來處理數據。
2、機器學習模型接收輸入并基于接收到的輸入來生成輸出,例如預測輸出。一些機器學習模型是參數模型,并且基于接收到的輸入并基于模型的參數的值來生成輸出。
3、一些機器學習模型是深度模型,深度模型采用多層模型來為接收到的輸入生成輸出。例如,深度神經網絡是一種深度機器學習模型,該深度機器學習模型包括輸出層和一個或多個隱藏層,一個或多個隱藏層各自將非線性變換應用于接收到的輸入以生成輸出。
技術實現思路
1、本說明書總體上描述了一種在一個或多個位置中的一個或多個計算機上實現為計算機程序用于聯合地訓練編碼器神經網絡和解碼器神經網絡的訓練系統。
2、根據第一方面,提供了一種由一個或多個計算機執行的方法,該方法包括:獲得第一初始音頻波形和第一有噪聲的音頻波形,其中該第一有噪聲的音頻波形是通過將第一噪聲參數集應用于該第一初始音頻波形而生成的;獲得第二初始音頻波形和第二有噪聲的音頻波形,其中該第二有噪聲的音頻波形是通過將第二噪聲參數集應用于該第二初始音頻波形而生成的;以及使用編碼器神經網絡來處理該第一有噪聲的音頻波形和該第二有噪聲的音頻波形。編碼器神經網絡被配置為處理輸入音頻波形以生成輸入音頻波形的嵌入。輸入音頻波形的嵌入包括多個特征維度,其中特征維度包括:(i)被指定為干凈特征維度的特征維度集,以及(ii)被指定為噪聲特征維度的特征維度集。
3、該方法還包括:通過連結以下來生成混合嵌入:(i)來自第一有噪聲的音頻波形的嵌入的干凈特征維度,以及(ii)來自第二有噪聲的音頻波形的嵌入的噪聲特征維度;使用解碼器神經網絡來處理該混合嵌入,以生成重構音頻波形;確定目標函數的梯度,該目標函數測量以下之間的誤差:(i)該重構音頻波形,以及(ii)通過將第二噪聲參數集應用于第一初始音頻波形而生成的音頻波形;以及使用梯度來更新編碼器神經網絡和解碼器神經網絡的參數值。
4、在一些實現方式中,第一噪聲參數集包括第一噪聲波形。
5、在一些實現方式中,將第一噪聲參數集應用于第一初始音頻波形包括:將第一噪聲波形加到第一初始音頻波形。
6、在一些實現方式中,將第一噪聲參數集應用于第一初始音頻波形包括:將第一噪聲波形與第一初始音頻波形進行卷積。
7、在一些實現方式中,目標函數通過多尺度頻譜重構損失來測量以下之間的誤差:(i)重構音頻波形,以及(ii)通過將第二噪聲參數集應用于第一初始音頻波形而生成的音頻波形。
8、在一些實現方式中,被指定為干凈特征維度的特征維度集與被指定為噪聲特征維度的特征維度集不相交。
9、在一些實現方式中,輸入音頻波形的嵌入包括表示輸入音頻波形的多個特征矢量,其中每個特征矢量包括:(i)被指定為干凈特征維度的特征維度集,以及(ii)被指定為噪聲特征維度的特征維度集。
10、在一些實現方式中,生成混合嵌入包括對混合嵌入進行矢量量化。
11、在一些實現方式中,對混合嵌入進行矢量量化包括:使用第一矢量量化器來對混合嵌入的干凈特征維度進行矢量量化;以及使用第二矢量量化器來對混合嵌入的噪聲特征維度進行矢量量化。
12、在一些實現方式中,第一初始音頻波形和第二初始音頻波形是語音波形或音樂波形。
13、在一些實現方式中,編碼器神經網絡和解碼器神經網絡具有相應的卷積神經網絡架構。
14、在一些實現方式中,該方法還包括:
15、在一些實現方式中,使用鑒別器神經網絡來處理從重構音頻波形導出的數據,以生成一個或多個鑒別器分數的集,其中每個鑒別器分數表征重構音頻波形是使用編碼器神經網絡和解碼器神經網絡來生成的估計可能性,其中目標函數還包括取決于由鑒別器神經網絡生成的鑒別器分數的對抗性損失。
16、在一些實現方式中,目標函數測量以下之間的誤差:(i)由鑒別器神經網絡通過處理重構音頻波形而生成的一個或多個中間輸出,以及(ii)由鑒別器神經網絡通過處理通過將第二噪聲參數集應用于第一初始音頻波形而生成的音頻波形而生成的一個或多個中間輸出。
17、在一些實現方式中,該方法還包括:獲得第三初始音頻波形和第三有噪聲的音頻波形,其中該第三有噪聲的音頻波形是通過將第三噪聲參數集應用于該第三初始音頻波形而生成;使用編碼器神經網絡來處理該第三有噪聲的音頻波形,以生成該第三有噪聲的音頻波形的嵌入;通過將該第三有噪聲的音頻波形的該嵌入的噪聲特征維度的值設置為默認值來生成干凈嵌入;使用解碼器神經網絡來處理該干凈嵌入,以生成重構音頻波形;確定目標函數的梯度,該目標函數測量以下之間的誤差:(i)該重構音頻波形,以及(ii)該第三初始音頻波形;以及使用梯度來更新編碼器神經網絡和解碼器神經網絡的參數值。
18、在一些實現方式中,通過將第三有噪聲的音頻波形的嵌入的噪聲特征維度的值設置為默認值來生成干凈嵌入包括:將第三有噪聲的音頻波形的嵌入的噪聲特征維度的值設置為零。
19、在一些實現方式中,該方法還包括:獲得第四音頻波形;使用編碼器神經網絡來處理該第四音頻波形,以生成該第四音頻波形的嵌入;處理該第四音頻波形的該嵌入,以生成重構音頻波形;確定目標函數的梯度,該目標函數測量以下之間的誤差:(i)該重構音頻波形,以及(ii)該第四音頻波形;以及使用梯度來更新編碼器神經網絡和解碼器神經網絡的參數值。
20、在一些實現方式中,確定測量以下之間的誤差的目標函數的梯度:(i)重構音頻波形,以及(ii)通過將第二噪聲參數集應用于第一初始音頻波形而生成的音頻波形,包括:將該目標函數的梯度反向傳播通過解碼器神經網絡并且到編碼器神經網絡中。
21、在一些實現方式中,使用梯度來更新編碼器神經網絡和解碼器神經網絡的參數值包括:根據梯度下降優化技術使用梯度來更新編碼器神經網絡和解碼器神經網絡的參數值。
22、根據第二方面,提供了一種由一個或多個計算機執行的方法,該方法包括:獲得音頻波形;使用已經根據任一前述方面的相應方法進行訓練的編碼器神經網絡來處理該音頻波形,以生成該音頻波形的嵌入;對該音頻波形的該嵌入進行矢量量化;以及壓縮該音頻波形的量化嵌入。
23、在一些實現方式中,該方法還包括:在壓縮音頻波形的量化表示之前:移除音頻波形的嵌入的噪聲特征維度。
24、在一些實現方式中,該方法還包括:在壓縮音頻波形的量化表示之前:縮放音頻波形的嵌入的噪聲特征維度。
25、在一些實現方式中,壓縮音頻波形的量化嵌入包括:以比音頻波形的量化嵌入的噪聲特征維度更高的比特率來壓縮音頻波形的量化嵌入的干凈特征維度。
26、在一些實現方式中,壓縮音頻波形的量化嵌入包括:使用熵編碼技術來壓縮音頻波形的量化嵌入。
27、根據第三方面,提供了一種由一個或多個計算機執行的方法,該方法包括:接收音頻波形的由根據任一前述方面的相應方法生成的壓縮的量化嵌入;解壓縮該音頻波形的該壓縮的量化嵌入;以及使用已經根據任一前述方面的相應方法進行訓練的解碼器神經網絡來處理該音頻波形的該量化嵌入,以生成該音頻波形的重構。
28、根據第四方面,提供了一種由一個或多個計算機執行的方法,該方法包括:獲得音頻波形;使用編碼器神經網絡來處理該音頻波形,以生成該音頻波形的嵌入,其中該嵌入包括:(i)被指定為表示該音頻波形中的初始音頻信號的干凈特征維度的特征維度集,以及(ii)被指定為表示該音頻波形中的有噪聲的音頻信號的噪聲特征維度的特征維度集;修改該音頻波形的該嵌入的噪聲特征維度;在修改該音頻波形的該嵌入的噪聲特征維度之后,對該音頻波形的該嵌入進行矢量量化;以及壓縮該音頻波形的量化嵌入。
29、在一些實現方式中,修改音頻波形的嵌入的噪聲特征維度包括:移除音頻波形的嵌入的噪聲特征維度。
30、在一些實現方式中,修改音頻波形的嵌入的噪聲特征維度包括:縮放音頻波形的嵌入的噪聲特征維度。
31、根據第五方面,提供了一種由一個或多個計算機執行的方法,該方法包括:獲得音頻波形的壓縮的量化嵌入;解壓縮該音頻波形的該壓縮的量化嵌入,其中該音頻波形的該量化嵌入包括:(i)被指定為表示該音頻波形中的初始音頻信號的干凈特征維度的矢量量化特征維度集,以及(ii)被指定為表示該音頻波形中的有噪聲的音頻信號的噪聲特征維度的矢量量化特征維度集;以及使用解碼器神經網絡來處理該音頻波形的該量化嵌入,以生成該音頻波形的重構。
32、根據第六方面,提供了一種系統,包括:一個或多個計算機;以及一個或多個存儲裝置,其通信地耦合到一個或多個計算機,其中一個或多個存儲裝置存儲指令,指令在由一個或多個計算機執行時,使一個或多個計算機執行根據任一前述方面的方法的操作。
33、根據第七方面,提供了一種或多種非暫時性計算機存儲介質,存儲指令,指令在由一個或多個計算機執行時,使一個或多個計算機執行根據任一前述方面的方法的操作。
34、可在特定實施例中實現本說明書中描述的主題,以便實現以下優點中的一個或多個優點。
35、在本說明書中描述的訓練系統可訓練編碼器神經網絡,以在結構化潛在空間(即,包括“干凈”特征維度集和“噪聲”特征維度集的潛在空間)中生成音頻波形的嵌入。音頻波形的嵌入的干凈特征維度可表示包括在音頻波形中的干凈音頻信號,即,音頻波形中的已經移除噪聲(例如,背景噪聲或混響效應)的一部分。音頻波形的嵌入的噪聲特征維度可表示包括在音頻波形中的有噪聲的音頻信號,即,音頻波形的表示噪聲的一部分。因此,結構化潛在空間的特征維度是可解釋的、解開的,并且與音頻波形的語義上有意義的屬性相關。因此,訓練系統提供能夠對數字音頻信號進行去噪的編碼器神經網絡。
36、訓練系統可使用無監督學習技術(即,不需要用語義特征來對輸入音頻信號加標簽,例如通過手動加標簽)來訓練編碼器神經網絡以及解碼器神經網絡。相反,訓練系統可在通過將噪聲參數應用于初始音頻波形以自動方式生成的訓練示例上訓練編碼器神經網絡和解碼器神經網絡。訓練系統因此能夠更有效率地使用存儲器資源,例如,例如如果訓練系統是使用監督學習技術進行訓練則存儲手動標簽原本所需的存儲器資源。
37、一旦經過訓練,編碼器神經網絡可在壓縮音頻波形的壓縮系統中實現,并且解碼器神經網絡可在解壓縮音頻波形的解壓縮系統中實現。結構化潛在空間能夠使能更有效率地存儲壓縮音頻波形(例如,通過減少存儲壓縮音頻波形所需的存儲器的量)并且更有效率地傳輸壓縮音頻波形(例如,通過減少通過數據通信網絡傳輸壓縮音頻波形所需的帶寬的量)。例如,壓縮系統可移除音頻波形的噪聲特征維度作為壓縮音頻波形的一部分,或者壓縮系統可以比音頻波形的干凈特征維度更低的比特率來壓縮音頻波形的噪聲特征維度。
38、在以下附圖和說明書中闡述了本說明書的主題的一個或多個實施例的細節。根據所述描述、附圖和權利要求書,本主題的其他特征、方面和優點將變得顯而易見。