本申請涉及音頻處理領域,具體而言,涉及一種聲音轉換方法、裝置、電子設備及計算機可讀存儲介質。
背景技術:
1、聲音轉換是指將源聲音轉換成目標聲音,同時需要保留原詞、旋律、節奏、情感等信息。
2、現有的聲音轉換技術在轉換效果、音質和自然性方面仍存在較大的提升空間,當前的聲音轉換技術,使用的音頻特征很難剝離原聲音者信息,存在音色泄露問題,導致最終生成音色與目標音色相似度低。
技術實現思路
1、有鑒于此,本申請實施例的目的在于提供一種聲音轉換方法、裝置、電子設備及計算機可讀存儲介質,能夠顯著提升轉換聲音的音質和音色相似性。
2、第一方面,本申請實施例提供了一種聲音轉換方法,包括:預處理原始音頻;提取預處理后的原始音頻中的關鍵特征;通過自回歸模型根據所述關鍵特征和參考音頻,將所述關鍵特征轉換為參考特征;其中,所述參考特征為帶有參考音頻音色和韻律的聲學特征;基于所述參考特征輸出目標聲音。
3、在上述實現過程中,由于自回歸生成算法能夠極大程度增加原始音頻與參考音頻音色相似度,并且減少聲音失真情況,通過采用自回歸模型將原始音頻轉換為目標聲音,可以實現高質量聲音轉換,顯著提升轉換聲音的音質和音色相似性。
4、在一個實施例中,所述通過自回歸模型根據所述關鍵特征和參考音頻,將所述關鍵特征轉換為參考特征,包括:將所述關鍵特征和所述參考音頻經離散后的特征作為所述自回歸模型的輸入;在每個時間步,通過自注意力機制和多頭注意力機制,生成下一時刻的輸出;將所述輸出轉換為設定表示格式;在轉換為設定表示格式的輸出達到預設條件的情況下,停止生成所述輸出。
5、在上述實現過程中,通過采用自回歸模型將原始音頻轉換為目標聲音,可以實現高質量聲音轉換,顯著提升轉換聲音的音質和音色相似性。
6、在一個實施例中,其中,所述自回歸模型包括:三個殘差連接及歸一化層、前饋神經網絡層、多頭注意力層、多頭自注意力層以及位置編碼;所述多頭自注意力層的輸入端設置有所述位置編碼;所述位置編碼配置為提供輸入序列中每個位置的位置信息;所述多頭自注意力層配置為尋找所述關鍵特征和所述參考音頻的依賴關系,以及在每個時間步上對輸入序列的不同位置進行并行計算;所述多頭自注意力層、所述多頭注意力層和所述前饋神經網絡層的輸出端分別設置一個所述殘差連接及歸一化層;所述多頭注意力層配置為并行計算多個注意力頭,以學習不同特征空間中的關系;所述前饋神經網絡層配置為在每個時間步將注意力輸出映射到輸出的概率分布;所述多頭注意力層和所述前饋神經網絡層均設置在兩個所述殘差連接及歸一化層之間,且所述多頭注意力層設置在所述前饋神經網絡層前端;所述殘差連接及歸一化層配置為轉化每一層神經元的輸入。
7、在上述實現過程中,通過設置自回歸模型包括三個殘差連接及歸一化層、前饋神經網絡層、多頭注意力層、多頭自注意力層以及位置編碼,以分別通過各個網絡層對關鍵特征和參考音頻進行處理,以實現將原始音頻轉換為目標聲音,增加了轉換后的目標聲音與參考音頻音色的相似度,提高轉換質量。
8、在一個實施例中,其中,在每個時間步,通過自注意力機制和多頭注意力機制,生成下一時刻的輸出的計算公式為:;其中,為自回歸模型的參數,是離散化音頻特征序列在時刻的觀測聲學特征值,是音頻的關鍵特征,為輸出,為音頻的序列長度。
9、在一個實施例中,所述通過自回歸模型根據所述關鍵特征和參考音頻,將所述關鍵特征轉換為參考特征之前,所述方法還包括:提取預處理后的原始音頻的信號特征;分離出所述信號特征中的人聲信號;重構分離出的人聲信號,得到人聲波形信息;所述提取預處理后的原始音頻中的關鍵特征,包括:提取所述人聲波形信息中的關鍵特征。
10、在上述實現過程中,通過先對預處理后的原始音頻進行降噪處理,減少提取到的人聲信息中的其他噪聲,可以使得聲音轉換具有噪聲魯棒性,支持帶噪聲音轉換,可以提高該聲音轉換方法的應用范圍。
11、在一個實施例中,所述關鍵特征包括:梅爾頻譜特征、自編碼特征、向量化特征以及音高特征。
12、在上述實現過程中,通過提取原始音頻的梅爾頻譜特征、自編碼特征、向量化特征以及音高特征等關鍵特征,可以通過關鍵特征準確的反應出原始音頻的特征,提高聲音轉換的準確性。
13、在一個實施例中,所述預處理原始音頻,包括:使用音頻工具去除所述原始音頻中的背景音;對去除背景音后的原始音頻進行幅值歸一化處理。
14、在上述實現過程中,在提取原始音頻中的關鍵特征之前,先對原始音頻特征進行預處理,可以減少進行關鍵特征提取的原始音頻中的背景音,同時使得進行關鍵特征提取的原始音頻具有統一的尺度范圍,降低關鍵特征提取難度。
15、第二方面,本申請實施例還提供一種聲音轉換裝置,包括:預處理模塊,用于預處理原始音頻;特征提取模塊,用于提取預處理后的原始音頻中的關鍵特征;轉換模塊,用于通過自回歸模型根據所述關鍵特征和參考音頻,將所述關鍵特征轉換為參考特征;其中,所述參考特征為帶有參考音頻音色和韻律的聲學特征;輸出模塊,用于基于所述參考特征輸出目標聲音。
16、第三方面,本申請實施例還提供一種電子設備,包括:處理器、存儲器,所述存儲器存儲有所述處理器可執行的機器可讀指令,當電子設備運行時,所述機器可讀指令被所述處理器執行時執行上述第一方面,或第一方面的任一種可能的實施方式中的方法的步驟。
17、第四方面,本申請實施例還提供一種計算機可讀存儲介質,該計算機可讀存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執行上述第一方面,或第一方面的任一種可能的實施方式中聲音轉換方法的步驟。
18、為使本申請的上述目的、特征和優點能更明顯易懂,下文特舉實施例,并配合所附附圖,作詳細說明如下。
1.一種聲音轉換方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述通過自回歸模型根據所述關鍵特征和參考音頻,將所述關鍵特征轉換為參考特征,包括:
3.根據權利要求2所述的方法,其特征在于,其中,所述自回歸模型包括:三個殘差連接及歸一化層、前饋神經網絡層、多頭注意力層、多頭自注意力層以及位置編碼;
4.根據權利要求1所述的方法,其特征在于,其中,在每個時間步,通過自注意力機制和多頭注意力機制,生成下一時刻的輸出的計算公式為:
5.根據權利要求1-4任意一項所述的方法,其特征在于,所述通過自回歸模型根據所述關鍵特征和參考音頻,將所述關鍵特征轉換為參考特征之前,所述方法還包括:
6.根據權利要求1-4任意一項所述的方法,其特征在于,其中,所述關鍵特征包括:梅爾頻譜特征、自編碼特征、向量化特征以及音高特征。
7.根據權利要求1-4任意一項所述的方法,其特征在于,所述預處理原始音頻,包括:
8.一種聲音轉換裝置,其特征在于,包括:
9.一種電子設備,其特征在于,包括:處理器、存儲器,所述存儲器存儲有所述處理器可執行的機器可讀指令,當電子設備運行時,所述機器可讀指令被所述處理器執行時執行如權利要求1至7任一所述的方法的步驟。
10.一種計算機可讀存儲介質,其特征在于,該計算機可讀存儲介質上存儲有計算機程序,該計算機程序被處理器運行時執行如權利要求1至7任一所述的方法的步驟。