本申請涉及人工智能,具體涉及一種聲紋更新方法、裝置、設備和存儲介質。
背景技術:
1、眾包客服是一種采用互聯網平臺聚合服務人員,通過在線平臺與客戶交互的業務模式。在眾包平臺客服人員管理中,需要對眾包會員每日通話語音進行身份確認,以保證服務質量和安全性。聲紋識別作為一種生物特征識別技術,已廣泛應用于基于語音交互的客服領域,如金融客服、運營商人工客服等。
2、現有聲紋認證系統的注冊模型通常為通過朗讀固定文本進行數據采集,采集后一般永久使用。然而,人的聲音特征會隨年齡變化、個人身體狀況變化(如感冒等)而改變;同時通過固定場景、固定設備下收集的注冊音往往和實際生產應用中存在信道差異、環境差異,這些差異會帶來聲紋比對中的域不匹配問題,從而影響聲紋應用效果。
3、因此,如何在保證聲紋認證穩定性的情況下更新注冊音成為亟待解決的問題。
技術實現思路
1、本發明提供一種聲紋更新方法、裝置、設備和存儲介質,用以解決現有技術中聲紋識別效果隨時間推移難以保證的技術問題。
2、本發明提供一種聲紋更新方法,包括:
3、對若干個音頻進行切分,得到多個人聲片段,所述若干個音頻是一個客戶在預置周期時長內的通話語音;
4、基于預置聚類終止條件對各所述人聲片段和原注冊音進行聚類,所述原注冊音是所述客戶的現有注冊聲紋,所述預置聚類終止條件是所述原注冊音所在簇的人聲片段時長總和達到注冊音時長閾值;
5、對拼接音頻進行特征提取,得到拼接聲紋特征,所述拼接音頻是對所述原注冊音所在簇的人聲片段進行拼接得到的;
6、基于所述原注冊音和所述拼接聲紋特征的比對結果更新所述原注冊音。
7、根據本發明提供的一種聲紋更新方法,所述基于預置聚類終止條件對各所述人聲片段和原注冊音進行聚類,包括:
8、將各所述人聲片段分別作為一個簇,并將所述原注冊音劃分為一個簇;
9、合并距離最近的兩個簇,直至所述原注冊音所在簇滿足所述預置聚類終止條件。
10、根據本發明提供的一種聲紋更新方法,所述合并距離最近的兩個簇,包括:
11、計算各個簇之間的距離,得到多個簇間距離;
12、將最小簇間距離對應的兩個簇進行合并,所述最小簇間距離是各所述簇間距離中的最小值。
13、根據本發明提供的一種聲紋更新方法,所述計算各個簇之間的距離,得到多個簇間距離,包括:
14、確定各簇的中心點,所述中心點是簇中各音頻片段的均值;
15、計算各所述中心點間的距離,得到多個簇間距離。
16、根據本發明提供的一種聲紋更新方法,所述對所述原注冊音所在簇的人聲片段進行拼接,包括:
17、基于各所述人聲片段在原始音頻中的相對順序,對各所述音頻片段進行拼接,得到拼接音頻。
18、根據本發明提供的一種聲紋更新方法,所述對若干個音頻進行切分,得到多個人聲片段,包括:
19、使用語音活動檢測算法對各所述音頻進行識別,以確定各所述音頻中的語音片段和非語音片段;
20、提取各所述音頻中的語音片段,得到多個人聲片段。
21、根據本發明提供的一種聲紋更新方法,所述基于所述原注冊音和所述拼接聲紋特征的比對結果更新所述原注冊音,包括:
22、將所述拼接聲紋特征與所述原注冊音進行比對,得到相似性分值;
23、若所述相似性分值大于相似性分值閾值,則使用所述拼接聲紋特征替換所述原注冊音;
24、若所述相似性分值小于或等于所述相似性分值閾值,則保留所述原注冊音。
25、本發明還提供一種聲紋更新裝置,包括:
26、音頻切分模塊,用于:對若干個音頻進行切分,得到多個人聲片段,所述若干個音頻是一個客戶在預置周期時長內的通話語音;
27、片段聚類模塊,用于:基于預置聚類終止條件對各所述人聲片段和原注冊音進行聚類,所述原注冊音是所述客戶的現有注冊聲紋,所述預置聚類終止條件是所述原注冊音所在簇的人聲片段時長總和達到注冊音時長閾值;
28、特征提取模塊,用于:對拼接音頻進行特征提取,得到拼接聲紋特征,所述拼接音頻是對所述原注冊音所在簇的人聲片段進行拼接得到的;
29、注冊音更新模塊,用于:基于所述原注冊音和所述拼接聲紋特征的比對結果更新所述原注冊音。
30、本發明還提供一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,所述處理器執行所述程序時實現如上述任一種所述聲紋更新方法。
31、本發明還提供一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該計算機程序被處理器執行時實現如上述任一種所述聲紋更新方法。
32、本申請實施例提供的聲紋更新方法、裝置、設備和存儲介質,對若干個音頻進行切分,得到多個人聲片段,若干個音頻是一個客戶在預置周期時長內的通話語音;基于預置聚類終止條件對各人聲片段和原注冊音進行聚類,原注冊音是客戶的現有注冊聲紋,預置聚類終止條件是原注冊音所在簇的人聲片段時長總和達到注冊音時長閾值;對拼接音頻進行特征提取,得到拼接聲紋特征,拼接音頻是對原注冊音所在簇的人聲片段進行拼接得到的;基于原注冊音和拼接聲紋特征的比對結果更新原注冊音。本申請提供的聲紋更新方法根據近期通話錄音數據,通過拼接細粒度的聚類片段作為更新的注冊音,持續優化聲紋模型,提高聲紋認證的準確性和穩定性;聚集注冊音相近的人聲片段,結合時長閾值作為聚類終止條件,保證說話人特征有效性的同時確保注冊音時長,提升了注冊音魯棒性。
1.一種聲紋更新方法,其特征在于,包括:
2.根據權利要求1所述的聲紋更新方法,其特征在于,所述基于預置聚類終止條件對各所述人聲片段和原注冊音進行聚類,包括:
3.根據權利要求2所述的聲紋更新方法,其特征在于,所述合并距離最近的兩個簇,包括:
4.根據權利要求3所述的聲紋更新方法,其特征在于,所述計算各個簇之間的距離,得到多個簇間距離,包括:
5.根據權利要求1-4中任一項所述的聲紋更新方法,其特征在于,所述對所述原注冊音所在簇的人聲片段進行拼接,包括:
6.根據權利要求1-4中任一項所述的聲紋更新方法,其特征在于,所述對若干個音頻進行切分,得到多個人聲片段,包括:
7.根據權利要求1-4中任一項所述的聲紋更新方法,其特征在于,所述基于所述原注冊音和所述拼接聲紋特征的比對結果更新所述原注冊音,包括:
8.一種聲紋更新裝置,其特征在于,包括:
9.一種電子設備,包括存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,其特征在于,所述處理器執行所述程序時實現如權利要求1至7任一項所述聲紋更新方法。
10.一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,所述計算機程序被處理器執行時實現如權利要求1至7任一項所述聲紋更新方法。