聲紋密碼認證方法及系統的制作方法
【專利摘要】本發明公開了一種聲紋密碼認證方法及系統,該方法包括:接收登錄用戶的語音數據,并將所述語音數據作為測試語音數據;提取所述測試語音數據的特征,得到測試語音特征;利用所述測試語音特征及注冊說話人模型估計測試語音相對于注冊語音的特征域偏差,得到第一特征域偏差;根據所述第一特征域偏差對所述測試語音特征進行修正,得到第一修正測試語音特征;利用所述第一修正測試語音特征進行聲紋認證。本發明可以提升聲紋認證的準確度。
【專利說明】
聲紋密碼認證方法及系統
技術領域
[0001] 本發明涉及聲紋認證技術領域,具體涉及一種聲紋密碼認證方法及系統。
【背景技術】
[0002] 聲紋密碼認證即根據用戶輸入的語音信號中所反映的說話人生理特征和行為特 征的聲紋信息自動識別認證說話人身份的技術。相比于其它生物認證,聲紋密碼認證具有 更簡便、準確、經濟及良好擴展性等優勢,已被廣泛應用于安全驗證控制等領域,如在門禁 系統、開機密碼、銀行支付密碼、手機支付等應用場景都發揮著有效作用。然而,認證系統在 實際應用中會存在各種跨場景問題,如輸入密碼設備的更換,注冊密碼及登錄時存在的時 間漂移,地點環境的變化(如室內、室外)等,在這些情況下,短短幾個字的聲紋密碼會受到 各種信道因素的干擾,導致聲紋密碼認證效果不理想。因此提高聲紋密碼系統在不同應用 場景下的穩定性對提高聲紋密碼系統的實用價值有重要意義。
[0003] 為此,現有技術中采用對提取的聲紋特征進行特征補償的方法來減少不同環境因 素的影響,并根據補償后的聲紋特征對說話人進行身份認證。現有的聲紋密碼認證系統在 特征補償上主要使用因子分析的方法,來降低不同信道對認證結果的影響。而所述方法需 要利用注冊說話人大量跨場景數據訓練信道因子載荷矩陣;如果訓練數據不足,則會對聲 紋密碼系統的認證性能帶來較大的損失,然而大量數據的獲取對于聲紋密碼系統往往比較 困難。此外,預訓練的信道因子載荷矩陣只能表示訓練時的狀態,而無法解決用戶登錄的時 間漂移問題。
【發明內容】
[0004] 本發明實施例提供一種聲紋密碼認證方法及系統,以提升聲紋認證的準確度。
[0005] 為此,本發明實施例提供如下技術方案:
[0006] 一種聲紋密碼認證方法,包括:
[0007] 接收登錄用戶的語音數據,并將所述語音數據作為測試語音數據;
[0008] 提取所述測試語音數據的特征,得到測試語音特征;
[0009] 利用所述測試語音特征及注冊說話人模型估計測試語音相對于注冊語音的特征 域偏差,得到第一特征域偏差;
[0010] 根據所述第一特征域偏差對所述測試語音特征進行修正,得到第一修正測試語音 特征;
[0011] 利用所述第一修正測試語音特征進行聲紋認證。
[0012] 優選地,所述利用所述測試語音特征及注冊說話人模型估計測試語音相對于注冊 語音的特征域偏差包括:
[0013] 針對所述測試語音特征,采用迭代方式計算所述特征的偏差量,并根據所述偏差 量對所述測試語音特征進行補償,計算補償后的測試語音特征與所述注冊說話人模型的似 然度;
[0014] 在迭代次數達到設定次數或者所述似然度達到穩定后,獲取最大似然度對應的偏 差量作為當前測試語音特征的最優偏差量;
[0015] 根據測試語音特征的最優偏差量確定測試語音相對于注冊語音的特征域偏差。
[0016] 優選地,在每次迭代過程中計算所述特征的偏差量包括:
[0017] 計算所述特征相對于所述注冊說話人模型的后驗概率;
[0018] 根據所述注冊說話人模型參數,計算所述特征的參數距離;
[0019] 根據所述后驗概率及所述特征的參數距離計算所述特征的偏差量。
[0020] 優選地,所述根據所述后驗概率及所述特征的參數距離計算所述特征的偏差量包 括:
[0021] 以幀為單位,根據當前幀數據對應的所述特征的后驗概率及所述參數距離,計算 所述特征的偏差量;或者
[0022] 根據所有幀數據對應的所述特征的后驗概率及所述參數距離,計算所述特征的偏 差量。
[0023] 優選地,所述利用所述測試語音特征及注冊說話人模型估計測試語音相對于注冊 語音的特征域偏差包括:
[0024] 對描述所述注冊說話人模型的高斯分量進行聚類,得到每個聚類包含的高斯分 量;
[0025] 針對所述測試語音特征,采用迭代方式計算所述特征相對于各聚類的偏差量,并 根據所述偏差量對所述測試語音特征進行補償,計算補償后的測試語音特征與所述注冊說 話人模型的似然度;
[0026] 在迭代次數達到設定次數或所述似然度達到穩定后,獲取最大似然度對應的偏差 量作為所述特征相對于所述聚類的最優偏差量;
[0027] 根據所述特征的最優偏差量確定測試語音相對于注冊語音的特征域偏差。
[0028] 優選地,在每次迭代過程中計算所述特征相對于各聚類的偏差量包括:
[0029] 計算所述特征相對于所述注冊說話人模型的后驗概率;
[0030] 根據所述注冊說話人模型參數,計算所述特征的參數距離;
[0031] 根據所述后驗概率及所述特征的參數距離計算所述特征相對于各聚類的偏差量。
[0032] 優選地,所述利用第一修正測試語音特征進行聲紋認證包括:
[0033] 計算所述第一修正測試語音特征與所述注冊說話人模型的似然度,得到說話人似 然度;
[0034] 計算所述第一修正測試語音特征與通用背景模型的似然度,得到第一背景似然 度;
[0035] 計算所述說話人似然度與所述第一背景似然度的比值,得到第一判決得分;
[0036] 如果所述第一判決得分大于第一閾值,則確定用戶認證通過。
[0037] 優選地,所述方法還包括:
[0038] 利用所述測試語音特征及通用背景模型估計測試語音相對于注冊語音的特征域 偏差,得到第二特征域偏差;
[0039] 根據所述第二特征域偏差對所述測試語音特征進行修正,得到第二修正測試語音 特征;
[0040] 所述利用所述第一修正測試語音特征進行聲紋認證包括:
[0041] 計算所述第一修正測試語音特征與所述注冊說話人模型的似然度,得到說話人似 然度;
[0042] 計算所述第二修正測試語音特征與通用背景模型的似然度,得到第二背景似然 度;
[0043] 計算所述說話人似然度與所述第二背景似然度的比值,得到第二判決得分;
[0044] 如果所述第二判決得分大于第二閾值,則確定用戶認證通過。
[0045] 一種聲紋密碼認證系統,包括:
[0046] 接收模塊,用于接收登錄用戶的語音數據,并將所述語音數據作為測試語音數 據;
[0047] 特征提取模塊,用于提取所述測試語音數據的特征,得到測試語音特征;
[0048] 第一估計模塊,用于利用所述測試語音特征及注冊說話人模型估計測試語音相對 于注冊語音的特征域偏差,得到第一特征域偏差;
[0049] 第一修正模塊,用于根據所述第一特征域偏差對所述測試語音特征進行修正,得 到第一修正測試語音特征;
[0050] 認證模塊,用于利用所述第一修正測試語音特征進行聲紋認證。
[0051] 優選地,所述第一估計模塊包括:
[0052] 迭代處理單元,用于針對所述測試語音特征,采用迭代方式計算所述特征的偏差 量,根據所述偏差量對所述測試語音特征進行補償,并計算補償后的測試語音特征與所述 注冊說話人模型的似然度;
[0053] 檢測單元,用于檢測迭代次數是否達到設定次數或者所述似然度是否達到穩定;
[0054] 特征域偏差輸出單元,用于在所述檢測單元檢測到迭代次數達到設定次數或者所 述似然度達到穩定后,獲取最大似然度對應的偏差量作為當前測試語音特征的最優偏差 量,并根據測試語音特征的最優偏差量確定測試語音相對于注冊語音的特征域偏差。
[0055] 優選地,所述迭代處理單元在每次迭代過程中根據所述特征相對于所述注冊說話 人模型的后驗概率、以及所述特征與所述注冊說話人模型參數的參數距離,計算所述特征 的偏差量。
[0056] 優選地,所述迭代處理單元,以幀為單位,根據當前幀數據對應的所述特征的后驗 概率及所述參數距離,計算所述特征的偏差量;或者根據所有幀數據對應的所述特征的后 驗概率及所述參數距離,計算所述特征的偏差量。
[0057] 優選地,所述第一估計模塊包括:
[0058] 聚類單元,用于對描述所述注冊說話人模型的高斯分量進行聚類,得到每個聚類 包含的高斯分量;
[0059] 迭代處理單元,用于針對所述測試語音特征,采用迭代方式計算所述特征相對于 各聚類的偏差量,并根據所述偏差量對所述測試語音特征進行補償,計算補償后的測試語 音特征與所述注冊說話人模型的似然度;
[0060] 檢測單元,用于檢測迭代次數是否達到設定次數或者所述似然度是否達到穩定;
[0061] 特征域偏差輸出單元,用于在所述檢測單元檢測到迭代次數達到設定次數或者所 述似然度達到穩定后,獲取最大似然度對應的偏差量作為所述特征相對于所述聚類的最優 偏差量,并根據所述特征的最優偏差量確定測試語音相對于注冊語音的特征域偏差。
[0062] 優選地,所述迭代處理單元在每次迭代過程中根據所述特征相對于所述注冊說話 人模型的后驗概率、以及所述特征與所述注冊說話人模型參數的參數距離,計算所述特征 的偏差量。
[0063] 優選地,所述認證模塊包括:
[0064] 說話人似然度計算單元,用于計算所述第一修正測試語音特征與所述注冊說話人 模型的似然度,得到說話人似然度;
[0065] 第一背景似然度計算單元,用于計算所述第一修正測試語音特征與通用背景模型 的似然度,得到第一背景似然度;
[0066] 判決得分計算單元,用于計算所述說話人似然度與所述第一背景似然度的比值, 得到第一判決得分;
[0067] 判決單元,用于在所述第一判決得分大于第一閾值時,確定用戶認證通過。
[0068] 優選地,所述系統還包括:
[0069] 第二估計模塊,用于利用所述測試語音特征及通用背景模型估計測試語音相對于 注冊語音的特征域偏差,得到第二特征域偏差;
[0070] 第二修正模塊,用于根據所述第二特征域偏差對所述測試語音特征進行修正,得 到第二修正測試語音特征;
[0071] 所述認證模塊包括:
[0072] 說話人似然度計算單元,用于計算所述第一修正測試語音特征與所述注冊說話人 模型的似然度,得到說話人似然度;
[0073] 第二背景似然度計算單元,用于計算所述第二修正測試語音特征與通用背景模型 的似然度,得到第二背景似然度;
[0074] 判決得分計算單元,用于計算所述說話人似然度與所述第二背景似然度的比值, 得到第二判決得分;
[0075] 判決單元,用于在所述第二判決得分大于第二閾值時,確定用戶認證通過。
[0076] 本發明實施例提供的聲紋密碼認證方法及系統,利用登錄用戶的測試語音及注冊 說話人模型估計測試語音相對于注冊語音的特征域偏差,利用所述特征域偏差描述注冊語 音和測試語音之間的信道偏差,并利用該偏差對測試語音特征進行修正,得到修正后的測 試語音特征,然后根據修正后的測語音特征對登錄用戶進行聲紋密碼認證。本發明方案可 以在沒有較多的跨場景訓練數據情況下,估計測試語音與注冊語音之間的信道偏差,利用 所述偏差對登錄用戶登錄時的測試語音進行修正,解決了注冊語音和測試語音信道不匹配 的問題,及用戶登錄時間飄移問題,從而有效提升了聲紋認證的準確度。
[0077] 進一步地,本發明方案還提出了利用通用背景模型進行偏差估計,從而降低了測 試語音特征與通用背景模型之間的差異,進一步提升了聲紋認證的準確度。
【附圖說明】
[0078] 為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例中所 需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明中記載的一 些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。
[0079] 圖1是本發明實施例聲紋密碼認證方法的一種流程圖;
[0080] 圖2是本發明實施例聲紋密碼認證方法的另一種流程圖;
[0081] 圖3是本發明實施例聲紋密碼認證系統的一種結構示意圖;
[0082] 圖4是本發明實施例中第一估計模塊的一種結構示意圖;
[0083] 圖5是本發明實施例中第一估計模塊的另一種結構示意圖;
[0084] 圖6是本發明實施例聲紋密碼認證系統的另一種結構示意圖。
【具體實施方式】
[0085] 為了使本技術領域的人員更好地理解本發明實施例的方案,下面結合附圖和實施 方式對本發明實施例作進一步的詳細說明。
[0086] 如圖1所示,是本發明實施例聲紋密碼認證方法的一種流程圖,包括以下步驟:
[0087] 步驟101,接收登錄用戶的語音數據,并將所述語音數據作為測試語音數據。
[0088] 步驟102,提取所述測試語音數據的特征,得到測試語音特征。
[0089] 在本發明實施例中,測試語音特征和注冊語音特征可以使用39維的 MFCC(Mel_scale Frequency Cepstral Coefficients,Mel 頻率倒譜系數)作為頻譜特征, 為了便于描述,后面將測試語音特征用Y = {yi,y2,...,yT}表示,其中T表示測試語音數據 的幀數,將注冊語音特征用X = {Χι,χ2,...,χΝ}表示,其中N表示注冊語音數據的幀數。
[0090] 步驟103,利用所述測試語音特征及注冊說話人模型估計測試語音相對于注冊語 音的特征域偏差,得到第一特征域偏差。
[0091] 在實際應用中,所述第一特征域偏差的估計可以采用多種方法實現,比如:局部偏 差估計方法、全局偏差估計方法、高斯聚類偏差估計方法。下面對這三種偏差估計方法分別 進行詳細說明。
[0092] 1.局部偏差估計方法
[0093] 局部偏差估計時,利用測試語音的每一幀數據及注冊說話人模型進行偏差估計, 具體偏差估計過程如下:
[0094] 步1)利用初始偏差估計值對當前幀測試語音特征進行局部偏差估計,具體計算 方法如下式:
[0095]
[0096] 其中,γ (yt,y」bt)表示在給定第t幀初始偏差bt條件下,測試語音特征5^對于 注冊說話人模型的第c個高斯分量的后驗概率,y tid表示第t幀第d維的測試語音特征,μ μ 和σ d分別表示第C個高斯分量第d維的均值和標準差,C表示描述注冊說話人模型的高 斯總數,-爲^/^,為測試語音第t幀數據第d維特征的參數距離;
[0097] 步2)利用上面得到的偏差量對當前幀測試語音特征進行補償,得到當前幀補償 后的測試語音特征;
[0098] 步3)計算當前幀補償后的測試語音特征相對于注冊說話人模型的似然度;
[0099] 步4)將當前幀估計得到的偏差量作為初始偏差值,迭代執行步2)至步4),直到達 到預先設定的迭代次數或者所述似然度達到穩定;
[0100] 步5)將迭代過程中最大似然度對應的偏差量作為當前幀估計得到的最優偏差 量;
[0101] 步6)根據各幀測試語音特征的最優偏差量確定測試語音相對于注冊語音的特征 域偏差。
[0102] 2.全局偏差估計方法
[0103] 全局偏差估計方法中,利用所有幀測試語音特征及注冊說話人模型進行偏差估 計,具體估計過程如下所述:
[0104] 步1)利用初始偏差估計值進行全局偏差估計,具體計算方法如下式:
[0105]
[0106] 其中,T表示測試語音的總幀數;
[0107] 步2)利用上面估計到的偏差量對所有幀測試語音特征進行補償,得到補償后的 測試語音特征;
[0108] 步3)計算補償后的測試語音特征相對于注冊說話人模型的似然度;
[0109] 步4)將估計得到的偏差量作為初始偏差值,迭代執行步1)至步4),直到達到預先 設定的迭代次數或者所述似然度達到穩定;
[0110] 步5)將迭代過程中最大似然度對應的偏差量作為估計得到的最優偏差量;
[0111] 步6)根據所述最優偏差量確定測試語音相對于注冊語音的特征域偏差。
[0112] 3.高斯聚類偏差估計方法
[0113] 高斯聚類偏差估計方法需要先對描述注冊說話人模型的高斯分量進行聚類,利用 聚類后每類的高斯分量及每類對應的測試語音特征進行偏差估計;具體如下所述:
[0114] 步1)對描述注冊說話人模型的高斯分量進行聚類,得到每個聚類包含的高斯分 量;
[0115] 步2)利用初始偏差估計值進行高斯聚類偏差估計,具體計算方法如下式:
[0116]
[0117] 其中,Nk表示第k個高斯聚類中包含的高斯分量總數;
[0118] 步3)利用上面得到的測試語音特征偏差量對測試語音特征進行補償,具體補償 時需要首先找到與當前高斯聚類所對應的測試語音特征,然后利用當前高斯聚類估計出的 偏差量對所述測試語音特征進行補償,從而得到補償后的測試語音特征;
[0119] 步4)計算補償后的測試語音特征相對于注冊說話人模型的似然度;
[0120] 步5)將估計得到的偏差量作為初始偏差值,迭代執行步2)至步5),直到達到預先 設定的迭代次數或者所述似然度達到穩定;
[0121] 步6)將迭代過程中最大似然度對應的偏差量作為估計得到的最優偏差量;
[0122] 步7)根據各聚類對應的測試語音特征的最優偏差量確定測試語音相對于注冊語 音的特征域偏差。
[0123] 相應地,在后續利用上述不同方法得到的第一特征域偏差對測試語音特征進行修 正時,也有所不同,具體將在后面詳細說明。
[0124] 步驟104,根據所述第一特征域偏差對所述測試語音特征進行修正,得到第一修正 測試語音特征。
[0125] 假設注冊語音特征X = {χ^ χ2, · · ·,χΝ}和測試語音特征Y = h,y2, · · ·,yT}屬于 同一發音人朗讀相同文本的語音,則由于信道因素的影響,兩者的特征矢量之間存在一定 的偏差,注冊語音特征和測試語音特征兩兩之間長度可以完全對齊或者采用DTW(Dynamic Time Warping,動態時間規整)方法強制對齊,則存在以下對應關系:
[0126] xt=yt-bt
[0127] 其中xt表示第t幀注冊語音特征,y t表示第t幀測試語音特征,b t表示第t幀測 試語音特征相對于注冊語音特征的偏差值。
[0128] 根據上述不同的偏差估計方法進行偏差估計,得到相應的偏差,利用得到的偏差 值對測試語音特征進行修正,具體如下:
[0129] 1)利用局部偏差估計方法得到的偏差進行修正,如下式:
[0130] yr t,d=yt,d-b, t,d
[0131] 其中,太t,d表示修正后的第t幀第d維測試語音特征,y t,d表示修正前的第t幀 第d維測試語音特征,b ' t,d表示第t幀第d維測試語音特征相對于注冊語音特征的偏差 (即第一特征域偏差)。
[0132] 2)利用全局偏差估計方法得到的偏差進行修正,如下式:
[0133] yr t,d=yt,d-b, d
[0134] 其中,b' d表示第d維測試語音特征相對于注冊語音特征的偏差(即第一特征域 偏差)。
[0135] 3)利用高斯聚類偏差估計方法得到的偏差進行修正,如下式:
[0136] y' td=ytd-b' M
[0137] 其中,y' tid表示修正后的與第k個高斯聚類對應的第t幀第d維的測試語音特 征,ytid表示修正前的與第k個高斯聚類對應的第t幀第d維的測試語音特征,b' kid表示 與第k個高斯聚類對應的第t幀第d維測試語音特征相對于注冊語音特征的偏差(即第一 特征域偏差)。
[0138] 步驟105,利用所述第一修正測試語音特征進行聲紋認證。
[0139] 用太t表示第一修正測試語音特征,聲紋認證過程如下:
[0140] 1)計算所述第一修正測試語音特征與所述注冊說話人模型的似然度,得到說話人 似然度P (太t |mspk),其中mspk表示注冊說話人模型的均值;
[0141] 2)計算所述第一修正測試語音特征與通用背景模型的似然度,得到第一背景似然 度P(y' t|mubJ,其中mubni表示通用背景模型的均值;
[0142] 3)計算說話人似然度與第一背景似然度的比值,得到第一判決得分scorel,即:
[0143]
[0144] 4)將第一判決得分scorel與預先設定的第一閾值進行比較,如果第一判決得分 scorel大于第一閾值,則確定用戶認證通過。
[0145] 所述第一閾值可以根據大量數據訓練得出或根據經驗設定。
[0146] 可見,本發明實施例提供的聲紋密碼認證方法,利用登錄用戶的測試語音及注冊 說話人模型估計測試語音相對于注冊語音的特征域偏差,利用所述特征域偏差描述注冊語 音和測試語音之間的信道偏差,并利用該偏差對測試語音特征進行修正,得到修正后的測 試語音特征,然后根據修正后的測語音特征對登錄用戶進行聲紋密碼認證。本發明方案可 以在沒有較多的跨場景訓練數據情況下,估計測試語音與注冊語音之間的信道偏差,利用 所述偏差對登錄用戶登錄時的測試語音進行修正,解決了注冊語音和測試語音信道不匹配 的問題,及用戶登錄時間飄移問題,從而有效提升了聲紋認證的準確度
[0147] 進一步地,本發明方案還提出了利用通用背景模型進行偏差估計,以降低測試語 音特征與通用背景模型之間的差異,進一步提升聲紋認證的準確度。
[0148] 如圖2所示,是本發明實施例聲紋密碼認證方法的另一種流程圖,包括以下步驟:
[0149] 步驟201,接收登錄用戶的語音數據,并將所述語音數據作為測試語音數據。
[0150] 步驟202,提取所述測試語音數據的特征,得到測試語音特征。
[0151] 步驟203,利用所述測試語音特征及注冊說話人模型估計測試語音相對于注冊語 音的特征域偏差,得到第一特征域偏差。
[0152] 步驟204,利用所述測試語音特征及通用背景模型估計測試語音相對于注冊語音 的特征域偏差,得到第二特征域偏差。
[0153] 在計算所述第二特征域偏差時,同樣可以利用前面提到的三種不同偏差估計方 法,只需將其中的注冊說話人模型用通用背景模型替代即可,具體過程不再贅述。
[0154] 步驟205,分別根據所述第一特征域偏差和所述第二特征域偏差對所述測試語音 特征進行修正,得到第一修正測試語音特征及第二修正測試語音特征。
[0155] 步驟206,根據所述第一修正測試語音特征及第二修正測試語音特征進行聲紋認 證。
[0156] 用yt'表示第一修正測試語音特征,用yt"表示第二修正測試語音特征,聲紋認證 過程如下:
[0157] 1)分別計算所述第一修正測試語音特征與所述注冊說話人模型的似然度,得到說 話人似然度P(y t' |mspk),以及所述第二修正測試語音特征與通用背景模型的似然度,得到 第二背景似然度P(yt" |mubJ ;
[0158] 2)計算說話人似然度P(yt' |mspk)與第二背景似然度P(yt" |mubJ的比值,得到第 二判決得分score2, BP :
[0159]
[0160] 3)將第二判決得分SC〇re2與預先設定的第一閾值進行比較,如果第二判決得分 score2大于第二閾值,則確定用戶認證通過。
[0161] 所述第二閾值可以根據大量數據訓練得出或根據經驗設定。而且,所述第二閾值 與前面提到的第一閾值可以相同,也可以不同。
[0162] 相應地,本發明實施例還提供了一種聲紋密碼認證系統,如圖3所示,是該系統的 一種結構不意圖。
[0163] 在該實施例中,所述系統包括:
[0164] 接收模塊301,用于接收登錄用戶的語音數據,并將所述語音數據作為測試語音數 據;
[0165] 特征提取模塊302,用于提取所述測試語音數據的特征,得到測試語音特征;
[0166] 第一估計模塊303,用于利用所述測試語音特征及注冊說話人模型估計測試語音 相對于注冊語音的特征域偏差,得到第一特征域偏差;
[0167] 第一修正模塊304,用于根據所述第一特征域偏差對所述測試語音特征進行修正, 得到第一修正測試語音特征;
[0168] 認證模塊305,用于利用所述第一修正測試語音特征進行聲紋認證。
[0169] 上述認證模塊305可以包括以下各單元:
[0170] 說話人似然度計算單元,用于計算所述第一修正測試語音特征與所述注冊說話人 模型的似然度,得到說話人似然度;
[0171] 第一背景似然度計算單元,用于計算所述第一修正測試語音特征與通用背景模型 的似然度,得到第一背景似然度;
[0172] 判決得分計算單元,用于計算所述說話人似然度與所述第一背景似然度的比值, 得到第一判決得分;
[0173] 判決單元,用于在所述第一判決得分大于第一閾值時,確定用戶認證通過。
[0174] 在實際應用中,第一估計模塊303在進行第一特征域偏差的估計時可以采用多種 方式實現,比如:局部偏差估計方法、全局偏差估計方法、高斯聚類偏差估計方法,其中:
[0175] 局部偏差估計是指利用測試語音的每一幀數據及注冊說話人模型進行偏差估 計;
[0176] 全局偏差估計是指利用所有幀測試語音特征及注冊說話人模型進行偏差估計;
[0177] 高斯聚類偏差估計是指先對描述注冊說話人模型的高斯分量進行聚類,利用聚類 后每類的高斯分量及每類對應的測試語音特征進行偏差估計。
[0178] 相應地,針對局部偏差估計和全局偏差估計,第一估計模塊303可采用如圖4所示 的結構。
[0179] 在該實施例中,第一估計模塊303包括:
[0180] 迭代處理單元311,用于針對所述測試語音特征,采用迭代方式計算所述特征的偏 差量,根據所述偏差量對所述測試語音特征進行補償,并計算補償后的測試語音特征與所 述注冊說話人模型的似然度。具體地,迭代理處理單元311在每次迭代過程中根據所述特 征相對于所述注冊說話人模型的后驗概率、以及所述特征與所述注冊說話人模型參數的參 數距離,計算所述特征的偏差量。
[0181] 檢測單元312,用于檢測迭代次數是否達到設定次數或者所述似然度是否達到穩 定;
[0182] 特征域偏差輸出單元313,用于在所述檢測單元312檢測到迭代次數達到設定次 數或者所述似然度達到穩定后,獲取最大似然度對應的偏差量作為當前測試語音特征的最 優偏差量,并根據測試語音特征的最優偏差量確定測試語音相對于注冊語音的特征域偏 差。
[0183] 上述迭代處理單元311在每次迭代過程中可以根據所述特征相對于所述注冊說 話人模型的后驗概率、以及所述特征與所述注冊說話人模型參數的參數距離,計算所述特 征的偏差量。而且,可以幀為單位,根據當前幀數據對應的所述特征的后驗概率及所述參數 距離,計算所述特征的偏差量;或者根據所有幀數據對應的所述特征的后驗概率及所述參 數距離,計算所述特征的偏差量。具體計算過程可參見前面本發明方法實施例中的描述,在 此不再贅述。
[0184] 相應地,針對高斯聚類偏差估計,第一估計模塊303可采用如圖5所示的結構。
[0185] 與圖4不同的是,在該實施例中,還包括:聚類單元320,用于對描述所述注冊說話 人模型的高斯分量進行聚類,得到每個聚類包含的高斯分量。而且,在該實施例中,迭代處 理單元321用于針對所述測試語音特征,采用迭代方式計算所述特征相對于各聚類的偏差 量,并根據所述偏差量對所述測試語音特征進行補償,計算補償后的測試語音特征與所述 注冊說話人模型的似然度。同樣,檢測單元312用于檢測迭代次數是否達到設定次數或者 所述似然度是否達到穩定;特征域偏差輸出單元313用于在所述檢測單元312檢測到迭代 次數達到設定次數或者所述似然度達到穩定后,獲取最大似然度對應的偏差量作為所述特 征相對于所述聚類的最優偏差量,并根據所述特征的最優偏差量確定測試語音相對于注冊 語音的特征域偏差。
[0186] 在該實施例中,迭代處理單元321同樣可以在每次迭代過程中根據所述特征相對 于所述注冊說話人模型的后驗概率、以及所述特征與所述注冊說話人模型參數的參數距 離,計算所述特征的偏差量。
[0187] 如圖6所示,是本發明實施例聲紋密碼認證系統的另一種結構示意圖。
[0188] 與圖3所示實施例的區別在于,在該實施例中,所述系統還包括:
[0189] 第二估計模塊403,用于利用所述測試語音特征及通用背景模型估計測試語音相 對于注冊語音的特征域偏差,得到第二特征域偏差;
[0190] 第二修正模塊404,用于根據所述第二特征域偏差對所述測試語音特征進行修正, 得到第二修正測試語音特征;
[0191] 相應地,在該實施例中,認證模塊405可以包括以下各單元:
[0192] 說話人似然度計算單元,用于計算所述第一修正測試語音特征與所述注冊說話人 模型的似然度,得到說話人似然度;
[0193] 第二背景似然度計算單元,用于計算所述第二修正測試語音特征與通用背景模型 的似然度,得到第二背景似然度;
[0194] 判決得分計算單元,用于計算所述說話人似然度與所述第二背景似然度的比值, 得到第二判決得分;
[0195] 判決單元,用于在所述第二判決得分大于第二閾值時,確定用戶認證通過。
[0196] 上述第二估計模塊403在計算所述第二特征域偏差時,同樣可以利用前面提到的 三種不同偏差估計方法,只需將其中的注冊說話人模型用通用背景模型替代即可,具體過 程不再贅述。
[0197] 本發明實施例提供的聲紋密碼認證系統,利用登錄用戶的測試語音及注冊說話人 模型估計測試語音相對于注冊語音的特征域偏差,利用所述特征域偏差描述注冊語音和測 試語音之間的信道偏差,并利用該偏差對測試語音特征進行修正,得到修正后的測試語音 特征,然后根據修正后的測語音特征對登錄用戶進行聲紋密碼認證。本發明方案可以在沒 有較多的跨場景訓練數據情況下,估計測試語音與注冊語音之間的信道偏差,利用所述偏 差對登錄用戶登錄時的測試語音進行修正,解決了注冊語音和測試語音信道不匹配的問 題,及用戶登錄時間飄移問題,從而有效提升了聲紋認證的準確度。
[0198] 進一步地,本發明方案還提出了利用通用背景模型進行偏差估計,從而降低了測 試語音特征與通用背景模型之間的差異,進一步提升了聲紋認證的準確度。
[0199] 本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部 分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統實 施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例 的部分說明即可。以上所描述的系統實施例僅僅是示意性的,其中所述作為分離部件說明 的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是 物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要 選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出 創造性勞動的情況下,即可以理解并實施。
[0200] 以上對本發明實施例進行了詳細介紹,本文中應用了【具體實施方式】對本發明進行 了闡述,以上實施例的說明只是用于幫助理解本發明的方法及系統;同時,對于本領域的 一般技術人員,依據本發明的思想,在【具體實施方式】及應用范圍上均會有改變之處,綜上所 述,本說明書內容不應理解為對本發明的限制。
【主權項】
1. 一種聲紋密碼認證方法,其特征在于,包括: 接收登錄用戶的語音數據,并將所述語音數據作為測試語音數據; 提取所述測試語音數據的特征,得到測試語音特征; 利用所述測試語音特征及注冊說話人模型估計測試語音相對于注冊語音的特征域偏 差,得到第一特征域偏差; 根據所述第一特征域偏差對所述測試語音特征進行修正,得到第一修正測試語音特 征; 利用所述第一修正測試語音特征進行聲紋認證。2. 根據權利要求1所述的方法,其特征在于,所述利用所述測試語音特征及注冊說話 人模型估計測試語音相對于注冊語音的特征域偏差包括: 針對所述測試語音特征,采用迭代方式計算所述特征的偏差量,并根據所述偏差量對 所述測試語音特征進行補償,計算補償后的測試語音特征與所述注冊說話人模型的似然 度; 在迭代次數達到設定次數或者所述似然度達到穩定后,獲取最大似然度對應的偏差量 作為當前測試語音特征的最優偏差量; 根據測試語音特征的最優偏差量確定測試語音相對于注冊語音的特征域偏差。3. 根據權利要求2所述的方法,其特征在于,在每次迭代過程中計算所述特征的偏差 量包括: 計算所述特征相對于所述注冊說話人模型的后驗概率; 根據所述注冊說話人模型參數,計算所述特征的參數距離; 根據所述后驗概率及所述特征的參數距離計算所述特征的偏差量。4. 根據權利要求3述的方法,其特征在于,所述根據所述后驗概率及所述特征的參數 距離計算所述特征的偏差量包括: 以幀為單位,根據當前幀數據對應的所述特征的后驗概率及所述參數距離,計算所述 特征的偏差量;或者 根據所有幀數據對應的所述特征的后驗概率及所述參數距離,計算所述特征的偏差 量。5. 根據權利要求1所述的方法,其特征在于,所述利用所述測試語音特征及注冊說話 人模型估計測試語音相對于注冊語音的特征域偏差包括: 對描述所述注冊說話人模型的高斯分量進行聚類,得到每個聚類包含的高斯分量; 針對所述測試語音特征,采用迭代方式計算所述特征相對于各聚類的偏差量,并根據 所述偏差量對所述測試語音特征進行補償,計算補償后的測試語音特征與所述注冊說話人 模型的似然度; 在迭代次數達到設定次數或所述似然度達到穩定后,獲取最大似然度對應的偏差量作 為所述特征相對于所述聚類的最優偏差量; 根據所述特征的最優偏差量確定測試語音相對于注冊語音的特征域偏差。6. 根據權利要求5所述的方法,其特征在于,在每次迭代過程中計算所述特征相對于 各聚類的偏差量包括: 計算所述特征相對于所述注冊說話人模型的后驗概率; 根據所述注冊說話人模型參數,計算所述特征的參數距離; 根據所述后驗概率及所述特征的參數距離計算所述特征相對于各聚類的偏差量。7. 根據權利要求1至6任一項所述的方法,其特征在于,所述利用第一修正測試語音特 征進行聲紋認證包括: 計算所述第一修正測試語音特征與所述注冊說話人模型的似然度,得到說話人似然 度; 計算所述第一修正測試語音特征與通用背景模型的似然度,得到第一背景似然度; 計算所述說話人似然度與所述第一背景似然度的比值,得到第一判決得分; 如果所述第一判決得分大于第一閾值,則確定用戶認證通過。8. 根據權利要求1至6任一項所述的方法,其特征在于,所述方法還包括: 利用所述測試語音特征及通用背景模型估計測試語音相對于注冊語音的特征域偏差, 得到第二特征域偏差; 根據所述第二特征域偏差對所述測試語音特征進行修正,得到第二修正測試語音特 征; 所述利用所述第一修正測試語音特征進行聲紋認證包括: 計算所述第一修正測試語音特征與所述注冊說話人模型的似然度,得到說話人似然 度; 計算所述第二修正測試語音特征與通用背景模型的似然度,得到第二背景似然度; 計算所述說話人似然度與所述第二背景似然度的比值,得到第二判決得分; 如果所述第二判決得分大于第二閾值,則確定用戶認證通過。9. 一種聲紋密碼認證系統,其特征在于,包括: 接收模塊,用于接收登錄用戶的語音數據,并將所述語音數據作為測試語音數據; 特征提取模塊,用于提取所述測試語音數據的特征,得到測試語音特征; 第一估計模塊,用于利用所述測試語音特征及注冊說話人模型估計測試語音相對于注 冊語音的特征域偏差,得到第一特征域偏差; 第一修正模塊,用于根據所述第一特征域偏差對所述測試語音特征進行修正,得到第 一修正測試語音特征; 認證模塊,用于利用所述第一修正測試語音特征進行聲紋認證。10. 根據權利要求9所述的系統,其特征在于,所述第一估計模塊包括: 迭代處理單元,用于針對所述測試語音特征,采用迭代方式計算所述特征的偏差量,根 據所述偏差量對所述測試語音特征進行補償,并計算補償后的測試語音特征與所述注冊說 話人模型的似然度; 檢測單元,用于檢測迭代次數是否達到設定次數或者所述似然度是否達到穩定; 特征域偏差輸出單元,用于在所述檢測單元檢測到迭代次數達到設定次數或者所述似 然度達到穩定后,獲取最大似然度對應的偏差量作為當前測試語音特征的最優偏差量,并 根據測試語音特征的最優偏差量確定測試語音相對于注冊語音的特征域偏差。11. 根據權利要求10所述的系統,其特征在于, 所述迭代處理單元在每次迭代過程中根據所述特征相對于所述注冊說話人模型的后 驗概率、以及所述特征與所述注冊說話人模型參數的參數距離,計算所述特征的偏差量。12. 根據權利要求11所述的系統,其特征在于, 所述迭代處理單元,以幀為單位,根據當前幀數據對應的所述特征的后驗概率及所述 參數距離,計算所述特征的偏差量;或者根據所有幀數據對應的所述特征的后驗概率及所 述參數距離,計算所述特征的偏差量。13. 根據權利要求9所述的系統,其特征在于,所述第一估計模塊包括: 聚類單元,用于對描述所述注冊說話人模型的高斯分量進行聚類,得到每個聚類包含 的高斯分量; 迭代處理單元,用于針對所述測試語音特征,采用迭代方式計算所述特征相對于各聚 類的偏差量,并根據所述偏差量對所述測試語音特征進行補償,計算補償后的測試語音特 征與所述注冊說話人模型的似然度; 檢測單元,用于檢測迭代次數是否達到設定次數或者所述似然度是否達到穩定; 特征域偏差輸出單元,用于在所述檢測單元檢測到迭代次數達到設定次數或者所述似 然度達到穩定后,獲取最大似然度對應的偏差量作為所述特征相對于所述聚類的最優偏差 量,并根據所述特征的最優偏差量確定測試語音相對于注冊語音的特征域偏差。14. 根據權利要求13所述的系統,其特征在于, 所述迭代處理單元在每次迭代過程中根據所述特征相對于所述注冊說話人模型的后 驗概率、以及所述特征與所述注冊說話人模型參數的參數距離,計算所述特征的偏差量。15. 根據權利要求9至14任一項所述的系統,其特征在于,所述認證模塊包括: 說話人似然度計算單元,用于計算所述第一修正測試語音特征與所述注冊說話人模型 的似然度,得到說話人似然度; 第一背景似然度計算單元,用于計算所述第一修正測試語音特征與通用背景模型的似 然度,得到第一背景似然度; 判決得分計算單元,用于計算所述說話人似然度與所述第一背景似然度的比值,得到 第一判決得分; 判決單元,用于在所述第一判決得分大于第一閾值時,確定用戶認證通過。16. 根據權利要求9至14任一項所述的系統,其特征在于,所述系統還包括: 第二估計模塊,用于利用所述測試語音特征及通用背景模型估計測試語音相對于注冊 語音的特征域偏差,得到第二特征域偏差; 第二修正模塊,用于根據所述第二特征域偏差對所述測試語音特征進行修正,得到第 二修正測試語音特征; 所述認證模塊包括: 說話人似然度計算單元,用于計算所述第一修正測試語音特征與所述注冊說話人模型 的似然度,得到說話人似然度; 第二背景似然度計算單元,用于計算所述第二修正測試語音特征與通用背景模型的似 然度,得到第二背景似然度; 判決得分計算單元,用于計算所述說話人似然度與所述第二背景似然度的比值,得到 第二判決得分; 判決單元,用于在所述第二判決得分大于第二閾值時,確定用戶認證通過。
【文檔編號】G10L17/04GK106033670SQ201510121720
【公開日】2016年10月19日
【申請日】2015年3月19日
【發明人】殷兵, 方昕, 魏思, 胡國平, 王影, 胡郁, 劉慶峰
【申請人】科大訊飛股份有限公司