一種基于多精度擬合的樣本復制語音自動檢測方法
【專利摘要】本發明涉及語音檢測領域,尤其涉及一種基于多精度擬合的樣本復制語音自動檢測方法,包括如下步驟:S1、建立語音特征庫;S2、目標說話人識別模型訓練;S3、樣本復制語音檢測模型訓練;S4、說話人識別;S5、樣本復制語音檢測。本發明的樣本復制語音自動檢測方法,可以防止冒認者獲取到用于聲紋識別系統訓練模型的樣本復制語音后,試圖通過越過測試語音采集步驟,直接調用服務端接口的方式將樣本復制語音直接提交給聲紋識別系統的服務端進行入侵的情況發生,提高了聲紋識別系統的安全性。
【專利說明】
一種基于多精度擬合的樣本復制語音自動檢測方法
技術領域
[0001] 本發明涉及語音檢測領域,尤其涉及一種基于變精度擬合的樣本復制語音入侵檢 測方法。
【背景技術】
[0002] 隨著互聯網技術的發展,聲紋識別技術在工業界比如公安偵查、聲紋控制、電子金 融、智能家居等領域得到了廣泛應用。與此同時,說話人識別系統正在面臨前端攻擊及傳輸 存儲等安全問題的威脅,這在一定程度上制約了其應用和發展。樣本復制語音和訓練樣本 幾乎完全相同,擁有相同的語速、文本、背景噪聲、能量特征等,在音素空間上極為接近。在 聲紋識別系統的應用場景中,尤其是在發展越來越快的網絡應用中,通過一些網絡技術,語 音數據在傳輸或存儲過程中極容易被截獲。這對系統造成了極大的安全威脅。
[0003] 聲紋識別系統入侵檢測的一種方法是使用混合系統,比如將聲紋和人臉等其他生 物信息相結合的混合型身份認證系統,以及將聲紋識別和動態隨機文本的語音識別相結合 的VIV(Verbal Information Verification)系統。這些系統參考了用戶其他信息或即時信 息,能夠很好地避免樣本復制語音的攻擊。但是,此類方法實施起來流程復雜,并且往往需 要采集大量額外信息。
[0004] 另外,還有一種基于信道模式噪聲的入侵檢測技術,利用了回放的語音中不僅含 有系統的信道模式噪聲,還含有偷錄設備和回放設備的信道模式噪聲的特點,此方法相對 簡單,但是并沒有解決冒認者直接利用樣本語音攻擊說話人識別系統的問題。
[0005] 2008年,加拿大研究員W. Sheng和M. Stevenson通過對電話信道的研究,得出了錄 音回放攻擊檢測(Playback Attack Detection)的理論技術。他首先將信號分幀并作傅里 葉變換,之后取出各個幀中頻譜幅度最大的前五個峰值作為特征,然后通過模式匹配識別 回放錄音。這種方法識別效果不錯,但是識別過程需要和數據庫中所有樣本語音進行匹配, 效率很低。
【發明內容】
[0006] 本發明解決的技術問題在于提供一種提高語音檢測系統的安全性的語音檢測方 法,應用于冒認者已經獲取到用于聲紋識別系統訓練模型的樣本復制語音,并試圖通過越 過測試語音采集步驟,直接調用服務端接口的方式將樣本復制語音直接提交給聲紋識別系 統的服務端進行入侵的自動檢測場景。
[0007] 為了解決上述問題,本發明采用了如下技術方案:
[0008] -種基于多精度擬合的樣本復制語音自動檢測方法,包括如下步驟:
[0009] Sl、建立語音特征庫:采集目標說話人的樣本語音,提取所有樣本語音的特征,建 立樣本語音特征庫;
[001 0] S2、目標說話人識別模型訓練:使用所述樣本語音特征庫中的特征文件,訓練目標 說話人樣本語音識別模型;
[0011] S3、樣本復制語音檢測模型訓練:使用所述樣本語音特征庫中的特征文件,訓練目 標說話人樣本復制語音檢測模型;
[0012] S4、說話人識別:錄入測試語音,提取所述測試語音特征,在所述目標說話人樣本 語音識別模型上進行說話人識別,判斷測試語音是否來源于目標說話人;若通過說話人識 別測試,進入下一步;
[0013] S5、樣本復制語音檢測:對通過說話人識別測試的測試語音,在所述目標說話人樣 本復制語音檢測模型上進行樣本復制語音檢測,判斷測試語音是否為樣本復制語音。
[0014] 進一步的,步驟S3中,訓練目標說話人樣本復制語音檢測模型包括:在訓練時通過 設置不同的僅影響模型的擬合精度的模型參數,得到僅擬合精度不同的說話人模型集合, 作為目標說話人樣本復制語音檢測模型。
[0015] 進一步的,步驟S3中,所述的樣本復制語音包括樣本語音的副本或副本的一部分, 以及在樣本語音采集過程中入侵者使用同樣的設備偷錄的語音。
[0016] 進一步的,步驟S5中,所述的樣本復制語音檢測包括:將測試語音在目標說話人樣 本復制語音檢測模型中的僅擬合精度不同的多個說話人模型上分別打分,并將得分進行排 序,根據得分排序結果判定測試語音是否為樣本復制語音。
[0017] 進一步的,若測試語音在擬合精度越高的說話人模型上得分越高,則判定測試語 音為樣本復制語音;反之,若擬合精度的提高未引起測試語音在說話人模型上的似然得分 的提高,則判定測試語音為非樣本復制語音。
[0018] 進一步的,所述目標說話人為一個或多個,當目標說話人為多個時,分別為每個目 標說話人建立語音特征庫,并進行相應的說話人識別模型訓練和樣本復制語音檢測模型訓 練。
[0019] 進一步的,步驟S4中,說話人識別包括說話人確認和/或說話人鑒別;說話人確認 用于判斷測試語音是否來自其所聲稱的目標說話人,說話人鑒別用于判斷測試語音來自語 音庫中的哪一個目標說話人。
[0020] 進一步的,說話人確認具體包括:將測試語音在其聲稱的目標說話人樣本語音識 別模型上打分,并將得分和系統閾值比較,大于閾值則判定測試語音來自其所聲稱的目標 說話人。
[0021 ]進一步的,說話人鑒別具體包括:將測試語音在每一個目標說話人樣本語音識別 模型上分別打分,將得分最高的模型作為鑒別結果,即測試語音來自該模型對應的目標說 話人。
[0022] 本發明的樣本復制語音自動檢測方法,基于擬合精度關聯的得分單調性變化現 象。其原理是,在聲紋識別系統中進行模型訓練時,模型階數的提高對應模型擬合精度的提 高,模型擬合精度的逐步提高會帶來原始模型訓練語音(樣本復制語音)的似然得分的關聯 性逐步提高。對于一個未知測試語音,將它在不同階數的模型上計算似然得分,根據似然得 分隨階數的增長關系就可以區分此測試語音是否為樣本復制語音。
[0023] 本發明的樣本復制語音自動檢測方法,可以防止冒認者獲取到用于聲紋識別系統 訓練模型的樣本復制語音后,試圖通過越過測試語音采集步驟,直接調用服務端接口的方 式將樣本復制語音直接提交給聲紋識別系統的服務端進行入侵的情況發生,提高了聲紋識 別系統的安全性。
【附圖說明】
[0024] 圖1為本發明的樣本復制語音自動檢測方法的流程示意圖;
[0025] 圖2為在模型訓練階段訓練多精度擬合說話人模型的流程示意圖;
[0026] 圖3為檢測通過的語音是否為樣本復制語音的流程示意圖;
[0027] 圖4為樣本復制語音和非樣本復制語音的似然得分隨GMM模型的擬合精度增高呈 現的變化趨勢圖。
【具體實施方式】
[0028] 本發明提供了一種基于多精度擬合的樣本復制語音自動檢測方法,如附圖1所示, 分為訓練階段和測試階段,訓練階段在樣本語音特征提取之后進行,測試階段在聲紋識別 任務之后進行。具體的,包括如下步驟:
[0029] 1)采集目標說話人的樣本語音,提取所有樣本語音的特征,建立樣本語音特征庫;
[0030] 2)使用樣本語音特征庫中的特征文件,訓練目標說話人樣本語音識別模型及目標 說話人樣本復制語音檢測模型;訓練模型時設置不同的模型參數使系統的擬合精度遞增, 分別保存這些模型,用于樣本語音檢測;
[0031] 3)錄入測試語音,提取測試語音特征,并使用測試語音的特征文件,在目標說話人 樣本語音識別模型上進行說話人確認和/或說話人鑒別;
[0032] 其中,說話人確認具體包括:將測試語音在其聲稱的目標說話人樣本語音識別模 型上打分,并將得分和系統閾值比較,大于閾值則判定測試語音來自其所聲稱的目標說話 人;說話人鑒別具體包括:將測試語音在每一個目標說話人樣本語音識別模型上分別打分, 將得分最高的模型作為鑒別結果,即測試語音來自該模型對應的目標說話人;若通過說話 人識別測試,進入下一步;
[0033] 4)對通過說話人識別測試的測試語音,在目標說話人樣本復制語音檢測模型上進 行樣本復制語音檢測并打分;對單個測試語音的多個得分進行排序,如果在擬合精度越高 的模型上得分越高,表明測試語音為樣本復制語音;反之,如果在擬合精度越高的模型上得 分并非越高,則表明測試語音非樣本復制語音。
[0034]為了進一步理解本發明,下面結合具體實施例對本發明的優選實施方案進行描 述,但是應當理解,這些描述只是為進一步說明本發明的特征和優點,而不是對本發明權利 要求的限制。
[0035] 由于說話人識別在現有的聲紋識別系統中已得到普遍的應用,在此不多作說明。 此處主要說明樣本復制語音檢測模型的訓練和樣本復制語音的檢測。
[0036] 1、樣本復制語音檢測模型訓練階段
[0037] 在模型訓練階段訓練多精度擬合(不同階數)的目標說話人模型,即目標說話人樣 本復制語音檢測模型,這里以高斯混合模型(GMM,Gaussian Mixture Model)為例。如圖2所 示,模型訓練階段主要分為三個步驟:
[0038] 1)采集目標說話人的樣本語音:常使用的采樣頻率為8KHz,IOKHz或16KHz;
[0039] 2)提取樣本語音的梅爾頻率倒譜系數(MFCC)特征:MFCC參數取5~18階即可,通常 會加上一維能量特征和MFCC的一階delta特征,以保存局部語音的變化信息;
[0040] 3)和以往的聲紋識別系統不同,這里要訓練多精度擬合的說話人模型,即多個階 數的GMM模型:訓練時GMM階數分別設置為8、128、256、512、1024,其它參數則保持一致,得到 的模型集合為M8、Ml28、M256、M512、Ml024 ;
[0041 ]此處是以GMM模型為例進行說明,調整GMM模型的高斯分量個數可以改變模型的擬 合精度,但在使用其它模型的聲紋識別系統中可能要調整其它參數以達到同樣的效果。 [0042] 2、樣本復制語音檢測階段
[0043] 此階段放在聲紋識別系統的后端,即先進行聲紋識別任務,識別通過的語音進一 步檢測是否為樣本復制語音。如圖3所示,具體分為如下幾個步驟:
[0044] 1)測試語音錄入:這里的測試語音可能是樣本復制語音,也可能是其它非樣本復 制語首;
[0045] 2)特征提取:和模型訓練時保持一致,仍然提取MFCC特征;
[0046] 3)使用測試語音的MFCC在所有GMM模型上計算似然得分;
[0047] 4)對得分進行排序,如果得分滿足S1Q24>S512>S256>S 128>S8則判定此測試語音為樣本 復制語音;否則,則判定測試語音為非樣本復制語音。
[0048]以上判斷依據是基于GMM模型的擬合精度增高時,擬合精度更高的模型更逼近樣 本數據的實際分布。由于GMM模型參數估計基于最大似然準則,該模型生成給定樣本的概率 比擬合精度低的模型要大,樣本語音在該模型上的似然得分就更高;與此對應的是擬合精 度更高的模型對非樣本語音的音素空間描述能力降低,該模型生成非樣本語音的概率減 小,相應的似然得分就更小。即樣本復制語音和非樣本復制語音的似然得分隨GMM模型的擬 合精度(這里選取的擬合精度的因變量為模型階數)增高呈現不同的變化趨勢,如圖4所示, 其中前6個測試語音為樣本復制語音,后面54個為非樣本復制語音。
[0049]上述實施例中的樣本復制語音自動檢測方法在MASC0CCNT庫上進行了實驗,該庫 包含68個說話人的語音數據,以1號說話人為例,此庫包含其20種不同短文本的發音,每種 文本包含三遍發音,一共60句。
[0050] 我們選取其前6種文本的第一遍發音作為樣本語音,MFCC階數為12階,訓練GMM模 型,GMM階數分別選擇8、128、256、512、1024。這樣每個說話人就得到5個GMM模型,一共得到 68*5個GMM模型。
[0051] 然后用每個說話人所有60句語音進行交叉測試。每個測試語句在不同目標說話人 的8個模型上進行打分。一共進行(68*60)*(68*5)次測試。
[0052] 統計每個測試語句在目標說話人的不同GMM模型上的得分,如果測試語音為目標 說話人的樣本復制語音并且得分滿足S1Q24>S 512>S256>S128>S8;或者,測試語音不是目標說話 人的樣本復制語音并且得分不滿足SlQ24>S512>S256>Sl28>S8,則表明檢測成功。實驗結果顯不, 識別正確率達到99.3%。
[0053]還需指出,上述實驗中,模型階數需適當選擇,過于低階的模型之間區分性不大, 比如8階和16階、32階、64階之間,得分比較相近,可以只選擇一個8階代表這幾個低階模型。 檢測正確率如表1所示。
[0054]表1模型階數選擇與檢測正確率的關系
L0056J 以上實施例的說明只是用于幫助理解本發明的方法及其核心思想。應當指出,對 于本技術領域的普通技術人員來說,在不脫離本發明原理的前提下,還可以對本發明進行 若干改進和修飾,這些改進和修飾也落入本發明權利要求的保護范圍內。
【主權項】
1. 一種基于多精度擬合的樣本復制語音自動檢測方法,其特征在于,包括如下步驟: 51、 建立語音特征庫:采集目標說話人的樣本語音,提取所有樣本語音的特征,建立樣 本語音特征庫; 52、 目標說話人識別模型訓練:使用所述樣本語音特征庫中的特征文件,訓練目標說話 人樣本語音識別模型; 53、 樣本復制語音檢測模型訓練:使用所述樣本語音特征庫中的特征文件,訓練目標說 話人樣本復制語音檢測模型; 54、 說話人識別:錄入測試語音,提取所述測試語音特征,在所述目標說話人樣本語音 識別模型上進行說話人識別,判斷測試語音是否來源于目標說話人;若通過說話人識別測 試,進入下一步; 55、 樣本復制語音檢測:對通過說話人識別測試的測試語音,在所述目標說話人樣本復 制語音檢測模型上進行樣本復制語音檢測,判斷測試語音是否為樣本復制語音。2. 如權利要求1所述的基于多精度擬合的樣本復制語音自動檢測方法,其特征在于,步 驟S3中,訓練目標說話人樣本復制語音檢測模型包括:在訓練時通過設置不同的僅影響模 型的擬合精度的模型參數,得到僅擬合精度不同的說話人模型集合,即多精度擬合的說話 人模型,作為目標說話人樣本復制語音檢測模型。3. 如權利要求2所述的基于多精度擬合的樣本復制語音自動檢測方法,其特征在于,步 驟S3中,所述的樣本復制語音包括樣本語音的副本或副本的一部分,以及在樣本語音采集 過程中入侵者使用同樣的設備偷錄的語音。4. 如權利要求2或3所述的基于多精度擬合的樣本復制語音自動檢測方法,其特征在 于,步驟S5中,所述的樣本復制語音檢測包括:將測試語音在目標說話人樣本復制語音檢測 模型中的僅擬合精度不同的多個說話人模型上分別打分,并將似然得分進行排序,根據得 分排序結果判定測試語音是否為樣本復制語音。5. 如權利要求4所述的基于多精度擬合的樣本復制語音自動檢測方法,其特征在于,若 測試語音在擬合精度越高的說話人模型上得分越高,則判定測試語音為樣本復制語音;反 之,若擬合精度的提高未引起測試語音在說話人模型上似然得分的提高,則判定測試語音 為非樣本復制語音。6. 如權利要求1-5任一項所述的基于多精度擬合的樣本復制語音自動檢測方法,其特 征在于,所述目標說話人為一個或多個,當目標說話人為多個時,分別為每個目標說話人建 立語音特征庫,并進行相應的說話人識別模型訓練和樣本復制語音檢測模型訓練。7. 如權利要求6所述的基于多精度擬合的樣本復制語音自動檢測方法,其特征在于,步 驟S4中,說話人識別包括說話人確認和/或說話人鑒別;說話人確認用于判斷測試語音是否 來自其所聲稱的目標說話人,說話人鑒別用于判斷測試語音來自語音庫中的哪一個目標說 話人。8. 如權利要求7所述的基于多精度擬合的樣本復制語音自動檢測方法,其特征在于,說 話人確認具體包括:將測試語音在其聲稱的目標說話人樣本語音識別模型上打分,并將得 分和系統閾值比較,大于閾值則判定測試語音來自其所聲稱的目標說話人。9. 如權利要求7所述的基于多精度擬合的樣本復制語音自動檢測方法,其特征在于,說 話人鑒別具體包括:將測試語音在每一個目標說話人樣本語音識別模型上分別打分,將得 分最高的模型作為鑒別結果,即測試語音來自該模型對應的目標說話人。
【文檔編號】G10L17/06GK105938716SQ201610192323
【公開日】2016年9月14日
【申請日】2016年3月30日
【發明人】楊瑩春, 孫永坤, 吳朝暉
【申請人】浙江大學