聲紋模型自動重建的方法和裝置的制造方法
【技術領域】
[0001]本申請涉及計算機及信息服務技術領域,特別是涉及一種聲紋模型自動重建的方法和裝置。
【背景技術】
[0002]說話人識別技術,又稱為聲紋識別技術,主要是基于語音中說話人包含的個性特征的信息,利用計算機以及各種信息識別技術,自動地實現說話人身份的確認。
[0003]近幾年來,隨著互聯網的飛速發展,語音作為一種非接觸性信息載體,人們可以依靠各種移動終端設備,例如:手機、麥克風和IP電話等,隨時隨地的完成語音采集,并通過網絡傳輸和后臺服務器來實現人機交互和說話人身份識別。
[0004]目前說話人識別最為主流的技術路線是GMM-UBM框架或者全變量子空間的1-vector模型。對于GMM-UBM框架米用混合高斯模型(Gaussian Mixture Model,GMM)模擬每個說話人模型及單獨的通用背景模型(Universal Background Model,UBM),每個說話人的數十秒語音借助充分語音訓練得到的通用背景模型(UBM),通過模型自適應的方法得到能夠反映說話人自身特征的高斯混合模型(GMM),并使用GMM-UBM進行說話人身份確定。而對于1-vector模型則是預先通過最大期望EM算法迭代求得一個線性變換矩陣T,語音片段借助該線性變換矩陣訓練得到對應的1-vector模型,并使用該1-vector模型進行說話人身份確定。
[0005]上述框架在進行說話人身份確定時存在以下問題:首先,從生理學角度看,說話人的生理特性和發音特性是隨時間不斷發生變化的。例如,聲道長度的變化,基音頻率的變化等。這種變化分為短期變化(一天內不同時段的變化)、中期變化(一年內的變化)、長期變化(年齡段的變化),由于時間變化的不確定性,無法得到一個穩定且魯棒的說話人模型,從而在進行說話人身份確定時,存在說話人識別正確率低的問題,同時,如果持續性的讓用戶提供大量的建模語音必然會大大影響用戶的使用體驗。
[0006]其次,錄音的通訊設備或者移動終端,由于長時間的使用也會出現設備老化、信號不穩等情況,在一定程度上影響到錄音準確性和保真度。
【發明內容】
[0007]本申請提供一種聲紋模型自動重建的方法和裝置,以解決由于時間變化導致說話人模型波動,進而導致話說人識別正確率低的問題。
[0008]為了解決上述問題,本申請公開了一種聲紋模型自動重建的方法,包括:
[0009]將語音數據以時間點為標簽構建時變數據庫,其中,所述時變數據庫包括:參數化的語音數據、語音數據對應的音素和語音數據對應的音素的空間分布信息;
[0010]以時間窗管道為基本單元,按照語音數據的時間順序獲取時變數據庫中參數化的語音數據,其中,所述時間窗管道包括多組語音數據;
[0011]確定獲取的參數化的語音數據對應的音素的空間分布信息,根據確定的所述音素的空間分布信息篩選時間窗管道中的語音數據,獲得篩選后的多組語音數據;
[0012]使用篩選后的多組語音數據更新時間窗管道中的語音數據;
[0013]使用更新后的時間窗管道中的語音數據建立時間窗管道的聲紋模型。
[0014]優選地,將語音數據以時間點為標簽構建時變數據庫的步驟包括:
[0015]使用美爾頻域倒譜系數將所述語音數據以語音數據幀為基本單位進行參數化處理,獲取參數化的語音數據;
[0016]使用語音識別器識別語音數據,獲得語音數據對應的音素;
[0017]根據參數化的語音數據和語音數據對應的音素構建時變數據庫。
[0018]優選地,根據確定的所述音素的空間分布的信息篩選時間窗管道中的語音數據,獲得篩選后的多組語音數據的步驟包括:
[0019]當新的參數化的語音數據進入時間窗管道中時,將新的參數化的語音數據的音素空間分布信息分別與時間窗管道中的原語音數據對應的音素的空間分布信息進行匹配,將匹配概率最高的時間窗管道中的原語音數據更新為新的參數化的語音數據;
[0020]根據更新結果獲得篩選后的多組語音數據。
[0021]優選地,還包括:當時間窗管道中的語音數據更新頻率超過一定閾值時,采用模型自適應的方式創建聲紋模型。
[0022]優選地,所述時間窗管道中可容納的語音數據的數據量為10至20段語音數據,各段語音數據可以是文本相關或文本無關。
[0023]為了解決上述問題,本申請還公開了一種聲紋模型自動重建的裝置,包括:
[0024]構建模塊,用于將語音數據以時間點為標簽構建時變數據庫,其中,所述時變數據庫包括:參數化的語音數據、語音數據對應的音素和語音數據對應的音素的空間分布信息;
[0025]獲取模塊,用于以時間窗管道為基本單元,按照語音數據的時間順序獲取時變數據庫中參數化的語音數據,其中,所述時間窗管道包括多組語音數據;
[0026]確定模塊,用于確定獲取的參數化的語音數據對應的音素的空間分布信息,根據確定的所述音素的空間分布的信息篩選時間窗管道中的語音數據,獲得篩選后的多組語音數據;
[0027]篩選模型,用于使用篩選后的多組語音數據更新時間窗管道中的語音數據;
[0028]建立模塊,用于使用更新后的時間窗管道中的語音數據建立時間窗管道的聲紋模型。
[0029]優選地,構建模塊在將語音數據以時間點為標簽構建時變數據庫包括:
[0030]使用美爾頻域倒譜系數將所述語音數據按照語音數據幀進行參數化處理,獲取參數化的語音數據;
[0031]使用語音識別器識別語音數據,獲得語音數據對應的音素;
[0032]根據參數化的語音數據和語音數據對應的音素構建時變數據庫。
[0033]優選地,確定模塊在根據確定的所述音素的空間分布的信息篩選時間窗管道中的語音數據,獲得篩選后的多組語音數據包括:
[0034]當新的參數化的語音數據進入時間窗管道中時,將新的參數化的語音數據的音素空間分布信息分別與時間窗管道中的原語音數據對應的音素的空間分布信息進行匹配,將匹配概率最高的時間窗管道中的原語音數據更新為新的參數化的語音數據;
[0035]根據更新結果獲得篩選后的多組語音數據。
[0036]優選地,還包括:當時間窗管道中的語音數據更新頻率超過一定閾值時,采用模型自適應的方式創建聲紋模型。
[0037]優選地,所述時間窗管道中可容納的語音數據的數據量為10至20段語音數據,各段語音數據中的文本之間文本相關或文本無關。
[0038]與現有技術相比,本申請包括以下優點:
[0039]本申請首先,將語音數據以時間點為標簽構建時變數據庫,使用時變數據庫存儲用戶各個時間段的語音數據,同時將語音數據進行語音數據幀的參數化處理,從而大大降低了時變數據庫的存儲成本。
[0040]其次,本申請通過以時間窗管道為基本單元,按照語音數據的時間順序獲取時變數據庫中的參數化的語音數據,根據確定出的參數化的語音數據對應的音素的空間分布信息篩選時間窗管道中的語音數據,獲得篩選后的多組語