一種說話人識別方法和裝置制造方法
【專利摘要】本發明適用于說話人識別領域,提供了一種說話人識別方法和裝置,該方法包括:提取JFA說話人超向量,所述JFA說話人超向量為通過聯合因子分析方法去除信道信息影響的高斯混合模型GMM超向量;對所提取的JFA說話人超向量進行分段,將JFA說話人超向量劃分為多個子向量集;根據分段所得到的多個子向量集,對每個子向量集進行非參數區分分析,建立子空間說話人模型;根據所述子空間說話人模型獲取待識別說話人的參考向量以及訓練樣本說話人的參考向量進行說話人識別。和現有技術相比,本發明運算量小;而且測試數據收集簡單,提高識別性能。
【專利說明】一種說話人識別方法和裝置
【技術領域】
[0001]本發明屬于語音識別領域,尤其涉及一種說話人識別方法和裝置。
【背景技術】
[0002]隨著計算機技術及互聯網技術的不斷進步,智能設備在人們的生活中已經變得越來越不可或缺。而作為人與智能設備之間交互方式之一的語音交互,由于其具有采集簡便、易于存儲、難于模仿、語音獲取的成本低廉等特性,也成為了研究領域的熱點。
[0003]目前的智能語音處理方式,根據所利用的語音信息的不同,主要分為:語音識別(Speech Recognit1n)、語種識別(Language Recognit1n)以及說話人識別(SpeakerRecognit1n)等。其中,語音識別的目標在于判斷出語音信號中所傳遞的是何種語義信息;語種識別的目標是識別出語音信號所屬的語言種類或者方言類型;說話人識別則是通過提取表征說話人的個性特征,識別出說話人的身份。
[0004]由于語音是身份信息的重要載體,與人臉、指紋等其他生物特征相比,語音的獲取成本低廉,使用簡單,便于遠程數據采集,且基于語音的人機交流界面更為友好,因此說話人識別技術成為重要的自動身份認證技術。
[0005]目前經常使用的說話人識別的方法包括基于高斯混合模型-通用背景模型GMM-UBM進行說話人語音識別,雖然GMM-UBM模型具有一定的噪聲魯棒性,但是由于該模型在訓練時沒有考慮到信道的影響,當訓練語音和測試語音來自不同的信道時,導致其識別性能急劇下降。
[0006]為克服信道失配時所帶來的識別性能的降低,現有技術提出了一種基于GMM-UBM模型的聯合因子分析(Joint Factor Analysis, JFA))方式,來進行說話人識別。但是,由于JFA理論建立在GMM-UBM模型的框架基礎上,假設說話人的GMM均值超向量所包含的主要信息可以映射到兩個相互獨立的低維子空間中,采用EM迭代算法對基于GMM模型框架的空間載荷矩陣進行估計,在計算過程中無法脫離GMM模型框架。基于JFA理論的說話人確認方法是在測試過程中根據已估計好的參數對說話人模型進行了信道補償,測試性能差。
【發明內容】
[0007]本發明實施例的目的在于提供一種基于JFA說話人超向量的非參數區分的說話人識別方法,以解決現有技術基于GMM-UBM模型的聯合因子分析方式,來進行說話人識別時測試性能差的問題。
[0008]本發明所述說話人識別方法,包括下述實施步驟:
[0009]提取JFA說話人超向量,所述JFA說話人超向量為通過聯合因子分析方法去除信道信息影響的高斯混合模型GMM超向量;
[0010]對所提取的JFA說話人超向量進行分段,將JFA說話人超向量劃分為多個子向量集;
[0011]根據分段所得到的多個子向量集,對每個子向量集進行非參數區分分析,建立子空間說話人模型;
[0012]根據所述子空間說話人模型獲取待識別說話人的參考向量以及訓練樣本說話人的參考向量,根據預設的計算規則,以及所述待識別說話人的參考向量以及所述訓練樣本說話人的參考向量進行說話人識別。
[0013]本發明實施例的另一目的在于提供一種說話人識別裝置,其特征在于,所述裝置包括:
[0014]提取單元,用于提取JFA說話人超向量,所述JFA說話人超向量為通過聯合因子分析方法去除信道信息影響的高斯混合模型GMM超向量;
[0015]分段單元,用于對所提取的JFA說話人超向量進行分段,將JFA說話人超向量劃分為多個子向量集;
[0016]建模單元,用于根據分段所得到的多個子向量集,對每個子向量集進行非參數區分分析,建立子空間說話人模型;
[0017]識別單元,用于根據所述子空間說話人模型獲取待識別說話人的參考向量以及訓練樣本說話人的參考向量,根據預設的計算規則,以及所述待識別說話人的參考向量以及所述訓練樣本說話人的參考向量進行說話人識別。
[0018]在本發明中,提取了說話人的去除信道信息影響的GMM超向量作為JFA說話人超向量,既能夠詳細描述說話人的個性特征,又去除了通信信息的影響,通過對JFA說話人超向量進行分段后,再進行非參數區分分析,建立子空間說話人模型,由訓練好的子空間說話人模型獲取待識別說話人的參考向量以及訓練樣本說話人的參考向量,根據預設的計算規則進行識別。和現有技術相比,由于對JFA超向量進行了非參數區分分析,進而提取了類別邊界的區分信息,從而提高說話人識別系統性能。
【專利附圖】
【附圖說明】
[0019]圖1是本發明實施例提供的說話人識別方法的實現流程圖;
[0020]圖2是本發明實施例提供的采用平均劃分方法,將所述JFA說話人超向量劃分為多個子向量集的流程示意圖;
[0021]圖3示出了采用非平均劃分方法,將所述JFA說話人超向量劃分為多個子向量集的流程示意圖;
[0022]圖4示出了對每個子向量集進行非參數區分分析,建立子空間說話人模型的流程示意圖;
[0023]圖5為本發明實施例提供的說話人識別的流程示意圖;
[0024]圖6為本發明實施例提供的R-NDA系統的5組實驗結果;
[0025]圖7為本發明基于GMM算法聚類分段的非參數區分說話人確認系統的5組實驗結果;
[0026]圖8為本發明基于GMM均值向量維度分段的F-NDA和FD-NDA系統的實驗結果;
[0027]圖9本發明實施例提供的說話人識別裝置的結構示意圖。
【具體實施方式】
[0028]為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實例僅僅用以解釋本發明,并不用于限定本發明。
[0029]鑒于聯合因子分析JFA理論作用于高斯混合模型-通用背景模型GMM-UBM系統中能夠取得很好的失配補償效果,所以,本申請將將基于聯合因子分析的失配補償方法應用到基于非參數區分分析技術的說話人確認系統中。我們提取了說話人的去除部分信道信息影響的GMM超向量即JFA說話人超向量,以此作為代表說話人信息的新的特征表達,通過這種方式將每個說話人不同長度的語音轉換成具有相同維度的高維特征向量。JFA說話人超向量具有GMM超向量的特點,即能夠詳細描述說話人個性特征,又去除了信道信息的影響,所以可直接用于說話人確認系統的特征輸入。但是JFA說話人超向量具有很高的維度,也包含了較多的冗余信息。針對這個問題,本申請通過采用基于非參數區分分析的子空間說話人建模方法,首先對JFA說話人超向量進行壓縮規整,再采用非參數分析的方法構造分類面,最后建立子空間說話人模型。在NIST 2008核心評測任務上的實驗表明,該方法獲得了比JFA系統更好的性能。下面結合附圖進行詳細說明:
[0030]圖1示出了本發明實施例提供的說話人識別方法的實現流程,詳述如下:
[0031]在步驟SlOl中,提取JFA說話人超向量,所述JFA說話人超向量為通過聯合因子分析方法去除信道信息影響的高斯混合模型GMM超向量。
[0032]具體的,所述提取JFA說話人超向量步驟為:
[0033]獲取說話人聲音所對應的高斯混合模型GMM,所述高斯混合模型包括C個高斯成分,語音特征向量的維度為F ;
[0034]根據聯合因子分析,去除信道信息后,得到由GMM模型中的各個高斯成分的均值向量按順序拼接起來的對每句話s的超向量Jh,s的表達式:
[0035]Jh, s = m+Vyh;s+Dzh;s
[0036]其中,m代表的是GMM模型中的均值超向量;V是說話人本征音載荷矩陣,是一個(CXF) XRv的矩陣,Rv為說話人因子數;U是本征信道載荷矩陣,是一個(CXF) XRu的矩陣,Ru是信道因子數山是殘差載荷矩陣,是一個(CXF)X(CXF)的對角矩陣,代表的是用V空間無法擬合的每次說話形成的與說話人信息相關的一個空間.?,ζ分別是對應的說話人因子、殘差因子,它們均服從標準正態分布。
[0037]聯合因子分析理論認為,在基于GMM-UBM模型說話人確認框架中,通過最大后驗概率(英文全稱為Maximum A Poster1ri,英文簡稱為MAP)方法得到的說話人s的GMM模型的均值超向量主要包含了說話人和信道兩部分信息,且這兩部分信息均服從高斯分布。采用聯合因子分析方法將子空間說話人模型中的信道信息去除后,可以大幅提高說話人確認系統的性能。為了利用聯合因子分析技術在解決信道失配情況下的優勢,本實施例采用聯合因子分析去噪后的子空間說話人模型的均值超向量作為說話人的特征。假設對來自說話人的一條語音建立一個子空間說話人模型,由GMM模型中的各個高斯成分的均值向量按順序拼接起來的超向量,可以將每條不同長度的語音轉換成具有同一維度且去除了信道信息影響的均值超向量。
[0038]在步驟S102中,對所提取的JFA說話人超向量進行分段,將JFA說話人超向量劃分為多個子向量集。
[0039]具體可選的,采用GMM算法對UBM模型的所有高斯均值向量進行聚類,根據聚類結果,可以使用平均劃分,或者非平均劃分,將所述JFA說話人超向量劃分為多個子向量集。
[0040]如圖2所示為采用平均劃分方法,將所述JFA說話人超向量劃分為多個子向量集的流程示意圖。
[0041]在步驟S201中,給定一個具有M個混合高斯成分的UBM模型,將M個高斯成分的均值向量IV (j = 1,2,...,M)作為訓練樣本來訓練一個具有K個混合高斯成分的GMM模型;
[0042]在步驟S202中,對于UBM模型中的每個高斯成分的均值向量,計算其在所述GMM模型中每個混合高斯成分的占有率,即所述高斯成分的均值向量屬于所述每個混合高斯成分的后驗概率,這樣對于每個高斯成分的均值向量,可以得到K個后驗概率;
[0043]在步驟S203中,如果某一高斯成分的均值向量1?對應于GMM模型中的第k個高斯成分的后驗概率取得最大值P ,那么就將劃分到第k類;
[0044]在步驟S204中,根據步驟S203所述的高斯成分的均值向量的劃分方式,將所有M個高斯成分的均值向量劃分到K個類別中去;
[0045]在步驟S205中,對于第k個類別中的高斯成分的均值向量m',m”…,',取其在UBM模型中的高斯成分的順序值indm',indm2,...,Indnw進行升序排列,得到
"?C.9
[0046]在步驟S206中,對于每個類別k,按照,zW?。,…,zW.h、的順序從訓練樣品中各個JFA說話人超向量中依次取出相應的均值成分進行拼接,形成JFA說話人超向量的第k個子向量集合。
[0047]圖3示出了采用非平均劃分方法,將所述JFA說話人超向量劃分為多個子向量集的流程示意圖,具體包括以下步驟:
[0048]在步驟S301中,給定一個具有M個混合高斯成分的UBM模型,將M個高斯成分的均值向量IV (j = 1,2,...,M)作為訓練樣本來訓練一個具有K個混合高斯成分的GMM模型;
[0049]在步驟S302中,對于UBM模型中的每個高斯成分的均值向量,計算其在所述GMM模型中每個混合高斯成分的占有率,即所述高斯成分的均值向量屬于所述每個混合高斯成分的后驗概率,這樣對于每個高斯成分的均值向量,可以得到K個后驗概率;
[0050]在步驟S303中,如果某一高斯成分的均值向量IHj對應于GMM模型中的第k個高斯成分的后驗概率取得最大值iT X,那么就將劃分到第k類;
[0051]在步驟S304中,若第k類中的高斯成分的均值向量的數目已經超過平均值M/K,則將^rx與已經分到該類中的均值所對應的后驗概率的最小值進行比較,如果f較大,則將高斯成分的均值向量劃分到第k類,同時將最小后驗概率對應的均值向量按照同樣的方式劃分到其它類別中,否則,若P較小,則將按照其對應的第二大的后驗概率值劃分到相應類別中去;
[0052]在步驟S305中,按照步驟S304所述方式,將所有M個高斯成分的均值向量Hij劃分到K個類別中去;
[0053]在步驟S306中,對于第k個類別中的高斯成分的均值向量?..,m、,取其在UBM模型中的高斯成分的順序值-L''...Jndm進行升序排列,得到IndmiJndmi,...Jndm.9
[0054]在步驟S307中,對于每個類別k,按照JndlhJndm^Jndmt的順序從訓練樣品中各個JFA說話人超向量中依次取出相應的均值成分進行拼接,形成JFA說話人超向量的第k個子向量集合。
[0055]JFA說話人超向量是通過對GMM-UBM框架中的說話人的GMM模型的均值超向量進行聯合因子分析后得到的。因此,JFA說話人超向量不僅去除了信道信息的干擾而且還具有GMM模型的均值超向量的結構。對于文本無關的說話人識別來說,可以認為GMM的每個高斯成分模擬了來自說話人的某個語音素的聲學特征,描述了不同的音素分布。子空間說話人模型從根本上來說是通過UBM模型得來的,而UBM模型使用大量的說話人的語音訓練得到的,描述了大量的語音特征向量在空間中的分布,每個高斯成分可以認為是對特征向量的一個軟分類。在通過最大后驗概率MAP算法訓練說話人模型的時候,說話人模型的參數是由UBM參數和訓練數據的最大期望EM統計量經過運算得到,所以,UBM模型可以看作是說話人模型的一個先驗基準模型。以GMM-UBM框架中的說話人模型的自適應建模為例,說話人模型的均值可以看作是在UBM模型均值基礎上的平移,說話人模型之間的差異主要體現在均值上,通過這樣的方式,不同說話人模型的均值超向量中的高斯成分均值就按照UBM模型中的高斯成分一一對應起來。同樣道理,由說話人模型經過聯合因子分析技術得到的JFA說話人超向量的均值成分也是與UBM模型中的高斯成分是對應的。這是由于這樣的對應關系,JFA說話人超向量才能作為說話人的新的特征表達。
[0056]UBM模型描述了大量說話人的聲學特征分布,即大量音素類的分布,UBM模型中的每個高斯成分描述了一個廣義的音素類的分布。UBM模型往往具有很多的高斯成分混合數目,然而,當高斯混合成分數目過高時,某些高斯函數之間的相似度就比較高,這正是由于高混合數目的UBM模型對音素類的分布描述的非常詳細,而某些音素類又比較相似的原因引起的。在對JFA說話人超向量的子空間區分建模中,若將相似的音素類對應的均值成分按順序排在一起,將差異較大的音素類間隔開的話,可以提高JFA說話人超向量中所包含的區分信息,從而提高系統性能。
[0057]在步驟S103中,根據分段所得到的多個子向量集,對每個子向量集進行非參數區分分析,建立子空間說話人模型。
[0058]具體可選的,所述根據分段所得到的多個子向量集,對每個子向量集進行非參數區分分析,建立子空間說話人模型步驟可以包括如圖4所述以下步驟:
[0059]在步驟S401中,采用主成分分析PCA方法去除包含在子向量集中的冗余信息,得到每個子向量集的降維后的投影矩陣。
[0060]具體的,采用主成分分析(Principal Component Analysis,PCA)方法去除包含在子向量中的冗余信息,如圖5中所示的非參數分析部分中對應于各個子向量集的投影矩陣表達式中的子投影矩陣Wn,Wkl,...,Wki就是PCA方法的最優降維后的投影矩陣。
[0061]在步驟S402中,采用類內協方差規整WCCN方法作用于所述降維后的投影矩陣,得到每個子向量集相應的子空間投影矩陣。
[0062]米用類內協方差規整(Within-ClassCovariance Normalizat1n, WCCN)來減少同一說話人由于健康狀況或者情緒變化等因素引起的類內差異,該規整方法是應用于經過PCA方法投影后的特征向量集上的。圖5中所示的非參數分析部分中對應于各個子向量集的投影矩陣表達式中的子投影矩陣W12,Wk2,...,Wk2就是WCCN特征規整方法作用后得到的子空間投影矩陣。
[0063]在步驟S403中,采用非參數線性區分分析方法提取所述子空間投影矩陣的類邊界的區分信息,得到每個子向量集中的非參數線性性區分分析投影矩陣。
[0064]具體的,提出非參數線性區分分析方法來提取類邊界的區分信息,從而增大類間差異。在進行了前面兩步的降維和特征規整去噪后,新的特征維度又進一步的減小了,這也避免了在最后一步的非參數線性區分分析中所得到的類內散度矩陣出現奇異矩陣的問題。上圖中非參數分析部分中對應于各個子向量集的投影矩陣表達式中的子投影矩陣W13, Wk3,...,Wk3就是非參數線性區分分析方法的投影矩陣。非參數線性區分分析(Nonparametric Linear Discriminant Analysis, NLDA)是對線性區分分析(LinearDiscriminant Analysis, LDA)方法的一種改進。相對于傳統的LDA方法其改進之處主要體現在以下兩個方面:
[0065]A.考慮到傳統LDA分析中,當樣本維度較高且每類的樣本數目較少時,容易造成所得到的類內散度矩陣Sw是奇異矩陣,使得求解LDA投影矩陣出現困難。針對這個問題,NLDA方法首先采用PCA方法對高維特征向量進行降維,使得類內散度矩陣非奇異,然后為了進一步增強類內散度矩陣,采用WCCN方法對降維后的特征向量進行類內變化規整,使得類內變化在一個單位圓內。
[0066]B.為了增強傳統LDA方法中類間散度矩陣所代表的區分信息,采用非參數子空間分析法來創建一個新的非參數類間散度矩陣S' b,該類間散度矩陣的構建過程充分關注分類邊界附近的樣本點,所以可以更好地描述不同說話人之間的差異信息。采用非參數子空間分析的方法來構建一個新的非參數類間散度矩陣S' b,以此矩陣來更好的描述整個訓練集中不同說話人之間的差異性。給定來自說話人s的第h條語音,設特征向量X' h,s表示該條語音相應的JFA說話人超向量Jh,s的某一已經過PCA和LDA方法的兩次投影后的子向量。考慮到特征向量X, h,s對于構建新的類間散度矩陣的貢獻度問題,本申請采用該樣本與類別界面的遠近程度作為度量。所謂類別界面指的是某個說話人s與其他k個說話人的分界面。新的類間散度矩陣采用下式進行計算:
【權利要求】
1.一種說話人識別方法,其特征在于,所述方法包括: 提取JFA說話人超向量,所述JFA說話人超向量為通過聯合因子分析方法去除信道信息影響的高斯混合模型GMM超向量; 對所提取的JFA說話人超向量進行分段,將JFA說話人超向量劃分為多個子向量集;根據分段所得到的多個子向量集,對每個子向量集進行非參數區分分析,建立子空間說話人模型; 根據所述子空間說話人模型獲取待識別說話人的參考向量以及訓練樣本說話人的參考向量,根據預設的計算規則,以及所述待識別說話人的參考向量以及所述訓練樣本說話人的參考向量進行說話人識別。
2.根據權利要求1所述方法,其特征在于,所述提取JFA說話人超向量步驟具體為: 獲取說話人聲音所對應的高斯混合模型GMM,所述高斯混合模型包括C個高斯成分,語音特征向量的維度為F ; 根據聯合因子分析,去除信道信息后,得到由GMM模型中的各個高斯成分的均值向量按順序拼接起來的對每句話s的超向量Jh,s的表達式:
Jh,s = m+Vyh;s+Dzh;s 其中,m代表的是GMM模型中的均值超向量;V是說話人本征音載荷矩陣,是一個(CXF) XRv的矩陣,Rv為說話人因子數;U是本征信道載荷矩陣,是一個(CXF) XRu的矩陣,Ru是信道因子數山是殘差載荷矩陣,是一個(CXF)X(CXF)的對角矩陣,代表的是用V空間無法擬合的每次說話形成的與說話人信息相關的一個空間.?,ζ分別是對應的說話人因子、殘差因子,它們均服從標準正態分布。
3.根據權利要求1所述方法,其特征在于,所述對所提取的JFA說話人超向量進行分段,將JFA說話人超向量劃分為多個子向量集步驟具體為: 采用GMM算法對UBM模型的所有高斯均值向量進行聚類,根據聚類結果,使用平均劃分或者非平均劃分,將所述JFA說話人超向量劃分為多個子向量集。
4.根據權利要求3所述方法,其特征在于,所述采用GMM算法對UBM模型的所有高斯均值向量進行聚類,根據聚類結果,使用平均劃分,將所述JFA說話人超向量劃分為多個子向量集步驟包括: 給定一個具有M個混合高斯成分的UBM模型,將M個高斯成分的均值向量%_,(j =1,2,...,Μ)作為訓練樣本來訓練一個具有K個混合高斯成分的GMM模型; 對于UBM模型中的每個高斯成分的均值向量,計算其在所述GMM模型中每個混合高斯成分的占有率,即所述高斯成分的均值向量屬于所述每個混合高斯成分的后驗概率,這樣對于每個高斯成分的均值向量,可以得到K個后驗概率; 如果某一高斯成分的均值向量1?對應于GMM模型中的第k個高斯成分的后驗概率取得最大值^1.,那么就將劃分到第k類; 按照上述方式,將所有M個高斯成分的均值向量劃分到K個類別中去; 對于第k個類別中的高斯成分的均值向量"‘’I,”…,' ,取其在UBM模型中的高斯成分的順序值ind?h,indnh,…進行升序排列,得到^< Xl2. 對于每個類別k,按照~<的順序從訓練樣品中各個JFA說話人超向量中依次取出相應的均值成分進行拼接,形成JFA說話人超向量的第k個子向量集合。
5.根據權利要求3所述方法,其特征在于,所述采用GMM算法對UBM模型的所有高斯均值向量進行聚類,根據聚類結果,使用非平均劃分,將所述JFA說話人超向量劃分為多個子向量集步驟包括: 給定一個具有M個混合高斯成分的UBM模型,將M個高斯成分的均值向量%_,(j =1,2,...,Μ)作為訓練樣本來訓練一個具有K個混合高斯成分的GMM模型; 對于UBM模型中的每個高斯成分的均值向量,計算其在所述GMM模型中每個混合高斯成分的占有率,即所述高斯成分的均值向量屬于所述每個混合高斯成分的后驗概率,這樣對于每個高斯成分的均值向量,可以得到K個后驗概率; 如果某一高斯成分的均值向量1?對應于GMM模型中的第k個高斯成分的后驗概率取得最大值iTx,那么就將劃分到第k類; 若第k類中的高斯成分的均值向量的數目已經超過平均值M/K,則將if"與已經分到該類中的均值所對應的后驗概率的最小值進行比較,如果P較大,則將高斯成分的均值向量劃分到第k類,同時將最小后驗概率對應的均值向量按照同樣的方式劃分到其它類別中,否則,若f較小,則將按照其對應的第二大的后驗概率值劃分到相應類別中去;按照上述方式,將所有M個高斯成分的均值向量劃分到K個類別中去; 對于第k個類別中的高斯成分的均值向量"7i,η,2 — ,取其在UBM模型中的高斯成分的順序值如I1 Jndm1....Jndnw進行升序排列,得到1噸',1噸…,wcLh.對于每個類別k,按照.的順序從訓練樣品中各個JFA說話人超向量中依次取出相應的均值成分進行拼接,形成JFA說話人超向量的第k個子向量集合。
6.根據權利要求1所述方法,其特征在于,所述根據分段所得到的多個子向量集,對每個子向量集進行非參數區分分析,建立子空間說話人模型步驟包括: 采用主成分分析PCA方法去除包含在子向量集中的冗余信息,得到每個子向量集的降維后的投影矩陣; 采用類內協方差規整WCCN方法作用于所述降維后的投影矩陣,得到每個子向量集相應的子空間投影矩陣; 采用非參數線性區分分析方法提取所述子空間投影矩陣的類邊界的區分信息,得到每個子向量集中的非參數線性性區分分析投影矩陣; 將所述主要成分分析PCA降維后的投影矩陣、類內協方差規整WCCN后的子空間投影矩陣以及非參數線性區分分析投影矩陣按照順序依次拼接,得到總的子空間投影矩陣。
7.根據權利要求6所述方法,其特征在于,所述采用非參數線性區分分析方法提取所述子空間投影矩陣的類邊界的區分信息,得到每個子向量集中的非參數線性性區分分析投影矩陣步驟包括: 所述類別界面為說話人s與其它k個說話人的分界面,采用非參數子空間分析法創建一個新的非參數類間散度矩陣S, b,其計算公式如下: H Σ Σ左,Λ)(.'ν, — nh (χ?, — nh )y.S=I k=l,k^s h=l
I O
y (/ -1 其中,A(Is)表示來自說話人k的特征向量中與特征向量x, h,s最近鄰的第q個向量,Q為近鄰特征向量的總數,mk(x’h,s)代表Q個近鄰特征向量的均值,g(s,k,h)代表一個權重函數,定義如下:
min ■!</" (λ-;; Λ, φ,(){χ^)), ^ (.ν;,Λ,φ!<(){χ^)) ^
g(s, κ, η) =-;-^-
?° (?.,: 9so(-'V、)) + d° (-'V、, Ψω )) 其中,指數參數α是對距離度量函數d(Xl,X2)的加權調節,Cl(XljX2)是指特征向量X1和X2之間的歐式距離度量,參數Q的取值設為訓練集中每個說話人所有的總的語音條數的均值。
8.根據權利要求1所述方法,其特征在于,所述根據所述子空間說話人模型獲取待識別說話人的參考向量以及訓練樣本說話人的參考向量,根據預設的計算規則,以及所述待識別說話人的參考向量以及所述訓練樣本說話人的參考向量進行說話人識別步驟包括:所述根據所述子空間說話人模型獲取待識別說話人的參考向量Rtrain以及訓練樣本說
ΧΚα?ηΚΑ話人的參考向量Rtost,根據公式叫」11Γ計算兩個參考向量間的余
^-^iram ^train ^test ^test弦距離作為測試得分; 判斷所述得分是否小于預定值,若得分小于預定值,則所述待識別說話人與訓練樣本說話人識別為相同的說話人。
9.一種說話人識別裝置,其特征在于,所述裝置包括: 提取單元,用于提取JFA說話人超向量,所述JFA說話人超向量為通過聯合因子分析方法去除信道信息影響的高斯混合模型GMM超向量; 分段單元,用于對所提取的JFA說話人超向量進行分段,將JFA說話人超向量劃分為多個子向量集; 建模單元,用于根據分段所得到的多個子向量集,對每個子向量集進行非參數區分分析,建立子空間說話人模型; 識別單元,用于根據所述子空間說話人模型獲取待識別說話人的參考向量以及訓練樣本說話人的參考向量,根據預設的計算規則,以及所述待識別說話人的參考向量以及所述訓練樣本說話人的參考向量進行說話人識別。
10.根據權利要求9所述裝置,其特征在于,所述分段單元具體用于采用GMM算法對UBM模型的所有高斯均值向量進行聚類,根據聚類結果,使用平均劃分或者非平均劃分,將所述JFA說話人超向量劃分為多個子向量集。
【文檔編號】G10L17/02GK104167208SQ201410389619
【公開日】2014年11月26日 申請日期:2014年8月8日 優先權日:2014年8月8日
【發明者】李志鋒, 李娜, 喬宇 申請人:中國科學院深圳先進技術研究院