專利名稱:基于事先知識(shí)的說話者檢驗(yàn)及說話者識(shí)別系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明一般地涉及語音技術(shù),并且尤其涉及一種用于執(zhí)行說話者檢驗(yàn)和說話者識(shí)別的系統(tǒng)和方法。
背景技術(shù):
數(shù)百萬人通過電話實(shí)施秘密的金融事務(wù)處理,例如訪問他們的銀行帳戶或使用他們的信用卡,鑒定問題位于幾乎每個(gè)事務(wù)處理的核心部分。在現(xiàn)行實(shí)踐下的鑒定是不可靠的。該用戶交換某些形式的假定秘密信息,例如社會(huì)保險(xiǎn)編號,母親的少女時(shí)期的姓名或者類似的。顯然,這種信息能被盜用,導(dǎo)致錯(cuò)誤的鑒定。
本發(fā)明的一個(gè)方面通過提供一種用于執(zhí)行說話者檢驗(yàn)的系統(tǒng)和方法處理上述的問題。說話者檢驗(yàn)包括判斷一個(gè)給出的聲音是否屬于一個(gè)確定的說話者(在這里稱為“客戶”)或?qū)儆谝粋€(gè)冒充者(除了客戶的任何人)。
與說話者檢驗(yàn)問題緊密相關(guān)的是說話者識(shí)別問題。說話者識(shí)別包括使一個(gè)給出的聲音與一系列已知聲音中的一個(gè)相符。象說話者檢驗(yàn)一樣,說話者識(shí)別有許多有吸引力的應(yīng)用。例如,一個(gè)說話者識(shí)別系統(tǒng)可以被用于通過一系列說話者中的說話者把聲音郵件分類,這些說話者的聲音抽樣是可利用的。這種性能允許一個(gè)計(jì)算機(jī)執(zhí)行的電話系統(tǒng)在一個(gè)計(jì)算機(jī)屏幕上顯示在該聲音郵件系統(tǒng)上留有消息的呼叫者的標(biāo)識(shí)。
雖然用于說話者檢驗(yàn)和說話者識(shí)別的應(yīng)用實(shí)際上是無窮的,執(zhí)行這兩個(gè)任務(wù)的解決方案迄今為止被證明是難以捉摸的。識(shí)別人的語音和從其他的說話者中特別地鑒別該說話者是一個(gè)復(fù)雜的問題。由于人的語音產(chǎn)生的方式,很少有人以相同的方式講即使一個(gè)簡單的單詞兩次。
人的語音是空氣在壓力下從肺沖擊聲帶,并通過聲門調(diào)整以產(chǎn)生聲波,接著在由舌頭、上顎、牙齒和嘴唇清晰發(fā)音之前在口腔和鼻腔內(nèi)共鳴的產(chǎn)物。許多因素影響這些聲音產(chǎn)生機(jī)制互相運(yùn)行的方式。例如,普通的感冒大大地改變鼻腔的共鳴以及聲帶的聲調(diào)質(zhì)量。
特定的復(fù)雜性和易變性伴隨著人產(chǎn)生語音的過程,說話者檢驗(yàn)和說話者識(shí)別不能容易地通過比較一個(gè)新的語音與預(yù)先存儲(chǔ)的語音抽樣來實(shí)現(xiàn)。為了拒絕冒充者,采用一個(gè)高相似性的閾值,當(dāng)他或她患感冒時(shí)可能拒絕真正的說話者。另一方面,采用一個(gè)低相似性的閾值能夠使該系統(tǒng)傾向錯(cuò)誤的檢驗(yàn)。
發(fā)明內(nèi)容
本發(fā)明利用一個(gè)以模型為基礎(chǔ)的分析法實(shí)現(xiàn)說話者檢驗(yàn)和說話者識(shí)別。模型被構(gòu)成并依據(jù)已知的客戶說話者的語音(或者在說話者檢驗(yàn)的情況下同樣依據(jù)一個(gè)或多個(gè)冒充者的語音)被訓(xùn)練。這些說話者模型典型地采用多種參數(shù)(例如隱藏馬可夫模型或GMM參數(shù))。不直接使用這些參數(shù),而把這些參數(shù)連在一起以形成超矢量。每個(gè)發(fā)言者有一個(gè)超矢量,這些超矢量表示全體發(fā)言者的全部訓(xùn)練數(shù)據(jù)。
在這些超矢量執(zhí)行一個(gè)線性變換導(dǎo)致維數(shù)減少,由此產(chǎn)生一個(gè)低維數(shù)空間我們稱之為本征空間。本征空間的這系列矢量我們稱之為“本征聲音”矢量或“本征矢量”。如果希望,通過放棄一些本征矢量項(xiàng)該本征空間能進(jìn)一步減少維度。
其次,包括訓(xùn)練數(shù)據(jù)的每個(gè)說話者被表示在本征空間,不是作為本征空間中的一個(gè)點(diǎn)就是作為本征空間中的概率分布。因?yàn)檎J(rèn)為每個(gè)說話者沒有相對變化,前者具有低精確度。后者反映每個(gè)說話者的語音從語調(diào)到語調(diào)的變化。
在本征空間上表示用于每個(gè)說話者的訓(xùn)練數(shù)據(jù)后,該系統(tǒng)能被用于執(zhí)行說話者檢驗(yàn)和說話者識(shí)別。
新的語音數(shù)據(jù)被獲得并被用于構(gòu)成一個(gè)超矢量,減小其維度并表示在本征空間中。估計(jì)本征空間中新的語音數(shù)據(jù)和現(xiàn)有數(shù)據(jù)的接近度,說話者檢驗(yàn)和說話者識(shí)別被執(zhí)行。如果在本征空間中從該說話者來的新的語音所對應(yīng)的點(diǎn)或分布是在一個(gè)和用于客戶說話者的訓(xùn)練數(shù)據(jù)的閾值接近度之內(nèi),該從說話者來的新的語音被檢驗(yàn)。如果該新的語音在放置在本征空間中的時(shí)候落于靠近一個(gè)冒充者的語音,該系統(tǒng)可能作為真正的冒充者拒絕該新的語音。
說話者識(shí)別用相似的方式執(zhí)行。新的語音數(shù)據(jù)被放置在本征空間中并識(shí)別受過訓(xùn)練的說話者,其用于分布的本征矢量點(diǎn)是最接近的。
估計(jì)本征空間中新的語音數(shù)據(jù)和訓(xùn)練數(shù)據(jù)之間的接近度有許多優(yōu)點(diǎn)。首先,該本征空間用簡單的、低維度方式、每個(gè)完整的說話者而不僅僅選擇每個(gè)說話者的幾個(gè)特征來表示。在本征空間中執(zhí)行的接近度比較能被相當(dāng)快速地完成,因?yàn)閷τ谠诒菊骺臻g中的的維度通常的遠(yuǎn)遠(yuǎn)少于原始說話者模型空間中的或特征矢量空間中的維度。同樣,該系統(tǒng)不需要包括每個(gè)被用于構(gòu)成原始訓(xùn)練數(shù)據(jù)的樣本或說法的新的語音數(shù)據(jù)。通過在這里描述的技術(shù),因?yàn)橐恍┏噶康姆至渴侨鄙俚?,在一個(gè)超矢量上執(zhí)行維度減少是可能的。結(jié)果本征空間中用于分布的點(diǎn)仍然將特別好的代表說話者。
為了更完整的理解本發(fā)明,參照下面說明和附圖描述其目的和優(yōu)點(diǎn)。
圖1闡明一個(gè)典型的隱藏型馬可夫模型(HMM),有助于理解本發(fā)明;圖2是一個(gè)流程圖示出了本征空間構(gòu)成實(shí)施說話者識(shí)別的系統(tǒng)的方式,這里已知的客戶說話者由本征空間中的點(diǎn)表示;圖3是一個(gè)流程圖闡明了本征空間構(gòu)成實(shí)施說話者識(shí)別的系統(tǒng)的方式,這里客戶說話者和潛在的冒充者由本征空間中的分布表示;圖4是一個(gè)流程圖闡明了在訓(xùn)練期間利用本征空間開發(fā)執(zhí)行說話者識(shí)別或說話者檢驗(yàn)的過程;圖5是一個(gè)執(zhí)行最大概似法技術(shù)的舉例說明;圖6是一個(gè)數(shù)據(jù)結(jié)構(gòu)圖闡明了如何從基于最大概似法運(yùn)算放入本征空間的一個(gè)說話者觀測數(shù)據(jù);圖7闡明了一個(gè)典型的高斯混合模型(GMM),有助于理解本發(fā)明;圖8是一個(gè)流程圖示出了從被用于產(chǎn)生隨機(jī)語音模型的本征空間的點(diǎn)的方式;圖9是一個(gè)流程圖闡明了利用從說話者空間產(chǎn)生的語音模型執(zhí)行識(shí)別或說話者檢驗(yàn)的過程;圖10是一個(gè)流程圖示出了一種近似法以基于口語字之間的平均間隔登記說話者到請求附加語音;和圖11是一個(gè)流程圖示出了另一種近似法以基于說話者空間內(nèi)的總密度登記說話者到請求附加語音。
具體實(shí)施例方式
被本發(fā)明采用的該本征聲音技術(shù)將工作于多種不同的語音模型。我們將結(jié)合一個(gè)隱藏馬可夫模型識(shí)別器闡明該優(yōu)選實(shí)施例,因?yàn)樵诂F(xiàn)今的語音識(shí)別技術(shù)中它的普遍性。然而,應(yīng)當(dāng)理解能利用其他類型的基礎(chǔ)模型識(shí)別器實(shí)行本發(fā)明,例如,語音近似性識(shí)別器。
為了更好的理解本發(fā)明的說話者識(shí)別和說話者檢驗(yàn),一個(gè)語音識(shí)別系統(tǒng)的基本的了解是有幫助的。由于現(xiàn)如今的語音識(shí)別系統(tǒng)最多的采用隱藏馬可夫模型(HMM)表示語音,將在這里描述該HMM技術(shù)以使讀者熟悉該技術(shù)。
該隱藏馬可夫模型是一個(gè)包括狀態(tài)圖表的模型化法。任何語音單元(例如一個(gè)短語、單詞、子字或類似的)能被模型化,所有的知識(shí)資源包括在模型中。該HMM表示一個(gè)未知的過程,該過程在不連續(xù)的時(shí)間間隔產(chǎn)生一序列可觀測的輸出,該輸出由一些有限的字母構(gòu)成(相應(yīng)于預(yù)先確定的一組語音單元)。這些模型被稱為“隱藏的”,因?yàn)樵摖顟B(tài)序列所產(chǎn)生的可觀測的輸出是不可知的。
如在圖1中闡明的,一個(gè)HMM10由一組狀態(tài)(S1、S2...S5)、矢量和一組概率數(shù)據(jù)舉例說明,矢量定義在確定的狀態(tài)對之間的轉(zhuǎn)換,如圖1中箭頭。特別地,該隱藏馬可夫模型包括一系列與轉(zhuǎn)換矢量結(jié)合的轉(zhuǎn)換概率12和一系列與在每個(gè)狀態(tài)與可觀測輸出結(jié)合的輸出概率14。該模型被定時(shí)在有規(guī)律地隔開的、不連續(xù)的時(shí)間間隔上從一個(gè)狀態(tài)到另一個(gè)狀態(tài)。在定時(shí)時(shí)間,該模型可以從它的當(dāng)前狀態(tài)改變到存在一個(gè)轉(zhuǎn)換矢量的任何狀態(tài),如舉例說明的,一個(gè)轉(zhuǎn)換能從一個(gè)給定狀態(tài)返回到其本身。
該轉(zhuǎn)換概率表示當(dāng)模型被定時(shí)時(shí)將可能發(fā)生的從一個(gè)狀態(tài)到另一個(gè)狀態(tài)的轉(zhuǎn)換。因此,如圖1中闡明的,每個(gè)轉(zhuǎn)換對應(yīng)于一個(gè)概率值(在0和1之間)。離開任何狀態(tài)的概率的總和等于1。為了舉例說明目的,在轉(zhuǎn)換概率表12中給出了典型的轉(zhuǎn)換概率值。應(yīng)當(dāng)理解在一個(gè)運(yùn)行的實(shí)施例中這些值將由訓(xùn)練數(shù)據(jù)產(chǎn)生,其受到離開任何狀態(tài)的概率的總和等于1的約束。
每當(dāng)一個(gè)轉(zhuǎn)換發(fā)生,該模型能被作為發(fā)出或輸出的一個(gè)構(gòu)成它的字母考慮。在圖1中闡明的實(shí)施例中,一個(gè)以語音為基礎(chǔ)的話音單元被假定。在輸出概率表14中被鑒別的符號對應(yīng)于標(biāo)準(zhǔn)英語中的一些語音。每次轉(zhuǎn)換時(shí)這些字母中的哪個(gè)發(fā)出取決于訓(xùn)練期間學(xué)習(xí)的輸出概率值或函數(shù)。該發(fā)出的輸出從而表示一個(gè)可觀測的序列(基于該訓(xùn)練的數(shù)據(jù))和字母的每個(gè)都有可能被發(fā)出。
在模型化語音時(shí),通常將輸出作為一系列連續(xù)的矢量,而不是一系列單獨(dú)字母符號序列。這需要該輸出概率由連續(xù)的概率函數(shù)表示,而不是單個(gè)的數(shù)值。因此HMM被經(jīng)?;诎ㄒ粋€(gè)或多個(gè)高斯分布的概率函數(shù)實(shí)施。當(dāng)多個(gè)高斯函數(shù)被使用時(shí),如在16說明的,它們被通常的相加地混合在一起以定義一個(gè)復(fù)雜的概率分布。
無論以一個(gè)簡單的高斯函數(shù)或一個(gè)高斯函數(shù)的混合表示,該概率分布能由多個(gè)參數(shù)描述。象轉(zhuǎn)換概率值(表12)一樣,這些輸出概率參數(shù)可能包括浮點(diǎn)數(shù)量。參數(shù)表18基于從受過訓(xùn)練的說話者的觀測數(shù)據(jù)鑒別通常的用于表示概率密度函數(shù)(pdf)的參數(shù)。如圖1中在高斯函數(shù)16的等式所說明的,對于一個(gè)被模擬的可觀測的矢量0該概率密度函數(shù)是對于每個(gè)混合的組成部分乘以該高斯密度n的混合系數(shù)的迭代和,這里該高斯密度有一個(gè)平均矢量uj和從該倒頻譜(cepstral)或?yàn)V波器組系數(shù)語音參數(shù)計(jì)算的協(xié)方差矩陣Uj。
一個(gè)隱藏馬可夫模型的詳細(xì)執(zhí)行可以從一個(gè)應(yīng)用到另一個(gè)應(yīng)用大大地改變。在圖1中的HMM例子僅僅想要闡明隱藏馬可夫模型的構(gòu)成方式,而不想在本發(fā)明的范圍上作為限制。在這點(diǎn)上,在隱藏馬可夫模型概念上有許多變化。從下面的描述中可以作更全面地了解,本發(fā)明的本征聲音適應(yīng)技術(shù)能夠容易地用于每個(gè)隱藏馬可夫模型,以及以其他基于參數(shù)的語音模擬系統(tǒng)。
圖2和圖3分別地舉例說明了利用本發(fā)明的技術(shù)可以執(zhí)行的說話者識(shí)別和說話者檢驗(yàn)。作為在執(zhí)行說話者識(shí)別或說話者檢驗(yàn)的第一步驟,一個(gè)本征空間被構(gòu)成。該特殊的本征空間依據(jù)應(yīng)用構(gòu)成。在圖2中舉例說明,在說話者識(shí)別的情況下,一系列已知的客戶說話者20被用于提供訓(xùn)練數(shù)據(jù)22,在此基礎(chǔ)上建立本征空間??梢赃x擇的,對于圖3中所示的說話者檢驗(yàn),該訓(xùn)練數(shù)據(jù)22被從對于所希望檢驗(yàn)的客戶說話者或說話者們21a和從一個(gè)或多個(gè)可能的冒充者21b提供。除訓(xùn)練數(shù)據(jù)源的區(qū)別之外,對于說話者識(shí)別和說話者檢驗(yàn)應(yīng)用二者在產(chǎn)生本征空間的程序上本質(zhì)上是相同的。因此,圖2和圖3采用相似的標(biāo)記。
參考圖2和圖3,通過為表示在訓(xùn)練數(shù)據(jù)22中的每個(gè)說話者開發(fā)和訓(xùn)練模型構(gòu)成本征空間。這個(gè)步驟在24被說明并為每一個(gè)說話者產(chǎn)生一系列模型26。盡管在這里舉例說明了隱藏馬可夫模型,本發(fā)明并不被限制于隱藏馬可夫模型。相反地,可以使用任何具有適合于并置的參數(shù)的任何語音模型。最好地,該被訓(xùn)練的模型26具有充分的訓(xùn)練數(shù)據(jù)以便對于每個(gè)說話者由模型定義所有的聲音單元都被至少一個(gè)實(shí)際的語音的例子訓(xùn)練。雖然在圖2和圖3中沒有明確的說明,該模型訓(xùn)練步驟24能夠包括適當(dāng)?shù)妮o助說話者適應(yīng)性處理以改進(jìn)該模型。這種輔助處理的例子包括最大后驗(yàn)估算(MAP)或其他以變換為基礎(chǔ)的方法,例如最大似然線性回歸(MLLR)。建立該說話者模型26的目的是準(zhǔn)確地表示該訓(xùn)練數(shù)據(jù)主體,因?yàn)檫@個(gè)主體被用于定義本征空間的邊界和范圍,每個(gè)受過訓(xùn)練的說話者被放置在該空間,并根據(jù)該空間測試每個(gè)新語音語調(diào)。
在構(gòu)成該模型26后,在步驟28適合于每個(gè)說話者的該模型被用于構(gòu)成一個(gè)超矢量。如標(biāo)記30所示,該超矢量可以通過連結(jié)每個(gè)說話者的模型的參數(shù)構(gòu)成。當(dāng)使用隱藏馬可夫模型時(shí),每個(gè)說話者的超矢量可以包括一個(gè)有序的參數(shù)列表(典型的浮點(diǎn)數(shù)量),該參數(shù)列表與至少一部分那個(gè)說話者的隱藏馬可夫模型的參數(shù)相一致。與每個(gè)聲音單元相一致的參數(shù)被包括在適合一個(gè)給定說話者的超矢量中。該參數(shù)可以用任何方便的順序組織。該順序不是關(guān)鍵性的,但是,一旦一個(gè)順序被采用,對于所有的受過訓(xùn)練的說話者必須遵守。
用于構(gòu)成該超矢量的模型參數(shù)的選擇基于計(jì)算機(jī)系統(tǒng)的有效處理能力進(jìn)行。當(dāng)使用隱藏馬可夫模型參數(shù)時(shí),我們通過從高斯方法構(gòu)成超矢量達(dá)到好的效果。如果較高的處理能力是可利用的,該超矢量同樣可以包括其它參數(shù),例如,轉(zhuǎn)換概率(圖1,表12)或協(xié)方差矩陣參數(shù)(圖1,參數(shù)18)。如果該隱藏馬可夫模型產(chǎn)生離散的輸出(與概率密度相反),則這些輸出值可以被用于組成該超矢量。
在構(gòu)成該超矢量之后,一個(gè)維度降低操作在步驟32被執(zhí)行。維度降低能通過任何降低該原始的高維度超矢量為基礎(chǔ)矢量的線性變換實(shí)現(xiàn)。一個(gè)非窮舉的例子的列表包括首要成份分析(PCA)、獨(dú)立成份分析(ICA)、線性鑒別分析(LDA)、系數(shù)分析(FA)、和單一值分解(SVD)。
更特別地,可用于實(shí)施本發(fā)明的維度降低技術(shù)定義如下。假定一系列T訓(xùn)練超矢量從適合于語音識(shí)別的依賴于說話者的模型獲得。讓這些超矢量的每一個(gè)有維度V;因此,我們能把每個(gè)超矢量表示為X=[x1,x2,...,xV]^T(一個(gè)V*1矢量)。假定一個(gè)能被施加到一個(gè)超矢量(例如,施加到維度V的任何矢量)的線性變換M以產(chǎn)生一個(gè)維度為E(E小于或等于訓(xùn)練超矢量的數(shù)量為T)的新的矢量;每個(gè)變換后的矢量可被表示為W=[w1,w2,...,wE]^T。M的參數(shù)的值用某些方式從T個(gè)訓(xùn)練超矢量的序列被計(jì)算。
因此,我們有線性變換W=M*X。M有維度E*V,并且W有維度E*1,這里E<=T;對于一個(gè)T個(gè)訓(xùn)練的超矢量的特定的序列,M是常數(shù)。幾種維度降低技術(shù)可以被用于從一系列T個(gè)訓(xùn)練超矢量計(jì)算一個(gè)線性變換M以便W有維度E<=T。
這些例子包括首要成份分析、獨(dú)立成份分析、線性鑒別分析、系數(shù)分析、和單一值分解。為了在特殊的情況下發(fā)現(xiàn)這樣的一個(gè)常數(shù)線性變換M,本發(fā)明可以用任何這樣的方法(不僅僅這些列出的)實(shí)施,其中該輸入矢量是起源自依賴于說話者的模擬的訓(xùn)練超矢量,并且其中M被用于實(shí)施上述技術(shù)。
在步驟32產(chǎn)生的基礎(chǔ)矢量定義一個(gè)由本征矢量覆蓋的本征空間。維度降低為每一個(gè)受訓(xùn)練的說話者產(chǎn)生一個(gè)本征矢量。從而如果有T個(gè)受訓(xùn)練的說話者則該維度降低步驟32產(chǎn)生T個(gè)本征矢量。這些本征矢量定義所謂的本征矢量空間或本征空間。
如標(biāo)記34所示組成該本征矢量空間的本征矢量中的每個(gè)本征矢量表示一個(gè)不同的維度,不同的說話者的在該維度上可能是有差別的。在原始的訓(xùn)練系列中的每個(gè)本征矢量能由這些本征矢量的一個(gè)線性結(jié)合表示。本征矢量通過它們在模型化該數(shù)據(jù)中的重要性排序該第一本征矢量比第二本征矢量更重要,第二本征矢量比第三本征矢量更重要,等等。我們的就這種技術(shù)的實(shí)驗(yàn)至今如止顯示出第一本征矢量看來對應(yīng)于男性-女性維度。
雖然在步驟32產(chǎn)生一個(gè)最大為T個(gè)的本征矢量,實(shí)際上,放棄這些本征矢量中的幾個(gè),僅保留最重要的N個(gè)本征矢量是可能的。因此在步驟36我們隨意地抽取T個(gè)本征矢量的N個(gè)以在步驟38組成一個(gè)減少的參數(shù)本征空間。由于它們通常含有對于在說話者中的鑒別不太重要的信息,該更高次序的本征矢量能被放棄。當(dāng)構(gòu)成受到內(nèi)存或處理器資源限制的特殊系統(tǒng)時(shí),降低該本征聲音空間至少于受訓(xùn)練的說話者的總數(shù)能提供一個(gè)內(nèi)在的數(shù)據(jù)壓縮,這是有幫助的。
在從訓(xùn)練數(shù)據(jù)產(chǎn)生本征矢量之后,訓(xùn)練數(shù)據(jù)中的每個(gè)說話者被表示在本征空間中。在說話者識(shí)別的情況下,在步驟40a每個(gè)已知的客戶說話者在本征空間中被表示,并且在標(biāo)記42a處予以圖解說明。在說話者檢驗(yàn)的情況下,客戶說話者和可能的冒充說話者被表示在本征空間中,如在步驟40b指示的和在標(biāo)記42b處說明的。該說話者能作為本征空間的點(diǎn)(如在圖2中42a的圖解說明的)或本征空間中的概率分布(如在圖3中42b的圖解說明的)被表示在本征空間中。
利用該說話者識(shí)別或說話者檢驗(yàn)的系統(tǒng)在步驟44試圖進(jìn)行說話者識(shí)別或檢驗(yàn)的用戶提供新的語音數(shù)據(jù)并且在步驟46這些數(shù)據(jù)被用于訓(xùn)練一個(gè)依賴于說話者模型。接著在步驟50該模型48被使用以構(gòu)成一個(gè)超矢量52。注意該新的語音數(shù)據(jù)沒有必要包括每個(gè)聲音單元的一個(gè)例子。例如,該新的語音發(fā)音可能太短不能包含所有聲音單元的例子。該系統(tǒng)將處理這種情況,在下面將作更全面地解釋。
在步驟54通過該超矢量52維度降低被執(zhí)行,如在步驟56指示的和在標(biāo)記58說明的導(dǎo)致一個(gè)新的數(shù)據(jù)點(diǎn)被表示在本征空間中。在標(biāo)記58的說明中在本征空間中的先前獲得的點(diǎn)(基于受訓(xùn)練的說話者)以點(diǎn)表示,而新的語音數(shù)據(jù)點(diǎn)用星號表示。
放置該新數(shù)據(jù)點(diǎn)在本征空間中后,現(xiàn)在估計(jì)它與受訓(xùn)練的說話者對應(yīng)的其它的現(xiàn)有數(shù)據(jù)點(diǎn)或數(shù)據(jù)分布的接近度。圖4舉例說明了一種說話者識(shí)別和說話者檢驗(yàn)的典型的實(shí)施例。
對于說話者識(shí)別,在步驟62該新的語音數(shù)據(jù)被指定給本征空間中最靠近的受訓(xùn)練的說話者,如在標(biāo)記64處圖解說明的。該系統(tǒng)將把該新的語音數(shù)據(jù)識(shí)別為在本征空間中其數(shù)據(jù)點(diǎn)或數(shù)據(jù)分布與該新語音數(shù)據(jù)最接近的先前受訓(xùn)說話者的語音。
對于說話者檢驗(yàn),該系統(tǒng)在步驟66檢驗(yàn)該新的數(shù)據(jù)點(diǎn)以確定是否它在一個(gè)到本征空間中該客戶說話者的預(yù)定閾值接近度之內(nèi)。在步驟68,如果在本征空間中它位于到一個(gè)冒充者比到一個(gè)客戶說話者更近,該系統(tǒng)可以作為一個(gè)安全措施,拒絕該新的說話者數(shù)據(jù)。這是在標(biāo)記69處圖解說明的,其中到客戶說話者的接近度和到該最接近的冒充者的接近度被指示。
最大似然本征空間分解(MLED)技術(shù)一種在本征空間內(nèi)放置新的說話者的簡單的技術(shù)是使用一種簡單的投影操作。一種投影操作搜索本征空間內(nèi)的一個(gè)點(diǎn),該點(diǎn)盡可能地靠近在對應(yīng)于該新的說話者的輸入語音的本征空間外部的點(diǎn)。應(yīng)指出的是,這些點(diǎn)實(shí)際是可從其重構(gòu)一系列HMM的超矢量。
該投影操作是一種相當(dāng)拙劣的技術(shù),其不能保證本征空間內(nèi)的該點(diǎn)對于該新的說話者是最佳的。此外,該投影操作需要對于該新的說話者的超矢量含有一個(gè)完全系列的數(shù)據(jù)以表示對于那個(gè)說話者的HMM的整個(gè)系列。這個(gè)需要引起一個(gè)重要的實(shí)際的局限性。當(dāng)使用投影以約束一個(gè)新的說話者到該本征空間時(shí),那個(gè)說話者必須提供足夠的輸入語音以便所有的語音單元在該數(shù)據(jù)中被表示。例如,如果隱藏馬可夫模型被設(shè)計(jì)為表示英語中的所有語音,則在簡單的投影技術(shù)能被使用之前該訓(xùn)練的說話者必須提供所有語音的例子。在許多應(yīng)用中,這個(gè)約束是明顯不實(shí)用的。
本發(fā)明的最大似然技術(shù)克服了簡單的投影的兩個(gè)上面涉及的缺點(diǎn)。本發(fā)明的最大似然技術(shù)搜索本征空間內(nèi)的一個(gè)點(diǎn),該點(diǎn)表示對應(yīng)于一系列隱藏馬可夫模型的超矢量,該系列隱藏馬可夫模型具有產(chǎn)生該由新的說話者提供的語音的最大概率。
簡單的投影操作以具有相同的重要性處理超矢量的所有分量,而最大似然技術(shù)是基于起自實(shí)際適應(yīng)數(shù)據(jù)的概率并傾向于給更可能的數(shù)據(jù)以更重的權(quán)重。不像簡單的投影操作,即使新的說話者不提供訓(xùn)練數(shù)據(jù)的一個(gè)完整的序列(例如,對于一些聲音單元的數(shù)據(jù)是缺少的)最大似然技術(shù)仍將工作。實(shí)際上,最大似然技術(shù)考慮了構(gòu)造超矢量的具體情況,即用于構(gòu)造超矢量的隱藏馬可夫模型中的一部分與其他部分相比有產(chǎn)生由新說話者提供的語音的更大的可能性。
實(shí)際上,該最大似然技術(shù)將在本征空間內(nèi)選擇與新的說話者的語音最一致的超矢量,不管多少輸入語音實(shí)際上可利用。為了舉例說明,假定該新的說話者是一位亞拉巴馬州本地的年輕女性。通過接收幾個(gè)從這個(gè)說話者發(fā)出的音節(jié),該最大似然技術(shù)將在本征空間內(nèi)選擇一個(gè)點(diǎn),該點(diǎn)表示與這個(gè)說話者的亞拉巴馬州本地女性口音一致的所有語音(甚至那些在輸入的話音中沒有表示的語音)。
圖5示出了該最大似然技術(shù)的工作方式。來自新的說話者的輸入語音被用于構(gòu)成超矢量70。如上面解釋的,該超矢量包括一個(gè)語音參數(shù)的連接列表,對應(yīng)于倒頻譜系數(shù)或類似的。在該舉例說明的實(shí)施例中,這些參數(shù)是浮點(diǎn)數(shù)量,表示從對應(yīng)于該新的說話者的該系列隱藏馬可夫模型抽取出來的高斯平均值。其它HMM參數(shù)同樣可以被使用。如在72的舉例說明中這些HMM平均值被作為點(diǎn)示出。當(dāng)完全地填滿數(shù)據(jù)時(shí),超矢量70將含有適合于每一個(gè)HMM平均值的浮點(diǎn)數(shù)量,對應(yīng)于每一個(gè)由該HMM模型表示的聲音單元。為了舉例說明目的,在這里假定適合于語音“ah”的參數(shù)是存在的而適合于語音“iy”的參數(shù)是缺少的。
該本征空間38由一系列本征矢量74、76和78表示。對應(yīng)于來自該新的說話者的可觀測數(shù)據(jù)的超矢量70可以在本征空間中由每個(gè)本征矢量乘以一個(gè)相應(yīng)的本征值表示,本征值命名為W1,W2...Wn。這些本征值最初是未知的。該最大似然技術(shù)搜索適合于這些未知的本征值的值。如將做的全面解釋,通過尋找在本征空間內(nèi)最好地表示該新的說話者的最佳解決方案選擇這些值。
在該本征值與該本征空間38對應(yīng)的本征矢量相乘并對產(chǎn)生的結(jié)果求和之后,產(chǎn)生一個(gè)適合的模型80。該輸入語音的超矢量(超矢量70)可能有一些失去的參數(shù)值(例如,該“iy”參數(shù)),而該超矢量80表示全面填充值的適合的模型。這只是本發(fā)明的一個(gè)好處。此外,超矢量80中的值表示該最佳的解決方案,也就是說表示本征空間中新的說話者的最大似然性。
各本征值W1,W2...Wn可以視為構(gòu)成一個(gè)最大似然性矢量,在這里稱為最大似然性矢量。圖5在82說明圖解的矢量。如說明所示,最大似然失量82包括這組本征值W1,W2...Wn。
在圖6中示出了利用最大似然性技術(shù)執(zhí)行適應(yīng)性的過程。來自一個(gè)新的說話者的語音包括可觀測數(shù)據(jù),如在100指示的被用于構(gòu)成一組HMM。接著如在104指示的這組HMM構(gòu)成一個(gè)超矢量。如所說明的,該超矢量106包括一個(gè)從該HMM模型抽取的HMM參數(shù)的連接列表。
利用該超矢量106,在108構(gòu)成一個(gè)既率函數(shù)Q。該目前的優(yōu)選實(shí)施例采用一個(gè)概率函數(shù),該函數(shù)表示適合于HMM模型102的預(yù)先定義的組的產(chǎn)生該觀測到的數(shù)據(jù)的概率。如果概率函數(shù)Q不但包括一個(gè)概率項(xiàng)P而且包括那個(gè)項(xiàng)的對數(shù)1ogP,該概率函數(shù)Q的隨后的操作被比較容易地進(jìn)行。
接著在步驟110該概率函數(shù)通過分別對與每個(gè)本征值W1,W2...Wn的求概率函數(shù)的導(dǎo)數(shù)被最大化。例如,如果該本征空間是維度為100的本征空間,這個(gè)系統(tǒng)計(jì)算該概率函數(shù)Q的100個(gè)導(dǎo)數(shù),設(shè)定每個(gè)為零,并解出相應(yīng)的W。雖然這表面上像是一個(gè)巨大的計(jì)算,它花費(fèi)的計(jì)算遠(yuǎn)遠(yuǎn)少于執(zhí)行成千上萬個(gè)常規(guī)的MAP或MLLR技術(shù)通常需要的計(jì)算。
如此獲得的Ws組表示識(shí)別本征空間中對應(yīng)于最大似然性的點(diǎn)所需要的本征值。因此該組Ws在本征空間中構(gòu)成一個(gè)最大似然性矢量。在這點(diǎn)上,每個(gè)本征矢量(圖5中的本征矢量74、76和78)定義一組正交的矢量或坐標(biāo),本征值與其相乘以定義本征空間內(nèi)的一個(gè)約束點(diǎn)。這個(gè)在112指示的最大似然性矢量被用于構(gòu)成對應(yīng)于本征空間內(nèi)最佳點(diǎn)(圖4中的點(diǎn)66)的超矢量114。接著超矢量114能被用在步驟116以構(gòu)成新說話者的適合的模型118。
在本發(fā)明的最大似然性框架中,我們希望最大化一個(gè)關(guān)于模型λ的觀測0=o1...oT的似然性。這可以通過迭代最大化輔助函數(shù)Q(下面的)完成,其中λ是迭代中的當(dāng)前模型和 是估算的模型。我們有Q(λ,λ^)=Σθ∈statseP(O,θ|λ)log[P(O,θ|λ^)]]]>
作為一個(gè)最初的近似值,我們可以執(zhí)行對于平均值的最大化。在概率P由一組HMMs給出的情況下,我們得到Q(λ,λ^)=const-12P(O|λ)ΣstatesSλinλΣmixtMsgaussinSΣtimeTt{γm(s)(t)[nlog(2π)+log|Cm(s)|+h(ot,m,s)]}]]>這里h(ot,m,s)=(ot-μ^m(s))TCm(s)-1(ot-μ^m(s))]]>并且讓ot是在時(shí)間t的特征矢量Cm(s)-1是狀態(tài)s的混合高斯m的反相協(xié)方差是狀態(tài)s,混合分量m的近似的適合的平均值γm(s)(t) 是P(利用混合高斯m|λ,ot)假定適合于該新的說話者的HMM高斯平均值被定位在本征空間中。假設(shè)這個(gè)空間由該平均超矢量μj隨著j=1...E覆蓋。μ‾j=μ‾1(1)(j)μ‾2(1)(j)··μ‾m(s)(j)μ‾Msλ(sλ)(j)]]>其中μm(s)(j)表示該本征矢量(本征模型)j的適合于在狀態(tài)s下的該混合高斯m的平均矢量。
那么我們需要μ^=Σj=1Ewjμ‾j]]>該μj是正交的和該wj是我們的說話者模型的本征值。我們假定這里任何新的說話者能被模型化為一個(gè)檢測的說話者的數(shù)據(jù)庫的線性結(jié)合。則μ^m(s)=Σj=1Ewjμ‾m(s)(j)]]>在λ的狀態(tài)用s,在M的混合高斯中用m。
既然我們需要最大化Q,我們只需要設(shè)定∂Q∂we=0,e=1...E,]]>(注意因?yàn)樵摫菊魇噶渴钦坏模?)因此我們有∂Q∂we=0=ΣstatesSλinλΣmixtMsgaussinSΣtimeTt{∂∂weγm(s)(t)h(ot,s)},e=1...E.]]>計(jì)算上面的導(dǎo)數(shù),我們有0=ΣsΣmΣtγm(s)(t){-μ‾m(s)T(e)Cm(s)-1ot+Σj=1Ewjμ‾m(s)T(j)Cm(s)-1μ‾m(s)(e)}]]>由此我們導(dǎo)出這組線性方程式ΣsΣmΣtγm(s)(t)μ‾m(s)T(e)Cm(s)-1ot=ΣsΣmΣtγm(s)(t)Σj=1Ewjμ‾m(s)T(j)Cm(s)-1μ‾m(s)(e),e=1..E.]]>估算本征空間中的接近度當(dāng)在本征空間中以點(diǎn)表示說話者時(shí),一種簡單的幾何距離計(jì)算能被用于識(shí)別最靠近該新的說話者的訓(xùn)練數(shù)據(jù)說話者。當(dāng)在本征空間中以分布表示說話者時(shí),通過將該新的說話者數(shù)據(jù)作為一個(gè)觀察0,并通過檢測每個(gè)分布候選者(表示該受訓(xùn)練的說話者),以確定該候選者產(chǎn)生該觀測數(shù)據(jù)的概率來估算接近度。具有最高概率的候選者被估算為具有最靠近的接近度。在一些高安全性的應(yīng)用中,如果該最高可能性的候選者有一個(gè)低于預(yù)定閾值的概率值,可拒絕檢驗(yàn)。一個(gè)成本函數(shù)可以被用于排除缺少高度必然性的候選者。
如上所述,估算該新的說話者到該受訓(xùn)練的說話者的接近度可以在本征空間內(nèi)被完整地執(zhí)行??梢赃x擇的,為了較大的準(zhǔn)確度一種貝葉斯估計(jì)技術(shù)能被使用。
利用貝葉斯估計(jì)以提高該接近度估算,本征空間內(nèi)的受訓(xùn)練的說話者的高斯密度被乘以在正交補(bǔ)空間中估算的邊界密度,正交補(bǔ)空間表示通過維度降低刪除的說話者數(shù)據(jù)。在這點(diǎn)上,認(rèn)為通過該說話者模擬超矢量執(zhí)行維度降低導(dǎo)致一個(gè)重要的從一個(gè)高維度空間到低維度空間的數(shù)據(jù)壓縮。雖然維度降低保存最重要的基礎(chǔ)矢量,一些較高次序的信息被刪除。該貝葉斯估算技術(shù)估計(jì)一個(gè)對應(yīng)于這個(gè)刪除的信息的邊界高斯密度。
為了舉例說明,假定該原始的本征空間通過一個(gè)維度降低處理由超矢量的線性變換構(gòu)成,借此從較大數(shù)目N的所有分量中抽取M個(gè)分量。該較少的抽取的M個(gè)分量表示一個(gè)對應(yīng)于最大的本征值的該基本變換的低維度子空間。因此,該本征空間由i=1...M的分量定義,而刪除的次要的分量對應(yīng)于i=M+1...N。這兩組分量定義兩個(gè)互不相交的和互補(bǔ)的子空間,該首要的子空間表示重要的本征空間并且其正交分量表示通過維度降低被刪除的數(shù)據(jù)。
我們能通過下面的方程式計(jì)算在這兩個(gè)分別的正交空間中的高斯密度的積,作為似然性估計(jì)。P^(x|Ω)=PE(x|Ω)*PE..(x|Ω)]]>在上面的等式中,第一項(xiàng)是本征空間E中的單個(gè)高斯密度和第二項(xiàng)是與該本征空間正交的空間中的單個(gè)高斯分布。這些項(xiàng)能從這組訓(xùn)練數(shù)據(jù)中只利用到本征空間的投影和殘數(shù)被完整地估算。
其他實(shí)施例在前面的例子中,語音被作為隱藏馬可夫模型(HMM)表示。被采用的隱藏馬可夫模型如今在許多語音識(shí)別中普遍使用,并且由此它們能被很好地用于說話者檢驗(yàn)和說話者識(shí)別目的。然而,本發(fā)明的技術(shù)并不限于隱藏馬可夫模型的使用。例如,一種對于說話者檢驗(yàn)和/或說話者識(shí)別的有用的和有效的系統(tǒng)可以利用高斯混合模型(GMM)實(shí)施。高斯混合模型是一種單一狀態(tài)模型,其可以通過不依賴于文本的或依賴于文本的訓(xùn)練數(shù)據(jù)被訓(xùn)練。比較而言,典型的隱藏馬可夫模型有多于一個(gè)的狀態(tài)并根據(jù)用于訓(xùn)練數(shù)據(jù)的文本作了標(biāo)記的語音數(shù)據(jù)被訓(xùn)練。高斯混合模型可以由此被看作是隱藏馬可夫模型的一種特殊情況,在這里僅有一個(gè)單一的狀態(tài)被使用并且在這里訓(xùn)練數(shù)據(jù)不需要被作標(biāo)記。
高期混合模型(GMM)可以被用于說話者識(shí)別和檢驗(yàn)?zāi)康牟⑼ㄟ^賦值個(gè)別的高斯分量以表示寬的聲音等級。該等級可以表示與說話者有關(guān)的對于模擬說話者識(shí)別有用的聲域結(jié)構(gòu)。該高斯混合密度提供一個(gè)平滑的近似值到下面的從一個(gè)給出的說話者說的話獲得的觀察的長項(xiàng)抽樣分布。參見Reynolds,D.A.,“利用高斯混合說話者模型的說話者識(shí)別和說話者檢驗(yàn)(Speaker Identification AndSpeaker Verification Using Gaussian Mixture Speaker Modules)”,SpeechCommunication,Vol.17,pp.91-108,1995。
一個(gè)高斯混合密度是M個(gè)分量密度的加權(quán)的和并由該等式給出。f(x‾)=Σi=1Mpibi(x‾)]]>這里x是一個(gè)D維矢量,i=1,...,M是分量密度和pi,i=1,...,M是混合加權(quán)。每個(gè)分量密度是一個(gè)D變量高斯函數(shù),bi(x‾)=1(2π)D/2|Σi|1/2e{-12(x‾-μ1b)TΣi-1(x‾-μ1b)}]]>用該平均矢量μ1和協(xié)方差矩陣∑1.該混合的加權(quán)進(jìn)一步滿足 的約束。該全部的GM密度通過該平均矢量用參數(shù)、協(xié)方差矩陣和來自所有分量密度的混合加權(quán)表示。λ={pi,μi,∑i},i=1,...,M此外,應(yīng)當(dāng)理解雖然在這里舉例說明了HMM和GMM,同樣可以使用其它類型的語音模型。用于這個(gè)目的的最好的模型是那些由數(shù)字表示的(例如,象浮點(diǎn)數(shù)量)以便一個(gè)說話者空間能被以數(shù)學(xué)方法定義的模型。為了舉例說明目的,在圖7中說明一個(gè)GMM模型120。
在前面的例子中,說話者空間由一個(gè)本征聲音的線性組合表示。然而,本發(fā)明的技術(shù)并不限于一個(gè)這種類型的說話者空間。一般地說,說話者空間是一組衍生自一組受訓(xùn)練的說話者的數(shù)學(xué)上的約束并表示一個(gè)新的說話者必須滿足的現(xiàn)有知識(shí)。除了基于說話者空間的本征聲音之外,其它方法包括(但并不限于)“參考說話者加權(quán)”(見Hazen,T.J.,和Glass,J.R.,“用于瞬間說話者適應(yīng)性的新技術(shù)的比較”(“A Comparison of Novel Techniques for InstantaneousSpeaker Adaptation”),pp.2047-50,1997)和說話者分組(見Kosaka,T.,和Sagayama,S.,“用于快速適應(yīng)性的樹結(jié)構(gòu)說話者分組”(“Tree-StructuredSpeaker Clustering for Fast Speaker Adaptation”),ICASSP pp.1-245至1-248,1994)。
圖8舉例說明了同樣可以選擇的構(gòu)成該說話者空間,在說話者空間中表示登記的語音,并確定是否該檢驗(yàn)的說話者是客戶說話者之一的其他實(shí)施例。在開始時(shí),關(guān)于該說話者空間構(gòu)建的一個(gè)重要的考慮涉及受訓(xùn)練的說話者122的選擇。雖然客戶說話者124能被用于收集該訓(xùn)練的數(shù)據(jù)22,通過利用一個(gè)第二組個(gè)人作為該訓(xùn)練的說話者122能獲得某些優(yōu)點(diǎn)。例如,這種方法允許該受訓(xùn)練的說話者122任意地多,并將通常允許更多不同的訓(xùn)練數(shù)據(jù)。例如,付費(fèi)的個(gè)人或志愿者能被預(yù)先的從遠(yuǎn)遠(yuǎn)大于客戶說話者群的一個(gè)人群中選擇。該選擇的受訓(xùn)練的說話者的人群與由客戶說話者124(除了他們說話的能力)定義的人群沒有特殊的關(guān)系。每個(gè)受訓(xùn)練的說話者將提供訓(xùn)練語音的相當(dāng)大的抽樣?;谟?xùn)練得相當(dāng)好的語音模型,這將允許一個(gè)更多不同的說話者空間的構(gòu)成,并將允許來自該客戶說話者124的數(shù)據(jù)量的大幅度降低。因此,在客戶登記步驟,只需要幾秒自每個(gè)客戶的語音,而不是幾分鐘。這是該說話者空間方法的主要優(yōu)點(diǎn)。
步驟132說明了訓(xùn)練說話者空間的過程。如上論述的,結(jié)果是一組在126舉例說明的GMM語音模型(最好不依賴于文本)或如上面論述的與依賴于文本的語音模型。因此,雖然在這里舉例說明了高斯混合模型,本發(fā)明不限于高斯混合模型(或隱藏馬可夫模型,對于這個(gè)問題)。相反地,可以使用任何具有適合于連接的參數(shù)的語音模型。
該語音模型可以進(jìn)一步被微調(diào)或匹配,以考慮在訓(xùn)練期間使用的環(huán)境和隨后用于說話者檢驗(yàn)和/或說話者識(shí)別期間使用的環(huán)境之間的區(qū)別。通常地,訓(xùn)練數(shù)據(jù)在受控制的狀態(tài)下(已知背景噪音質(zhì)量、標(biāo)準(zhǔn)化的話筒和信號處理設(shè)備、受控制的話筒布局,等等)被收集。使用中,例如,該系統(tǒng)可以被配置在辦公室環(huán)境中,這里的環(huán)境狀態(tài)與那些訓(xùn)練的環(huán)境完全不同。為了適應(yīng)這種改變,一種環(huán)境適應(yīng)過程可以被使用以改進(jìn)訓(xùn)練說話者模型,使之適應(yīng)于一個(gè)給出的環(huán)境中的特殊用途。為了這個(gè)目的MLLR適配可以被使用。其它已知的適配技術(shù)可以被同樣使用。
在當(dāng)前的優(yōu)選實(shí)施例中,每個(gè)說話者的模型被使用以建立一個(gè)超矢量。該超矢量可以通過并置每個(gè)說話者的模型的參數(shù)形成。當(dāng)使用高斯混合模型時(shí),對于每個(gè)說話者用于表示該高斯混合的浮點(diǎn)數(shù)量可以被連接。
在構(gòu)成超矢量之后,一種降低一個(gè)適合于一個(gè)特定說話者的語音模型中的自由度的數(shù)量的技術(shù)被應(yīng)用。這種技術(shù)用于受訓(xùn)練的說話者數(shù)據(jù)以產(chǎn)生一個(gè)降低的維度的說話者空間。雖然任何這樣的技術(shù)能被使用,線性判別式分析(LDA)在這里被示出并被必然的優(yōu)先選用。因此,除該超矢量之外,步驟132使用完全的在說話者之內(nèi)的散射矩陣數(shù)據(jù)130。這是值得注意的因?yàn)檫@種類型的數(shù)據(jù)通常不是一個(gè)說話者的與說話者有關(guān)的模型的一部分。
在例如PCA或LDA的技術(shù)產(chǎn)生一組最初的基礎(chǔ)矢量134后,一個(gè)重新估算說話者空間的可選擇的步驟136能被執(zhí)行。在這里,一種例如MLES的技術(shù)可以在空間上旋轉(zhuǎn)基礎(chǔ)矢量134以便該空間中根據(jù)的受訓(xùn)練的說話者模型的訓(xùn)練數(shù)據(jù)的似然性被最大化。結(jié)果將是一組改進(jìn)的基礎(chǔ)矢量138。MLES技術(shù)的細(xì)節(jié)在下面給出。
在產(chǎn)生說話者空間之后,該系統(tǒng)可以被使用以登記一個(gè)或多個(gè)客戶說話者以便與這些客戶說話者有關(guān)的說話者識(shí)別和/或說話者檢驗(yàn)可以被執(zhí)行。在步驟140登記被執(zhí)行,在那里每個(gè)客戶說話者被基于一個(gè)登記語音的短的話語表示在說話者空間中。如上面論述的,這通過在來自客戶說話者的登記語音(可能象幾個(gè)單詞一樣少)上訓(xùn)練一個(gè)登記語音模型完成,并且接著通過MLED或投影放置該客戶說話者到該說話者空間。如果像預(yù)期的,例如MLLR的說話者或環(huán)境適配技術(shù)可以被采用以改進(jìn)一個(gè)或多個(gè)客戶說話者的語音模型,或者去重新估算該說話者空間以便它更好地模擬該新的環(huán)境(例如,記錄有客戶說話者的環(huán)境)。
在這點(diǎn)上,該說話者空間的能力可以被更全面地估計(jì)。當(dāng)該客戶說話者提供一個(gè)非常短的語音抽樣時(shí),這沒有足夠的數(shù)據(jù)去構(gòu)成一個(gè)適合于那個(gè)說話者的完整的模型。盡管如此,如由MLED程序(或通過投影)指示的,通過在它的正確的位置放置部分的模型到說話者空間中,該說話者空間將詳細(xì)地填充,允許隨后產(chǎn)生一個(gè)適合于那個(gè)說話者的完整的模型。
在該說話者空間被產(chǎn)生和所有的客戶說話者被登記之后,該系統(tǒng)準(zhǔn)備使用。為了在一個(gè)測試說話者上執(zhí)行說話者檢驗(yàn)或說話者識(shí)別,一個(gè)語音抽樣被從那個(gè)說話者獲得并利用登記的說話者估算說話者空間。在前述的例子中,通過放置該測試說話者的語音到說話者空間執(zhí)行說話者識(shí)別和說話者檢驗(yàn),以通過適當(dāng)?shù)木嚯x測量確定該測試說話者靠近的客戶說話者。下面將描述—種替換的技術(shù)。
代替放置測試說話者到說話者空間,該替換的技術(shù)擴(kuò)展說話者空間內(nèi)的該客戶說話者矢量返回到完整的語音模型。上面提到,即使該最初的客戶登記語音非常短(完全可能導(dǎo)致不完全的語音模型)說話者空間中的點(diǎn)將產(chǎn)生完整的語音模型。這是因?yàn)樵撛嫉恼f話者空間含有大量關(guān)于人類語音特性的現(xiàn)有知識(shí)。換句話說,僅僅有幾個(gè)來自一個(gè)客戶說話者的被講的單詞就足以放置那個(gè)客戶說話者到該說話者空間中。在那里一個(gè)完全地和完整地語音模型被推斷。
在該替換的技術(shù)中,說話者空間內(nèi)的每個(gè)客戶說話者點(diǎn)被用于產(chǎn)生其相應(yīng)的完整的語音模型。接著,面對著來自該測試說話者的語音該客戶說話者模型的每一個(gè)被估算。為了說話者識(shí)別和/或說話者檢驗(yàn)?zāi)康模哂挟a(chǎn)生該測試語音的最高概率的客戶模型被使用。
在圖8中步驟144示出了說話者空間矢量中的該客戶說話者的位置的擴(kuò)展返回到語音模型中。特別地,該對應(yīng)的完整的語音模型146從說話者空間142中它們的位置被產(chǎn)生。這些模型被用于隨后的說話者檢驗(yàn)和/或說話者識(shí)別。這些模型的每一個(gè)面對著由一個(gè)測試說話者(系統(tǒng)的用戶)提供的測試語音被測試。為了隨后的說話者檢驗(yàn)和說話者識(shí)別目的,具有產(chǎn)生該測試語音的最高的概率的模型被使用。圖9圖解地說明了說話者模型被用于估算該測試語音的過程。在步驟148由測試的說話者提供的語音數(shù)據(jù)150被提交到作為一個(gè)似然性分析一部分的概然客戶說話者模型146。每個(gè)測試的說話者被指定到那個(gè)得到產(chǎn)生他的或她的語音的最高的似然性的客戶;可選擇地,該測試的說話者可以被歸為一個(gè)冒充者。因此,最后的估算不是發(fā)生在說話者空間而是在模型空間中。
同樣值得注意的是該說話者空間可在客戶登記期間隨著新的語音的獲得被調(diào)整。如果客戶環(huán)境不同于原始的訓(xùn)練環(huán)境(象常見的一樣),環(huán)境適應(yīng)能被執(zhí)行。例如,由于訓(xùn)練得到的說話者空間產(chǎn)生代表或表示說話者之間的可變性的模型,這些模型能被用于估計(jì)一個(gè)環(huán)境錯(cuò)配函數(shù)并應(yīng)用這個(gè)函數(shù)到該說話者空間(例如,作為一個(gè)線性變換)。這將防止測試環(huán)境的不相關(guān)特征干擾說話者檢驗(yàn)和說話者識(shí)別。
困難的客戶說話者的登記即使本發(fā)明通常需要非常少的登記語音,向少數(shù)易出故障的(例如,不穩(wěn)定的)客戶要求更多的客戶數(shù)據(jù)可能有益于總性能。這樣做是因?yàn)?,?shí)際上通常一小組特殊客戶說話者引起大多數(shù)的錯(cuò)誤識(shí)別。在現(xiàn)在的方法中,在他們登記和那些客戶需要更多語音的時(shí)侯這些客戶被識(shí)別。換句話說,當(dāng)該登記語音滿足預(yù)定的條件時(shí),依據(jù)從該客戶說話者附加的語音該登記語音模型能被容易地訓(xùn)練。例如,圖10示出了該預(yù)定的環(huán)境能被定義為包括該說話者空間中的一個(gè)第一言論的位置,該位置離該說話者空間中第二言論的位置是一個(gè)預(yù)定距離。如果該平均的說話者之間的距離遠(yuǎn)遠(yuǎn)大于兩個(gè)位置的平均值,該客戶由此要求更多的登記數(shù)據(jù)。如圖11中所示,該預(yù)定的環(huán)境同樣能被定義為包括該第一位置,其位于說話者空間的具有一個(gè)預(yù)定密度的一個(gè)區(qū)域內(nèi)(例如,一個(gè)“密集的”區(qū)域)。在這種情況下,一種例如MLED的方法允許關(guān)于說話者空間中說話者分布的現(xiàn)有信息被考慮。這個(gè)分布能夠從該訓(xùn)練數(shù)據(jù)或從該登記數(shù)據(jù)被估計(jì)。
MLES說話者空間重新估計(jì)象上面介紹的,說話者空間技術(shù)限制該說話者模型到一個(gè)維度非常低的線性矢量空間,被稱之為說話者空間。該說話者空間概括一個(gè)關(guān)于最初的系統(tǒng)訓(xùn)練期間獲得的說話者模型的現(xiàn)有知識(shí)。如上論述的,雖然該說話者空間在其最初產(chǎn)生形狀期間將充當(dāng)一個(gè)用于說話者識(shí)別和說話者檢驗(yàn)的有利的工具,通過一種被稱作最大似然性本征空間(MLES)的技術(shù)對該說話者空間作附加的改進(jìn)是可能的。該MLES方法在該訓(xùn)練數(shù)據(jù)上執(zhí)行重新估計(jì)。它導(dǎo)致在該說話者空間內(nèi)的該矢量被旋轉(zhuǎn),以便該訓(xùn)練數(shù)據(jù)的似然性根據(jù)在該空間中的受訓(xùn)練的說話者模型被最大化。該MLES技術(shù)通過在估計(jì)程序中作為隱藏?cái)?shù)據(jù)的積分值開始,得到M^=argmaxMΣq=1T∫logL(O,w|M)PO(W,q)dW]]>在那里Po(W,q)包含關(guān)于說話者q的現(xiàn)有信息(例如,顯示一個(gè)給出的方言或性別的可能性)。它被廣泛地用于說話者不穩(wěn)定的組。例如,我們可以設(shè)定為一個(gè)給出的K 種子說話者能夠通過PCA、線性判別式分析(LDA)、說話者分組聲音獲得,或能夠作為一組與說話者有關(guān)的模型給出。當(dāng)沒有關(guān)于wK的特殊的知識(shí)是已知的時(shí),我們使用MLED以由一個(gè)最大算子代替該積分算子。
該重新估計(jì)公式是相對地容易導(dǎo)出μ‾q(m)=ΣqLqwq(e)Σtγm(t){ot-μ‾q(m)(e)}ΣqLq(wq(e))2Σtγm(t)]]>其中q,m,e表示一個(gè)說話者,一個(gè)分布,和一個(gè)說話者空間基礎(chǔ)矢量。Lq是該說話者的言論O(e)的后面的概率,Lq,γm(t)是觀測的后面的概率,Wq(e)是說話者q的第e個(gè)坐標(biāo)的當(dāng)前的估計(jì)。最后,μq-(m)是該估計(jì)的平均數(shù)的補(bǔ),例如μq-(m)(e)=Σk=1,k≠eEwq(k)μ‾k(m),e=1,...,E.]]>從前述的可以理解本發(fā)明提供了用于說話者檢驗(yàn)和/或說話者識(shí)別的強(qiáng)有力的技術(shù)。雖然在這里闡明了本發(fā)明的幾個(gè)例子,本領(lǐng)域普通技術(shù)人員應(yīng)當(dāng)理解許多的其它變化可能在附加的權(quán)利要求的范圍內(nèi)。
權(quán)利要求
1.用于根據(jù)預(yù)定客戶說話者的語音估計(jì)語音的方法,包括步驟依據(jù)來自多個(gè)訓(xùn)練說話者的語音訓(xùn)練一組語音模型;從這組語音模型構(gòu)成一個(gè)說話者空間以表示所述多個(gè)訓(xùn)練說話者;以一個(gè)在所述說話者空間中的第一位置表示來自所述客戶說話者的登記語音,和基于該第一位置和來自新說話者的新語音數(shù)據(jù)確定該新說話者是否為該客戶說話者。
2.權(quán)利要求1的方法,進(jìn)一步包括步驟從該第一位置產(chǎn)生一個(gè)概率語音模型;和估計(jì)該概率語音模型和該新的語音數(shù)據(jù)之間的似然性并利用所述估計(jì)值作為該新的說話者是否為該客戶說話者的指示。
3.權(quán)利要求1的方法,進(jìn)一步包括步驟利用所述語音數(shù)據(jù)產(chǎn)生一個(gè)該新的說話者的表示,作為該說話者空間中的一個(gè)第二位置;和估計(jì)該第一和第二位置之間的接近度并利用所述估計(jì)值作為該新的說話者是否為該客戶說話者的指示。
4.權(quán)利更求1的方法,進(jìn)一步包括步驟依據(jù)來自該客戶說話者的登記語音上訓(xùn)練一個(gè)登記語音模型;和產(chǎn)生一個(gè)該客戶說話者的表示,作為該說話者空間中的該第一位置。
5.權(quán)利要求4的方法,進(jìn)一步包括當(dāng)該登記語音滿足預(yù)定的條件時(shí),依據(jù)來自該客戶說話者的附加語音訓(xùn)練該登記的語音模型的步驟。
6.權(quán)利要求5的方法,其中該登記語音包括一個(gè)第一發(fā)音和一個(gè)第二發(fā)音,該方法進(jìn)一步包括定義該預(yù)定的條件以包括該說話者空間中的所述第一發(fā)音的位置的步驟,該位置離該說話者空間中所述第二言論的位置有一個(gè)預(yù)定距離。
7.權(quán)利要求5的方法,進(jìn)一步包括定義該預(yù)定的條件以包括該第一位置,其位于說話者空間的具有一個(gè)預(yù)定密度的一個(gè)區(qū)域內(nèi)的步驟。
8.權(quán)利更求1的方法,進(jìn)一步包括訓(xùn)練一組不依賴于文本的語音模型的步驟。
9.權(quán)利要求1的方法,進(jìn)一步包括訓(xùn)練一組依賴于文本的語音模型的步驟。
10.權(quán)利要求1的方法,進(jìn)一步包括步驟對每個(gè)所述訓(xùn)練說話者獲得一個(gè)依賴于說話者的超矢量;和基于該依賴于說話者的超矢量產(chǎn)生一個(gè)比該語音模型的維度低的說話者空間。
11.權(quán)利要求10的方法,進(jìn)一步包括步驟獲得全部的說話者內(nèi)的散射矩陣數(shù)據(jù);和基于該矩陣數(shù)據(jù)執(zhí)行維度降低。
12.權(quán)利要求1的方法,進(jìn)一步包括重新估計(jì)該說話者空間的步驟。
13.權(quán)利要求1的方法,進(jìn)一步包括基于關(guān)于一個(gè)客戶登記環(huán)境的信息修改該說話者空間的步驟。
14.權(quán)利要求1的方法,進(jìn)一步包括估計(jì)所述第一和第二位置之間的接近度并利用所述估計(jì)值作為該新的說話者是否該客戶說話者的指示的步驟。
15.權(quán)利要求1的方法,其中該多個(gè)訓(xùn)練說話者包括該客戶說話者。
16.權(quán)利要求1的方法,其中該多個(gè)訓(xùn)練說話者不包括該客戶說話者。
17.權(quán)利要求1的方法,進(jìn)一步包括通過降低每個(gè)訓(xùn)練說話者的語音模型的自由度的數(shù)量構(gòu)成該說話者空間的步驟。
18.權(quán)利要求1的方法,進(jìn)一步包括執(zhí)行說話者識(shí)別的步驟。
19.權(quán)利要求1的方法,進(jìn)一步包括通過判定該新的說話者是否該客戶說話者或一個(gè)冒充者執(zhí)行說話者檢驗(yàn)的步驟。
全文摘要
客戶說話者空間中的客戶說話者位置被用于產(chǎn)生用于與測試的說話者數(shù)據(jù)或測試說話者語音模型比較的語音模型。該說話者空間能夠利用訓(xùn)練說話者構(gòu)成,訓(xùn)練說話者是從客戶說話者人群、或從客戶說話者、或從訓(xùn)練和客戶說話者的混合整體地分離出來的?;诳蛻舡h(huán)境信息該說話者空間可重新估計(jì)以提高落在該說話者空間內(nèi)的客戶數(shù)據(jù)的似然性。在進(jìn)入到說話者空間的該客戶的登記期間,當(dāng)滿足預(yù)定條件時(shí)能夠獲得附加的客戶語音。在該客戶登記步驟該說話者分布同樣能被使用。
文檔編號G10L17/04GK1366295SQ0112591
公開日2002年8月28日 申請日期2001年7月5日 優(yōu)先權(quán)日2000年7月5日
發(fā)明者羅蘭德·庫恩, 奧利弗·史耶斯, 帕特里克·安古因, 吉恩-克勞德·君夸, 羅伯特·博曼 申請人:松下電器產(chǎn)業(yè)株式會(huì)社