專利名稱:一種連續(xù)語音聲調(diào)識別方法
技術(shù)領(lǐng)域:
本發(fā)明屬于語音識別技術(shù)領(lǐng)域,具體的說,本發(fā)明涉及對有調(diào)語言(如漢語)中的 連續(xù)語音的聲調(diào)識別方法。
背景技術(shù):
在有調(diào)語言中,比如漢語普通話,粵語等,對同樣的發(fā)音,不同的聲調(diào)表示不同的 含義。在語音識別,以及計(jì)算機(jī)輔助語言學(xué)習(xí)領(lǐng)域,聲調(diào)識別都是一個(gè)非常重要部分。在計(jì) 算機(jī)輔助語言學(xué)習(xí)中,聲調(diào)識別可以給予學(xué)習(xí)者有效的反饋,幫助他們更快更好的學(xué)習(xí)聲 調(diào)。目前,對孤立音節(jié)的聲調(diào)識別可以達(dá)到較好的性能,但對連續(xù)語音的聲調(diào)識別效果還不 是很理想。孤立音節(jié)的聲調(diào)不受上下文的影響,其識別相對比較簡單;而連續(xù)語音的聲調(diào)受 上下文的影響很大,甚至還有情感等更高層次的因素的影響,變化豐富,識別起來相對比較 困難。目前已有的聲調(diào)識別方法大致可以分為兩類,顯式建模的方法和嵌入式建模的方 法。顯式建模方法,也稱為兩步式建模,它一般是首先通過強(qiáng)制對齊技術(shù)將連續(xù)的語音切分 成音節(jié)片段,然后針對每一個(gè)音節(jié)片段,將其當(dāng)作孤立音節(jié)來處理,采用孤立音節(jié)聲調(diào)識別 中的方法來處理。典型的方法如 TRUES (Tone Recognition UsingExtended Segments)方 法。這種方法對強(qiáng)制對齊切分的準(zhǔn)確性要求很高,如果切分準(zhǔn)確性不高,就很難獲得令人滿 意的性能。然而在很多情況下,切分的準(zhǔn)確性難以保證?,F(xiàn)有技術(shù)中還有一種嵌入式建模 方法,也稱為一步式建模,這種方法基于隱馬爾可夫模型語音識別方法,在語音識別的譜特 征矢量中,嵌入若干能表征聲調(diào)的基頻特征。目前,嵌入式聲調(diào)建模方法的應(yīng)用大多作為語 音識別的輔助技術(shù),幫助提高語音識別的準(zhǔn)確性,尚未單獨(dú)應(yīng)用于聲調(diào)識別。將嵌入式聲調(diào) 建模應(yīng)用于聲調(diào)識別時(shí),需要從識別網(wǎng)絡(luò)構(gòu)建,模型選擇等多個(gè)方面進(jìn)行優(yōu)化,以達(dá)到較好 的效果。因此,當(dāng)前迫切需要一種基于嵌入式聲調(diào)建模的能夠有效提高了聲調(diào)識別正確率 的聲調(diào)識別方法。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種聲調(diào)能夠提高連續(xù)語音聲調(diào)識別的準(zhǔn)確率的聲調(diào)識 別的方法。為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供了一種連續(xù)語音聲調(diào)識別方法,包括訓(xùn)練步驟 和識別步驟,其特征在于,所述訓(xùn)練步驟包括1)提取已知語音段中每一個(gè)語音幀的頻譜特征和基頻特征,對于每一個(gè)語音幀, 所述基頻特征至少包括當(dāng)前語音幀的基頻值,當(dāng)前連續(xù)基頻段的長度,以及當(dāng)前幀基頻值 與前一個(gè)連續(xù)基頻段的后N幀基頻平均值的差值;所述頻譜特征是MFCC特征或者M(jìn)F-PLP 特征,或者是二者的組合;2)對所提取出的多個(gè)語音幀的基頻特征所組成的基頻特征流,采用多空間概率 分布隱馬爾可夫模型來進(jìn)行建模,對所提取出的多個(gè)語音幀的頻譜特征所組成的頻譜特征流,采用普通隱馬爾可夫模型建模;其中,組成識別單元的元素包括當(dāng)前音節(jié),當(dāng)前聲調(diào)以 及前一個(gè)字的聲調(diào);3)采用特征流相關(guān)的決策樹聚類方法,根據(jù)所述識別單元中的當(dāng)前音節(jié)和前一個(gè) 字聲調(diào)來建立決策樹;其中,對頻譜特征流和基頻特征流分別建立不同的決策樹,分別得到 聚類后的基頻特征模型和頻譜特征模型;所述識別步驟包括4)對每一句待識別語音,進(jìn)行語音識別得出其音節(jié)內(nèi)容;5)根據(jù)已得出的音節(jié)內(nèi)容,基于訓(xùn)練步驟所得出的聚類后的基頻特征模型和頻譜 特征模型,建立聲調(diào)識別網(wǎng)絡(luò),并在所述聲調(diào)識別上進(jìn)行Viterbi搜索,得其最優(yōu)路徑,并 從最優(yōu)路徑中提取聲調(diào)序列,作為最終的聲調(diào)識別結(jié)果。其中,所述步驟1)中,所述基頻特征還包括當(dāng)前幀與相鄰幀的基頻一階差分值; 和/或當(dāng)前幀與相鄰幀的基頻二階差分值。其中,所述步驟2)中,所述識別單元由當(dāng)前音節(jié),當(dāng)前聲調(diào),前一個(gè)字的聲調(diào),以 及后一個(gè)字的聲調(diào)組成。其中,所述步驟2)中,采用多空間概率分布隱馬爾可夫模型來進(jìn)行建模時(shí),0維子 空間描述清音部分的基頻,多維連續(xù)子空間描述濁音部分的基頻,此處的基頻是實(shí)際意義 的基頻,并非基頻特征。其中,所述步驟3)中,決策樹根據(jù)當(dāng)前音節(jié),前字聲調(diào)和后字聲調(diào)來建立,對所識 別的有調(diào)語言中每一類聲調(diào)各建立一個(gè)決策樹。其中,所述步驟5)還包括在建立所述聲調(diào)識別網(wǎng)絡(luò)時(shí),所述聲調(diào)識別網(wǎng)絡(luò)中每 一個(gè)音節(jié)含有N個(gè)聲調(diào)候選,聲調(diào)識別網(wǎng)絡(luò)有一個(gè)開始節(jié)點(diǎn)和一個(gè)結(jié)束節(jié)點(diǎn),聲調(diào)識別網(wǎng) 絡(luò)經(jīng)過聲調(diào)上下文擴(kuò)展轉(zhuǎn)換為識別單元網(wǎng)絡(luò),識別單元網(wǎng)絡(luò)最終再轉(zhuǎn)換為隱馬爾可夫模型 狀態(tài)網(wǎng)絡(luò),供識別時(shí)使用。相對于現(xiàn)有技術(shù),本發(fā)明能夠有效地提高了聲調(diào)識別正確率。
圖1是本發(fā)明一個(gè)實(shí)施例中提出的聲調(diào)識別方法的流程圖;圖2是本發(fā)明一個(gè)實(shí)施例中提出的聲調(diào)識別方法中聲調(diào)識別模型訓(xùn)練時(shí)的特征 流相關(guān)的決策樹聚類示例;圖3是本發(fā)明一個(gè)實(shí)施例中提出的聲調(diào)識別方法中所用到的聲調(diào)網(wǎng)絡(luò);圖4是本發(fā)明一個(gè)實(shí)施例中提出的聲調(diào)識別方法中所用到的聲調(diào)網(wǎng)絡(luò)的上下文 擴(kuò)展及模型轉(zhuǎn)換示意圖。
具體實(shí)施例方式本發(fā)明所提到的連續(xù)語音聲調(diào)識別方法的流程框圖如圖1所示。本流程包含兩個(gè) 過程,訓(xùn)練過程和識別過程。在訓(xùn)練過程中,采用大規(guī)模語料訓(xùn)練得到基于多空間概率分布 的HMM模型;在識別過程中,基于已訓(xùn)練好的MSD-HMM模型和一個(gè)專門為聲調(diào)識別所設(shè)計(jì)的 聲調(diào)識別網(wǎng)絡(luò),采用Viterbi搜索算法得到最佳的聲調(diào)序列。在本方法中,所選用的語音特征包含頻譜特征和基頻特征,頻譜特征為
4語音識別中常用的特征,包含 MFCC(Mel-frequency cepstral coefficient)、 MF-PLP(Mel-frequency perceptual linear prediction)等等;基頻特征用于表征聲調(diào)特 性,本發(fā)明選用了 5維的基頻特征,這五個(gè)基頻特征分別是1)語音幀的基頻值; 2)相鄰幀的基頻一階差分值;3)相鄰幀的基頻二階差分值;4)當(dāng)前連續(xù)基頻段的長度;5)當(dāng)前幀基頻值與前一個(gè)連續(xù)基頻段的后N幀基頻平均值的差值,N通常選為10。這五維的基頻特征是在實(shí)踐中證明能夠取得較好的特征組合,但本發(fā)明所涉及的 方法并不限于此五維特征組合,增加或減少特征數(shù)量并不影響本發(fā)明的應(yīng)用,但可能不能 得到最好的結(jié)果。比如可選擇上述五個(gè)基頻特征中的第1、4、5特征構(gòu)成三維的特征,等等。在語音信號中,基頻值只存在于濁音段,在清音段上不存在基頻。實(shí)際語音中 的濁音段和清音段是交替存在的,因此,基頻序列并非一個(gè)完全連續(xù)的序列。傳統(tǒng)的 HMM只能處理完全連續(xù)的矢量序列,因此,在對基頻進(jìn)行建模的時(shí)候,本發(fā)明采用了多空 間概率分布的HMM模型。關(guān)于多空間概率分布的HMM的技術(shù)細(xì)節(jié)可參照Mu 11 i - s ρ a c e probability distribution HMM(K. Tokuda, Τ. Masuko, N. Miyazaki, and Τ. Kobayashi, IEICE TRANSACTIONS on Information and Systems,vol. 85,no. 3,pp. 455-464,2002)。多 空間概率分布將整個(gè)特征分布空間分為不同的子空間,每個(gè)子空間可以有不同的維數(shù)?;?于多空間概率分布的基頻建模認(rèn)為濁音段和清音段的基頻特征來源于不同的子空間,濁音 段基頻特征來源于一個(gè)連續(xù)的子空間,清音段基頻特征來源于一個(gè)0維的子空間(清音段 基頻值無實(shí)際意義)。當(dāng)頻譜特征和基頻特征聯(lián)合建模時(shí),采用了特征流相關(guān)的建模方法, 頻譜特征和基頻特征分屬于不同的流,并且采用不同的建模方式。對頻譜特征流采用傳統(tǒng) 的HMM建模方式,對基頻特征流則采用MSD-HMM建模方式。在建模單元的選取上,考慮到此處無需識別出具體的音素,而且當(dāng)前音節(jié)的聲調(diào) 主要受其聲調(diào)上下文的影響,因此選取當(dāng)前音節(jié)、當(dāng)前聲調(diào)、前一個(gè)字的聲調(diào)、后一個(gè)字的 聲調(diào)共同構(gòu)成一個(gè)建模單元。一個(gè)建模單元示例如下所示3"bail = 2其中ba表示當(dāng)前的音節(jié),01表示當(dāng)前聲調(diào)為一聲,3~表示前一個(gè)字的聲調(diào)為三 聲,=2表示后一個(gè)字的聲調(diào)為二聲。每一個(gè)建模單元由一個(gè)含有四個(gè)狀態(tài)的隱馬爾可夫 模型來建模。此處包含四個(gè)部分的建模單元是在實(shí)踐中發(fā)現(xiàn)效果較好的方式,但本發(fā)明中所采 用的方法并不限于此種建模單元,比如建模單元可只選取當(dāng)前音節(jié)、當(dāng)前聲調(diào)、前一個(gè)字的 聲調(diào)三部分,構(gòu)成如3~ba@l的方式,等等。為了解決數(shù)據(jù)稀疏問題,在建模中采用了基于決策樹的聚類方式,決策樹的建立 根據(jù)前一個(gè)音節(jié)的聲調(diào),后一個(gè)音節(jié)的聲調(diào),當(dāng)前的音節(jié)來建立。針對這三個(gè)部分,設(shè)計(jì)了 不同的問題,問題的示例如下1.前一個(gè)音節(jié)聲調(diào)是一聲?2.后一個(gè)音節(jié)聲調(diào)是一聲?3.當(dāng)前音節(jié)的韻母是單元音?
......對每一個(gè)聲調(diào)建立一個(gè)決策樹,最后的結(jié)果中共包含N個(gè)決策樹,N為聲調(diào)的總 數(shù)。以漢語為例,N = 5(—聲,二聲,三聲,四聲,輕聲)。在聚類中,針對特征中的頻譜參數(shù)流和基頻參數(shù)流,還采用了特征流相關(guān)的決策 樹聚類方法。即針對不同的特征流,建立不同的決策樹。因?yàn)椴煌奶卣髁魉从吵龅氖?語音的不同的特征,比如頻譜特征流更多的跟當(dāng)前音節(jié)的發(fā)音有關(guān),而基頻參數(shù)流更多的 受前后聲調(diào)的影響。采用特征流相關(guān)的聚類方法可以建立更準(zhǔn)確的模型。特征流相關(guān)的決 策樹聚類示例如圖2所示。頻譜流決策樹的建立過程更多的和發(fā)音有關(guān)的問題有關(guān),而基 頻流決策樹的建立過程更多的和聲調(diào)有關(guān)的問題有關(guān)。在識別過程中,因?yàn)楸景l(fā)明專注于聲調(diào)識別,因此假設(shè)音節(jié)內(nèi)容是已知的。基于已 知的音節(jié)內(nèi)容,構(gòu)建了如圖3所示的聲調(diào)識別網(wǎng)絡(luò)。每個(gè)音節(jié)有五個(gè)候選聲調(diào),分別用1,2, 3,4,5來表示。從開始節(jié)點(diǎn)到結(jié)束節(jié)點(diǎn)的整個(gè)網(wǎng)絡(luò)構(gòu)成完整的一句話。在實(shí)際解碼之前,這 個(gè)網(wǎng)絡(luò)經(jīng)過上下文擴(kuò)展,模型轉(zhuǎn)換,最終轉(zhuǎn)化成為一個(gè)由隱馬爾可夫模型狀態(tài)構(gòu)成的狀態(tài) 圖。圖4展示了網(wǎng)絡(luò)中某條邊的一條擴(kuò)展路徑及轉(zhuǎn)換過程。在這個(gè)狀態(tài)圖上,采用Viterbi 搜索算法搜索得到累積概率最高的路徑,從這條路徑中,可以得到聲調(diào)序列,即為聲調(diào)識別 結(jié)果序列。下面結(jié)合附圖及具體實(shí)施例對本發(fā)明做進(jìn)一步描述實(shí)施例本實(shí)施例以漢語連續(xù)語音聲調(diào)識別為例,描述本發(fā)明的具體實(shí)施步驟,包括訓(xùn)練 步驟和識別步驟。訓(xùn)練步驟包含如下子步驟1)語音數(shù)據(jù)特征提取對語料庫中的語音數(shù)據(jù)進(jìn)行分幀,加窗,預(yù)加重等預(yù)處理, 提取所需頻譜特征和基頻特征;在本實(shí)施例中,語音數(shù)據(jù)以16K,16bit,單聲道數(shù)字化格式存放,所提取的頻譜特 征為MFCC(mel-frequency cepstral coefficient)特征矢量及其一階和兩階差分矢量;基 頻特征包括5維,5維基頻特征分別是a)語音幀的基頻值;b)相鄰幀的基頻一階差分值;c)相鄰幀的基頻二階差分值;d)當(dāng)前連續(xù)基頻段的長度;e)當(dāng)前幀基頻值與前一個(gè)連續(xù)基頻段的后N幀基頻平均值的差值,N通常選為10。2)準(zhǔn)備語音數(shù)據(jù)的標(biāo)注文本準(zhǔn)備訓(xùn)練隱馬爾可夫模型所需的語音數(shù)據(jù)標(biāo)注文 本;隱馬爾科夫模型訓(xùn)練需要與語音相對應(yīng)的內(nèi)容文本,這些文本需要人工標(biāo)注得 到。在本實(shí)施例中,標(biāo)注文本采用音節(jié)拼音標(biāo)注,比如某句語音的標(biāo)注如下所示chuangl wai4 xia4 qi3 le5 piaol yang2 de5 xue3 hual(窗外下起了飄揚(yáng)的雪花)拼音后的數(shù)字表示當(dāng)前字的聲調(diào)。在實(shí)際模型訓(xùn)練過程中,拼音標(biāo)注需要進(jìn)行上 下文擴(kuò)展,以得到包含當(dāng)前音節(jié)、當(dāng)前聲調(diào)、前一個(gè)字的聲調(diào)、后一個(gè)字的聲調(diào)的建模單元。
6對上述標(biāo)注示例進(jìn)行上下文擴(kuò)展后,得到的建模單元序列為O'chuangil = 1 l"waii4 = 4 4"xiai4 = 3 4"qii3 = 5 3"lei5 = 1 5"piaoil =21"yangi2 = 5 2"dei5 = 3 5"xuei3 = 1 3"huail = O
3)模型訓(xùn)練根據(jù)以上準(zhǔn)備的語音特征數(shù)據(jù)以及相應(yīng)的標(biāo)注數(shù)據(jù)訓(xùn)練MSD-HMM模 型;模型訓(xùn)練采用最大似然訓(xùn)練準(zhǔn)則,訓(xùn)練算法采用Baum-Welch算法。為了避免數(shù)據(jù) 稀疏問題,所有的識別單元采用特征流相關(guān)的決策樹聚類方法聚類。對頻譜參數(shù)流和基頻 參數(shù)流,分別建立不同的決策樹。決策樹的建立根據(jù)前一個(gè)音節(jié)的聲調(diào),后一個(gè)音節(jié)的聲 調(diào),當(dāng)前的音節(jié)來建立。漢語總共有五個(gè)聲調(diào)(包含了輕聲),對每一個(gè)聲調(diào)建立一個(gè)決策 樹。識別步驟包含如下子步驟1)語音數(shù)據(jù)特征提取對待識別的語音數(shù)據(jù)進(jìn)行分幀,加窗,預(yù)加重等預(yù)處理,提 取所需頻譜特征和基頻特征;所述頻譜特征和基頻特征與訓(xùn)練步驟中的步驟1)完全一致,不再贅述。2)準(zhǔn)備聲調(diào)識別網(wǎng)絡(luò)對每一句待識別的語音,根據(jù)已知的音節(jié)內(nèi)容構(gòu)建識別網(wǎng) 絡(luò);識別網(wǎng)絡(luò)如圖3所示。圖中表示的是“我愛地球”的聲調(diào)識別網(wǎng)絡(luò),句中的每個(gè)音 節(jié)(wo ai di qiu),包含5個(gè)可選的聲調(diào)1,2,3,4,5,分別表示漢語中的一聲,二聲,三聲,
四聲,輕聲。此聲調(diào)識別網(wǎng)絡(luò)經(jīng)過上下文擴(kuò)展,模型轉(zhuǎn)換過程,最終轉(zhuǎn)化成包含隱馬爾可夫模 型狀態(tài)的狀態(tài)網(wǎng)絡(luò)。此過程如圖4所示,對圖3中的每一條邊,根據(jù)其前面音節(jié)和后面音節(jié) 的聲調(diào)進(jìn)行上下文擴(kuò)展,得到建模單元網(wǎng)絡(luò)。比如對“ai5”這條邊,擴(kuò)展為“rai@5 = 1”, "2"aii5 = l","3"aii5 = lVTai@5 = 2”等邊。然后,每個(gè)建模單元用相應(yīng)的隱馬爾科 夫模型來替換,就得到了最終的聲調(diào)識別網(wǎng)絡(luò)。3)聲調(diào)序列搜索通過有效的搜索算法得到最終的聲調(diào)識別序列;在本實(shí)施例中,采用Viterbi搜索算法根據(jù)已得到的隱馬爾可夫模型和聲調(diào)識別 狀態(tài)網(wǎng)絡(luò)搜索得到最優(yōu)的識別單元路徑。從這個(gè)識別單元路徑中,提取出聲調(diào)序列,即為聲 調(diào)識別結(jié)果。檢測試驗(yàn)使用中華人民共和國國家863漢語普通話大詞匯量連續(xù)語音識別評測數(shù)據(jù)庫對 本發(fā)明所提出的連續(xù)語音聲調(diào)識別方法進(jìn)行了實(shí)驗(yàn)。實(shí)驗(yàn)中選用大約80個(gè)小時(shí)的數(shù)據(jù)作 為訓(xùn)練集,包含84個(gè)男性和84個(gè)女性的錄音;另有大約5個(gè)小時(shí)的數(shù)據(jù)作為測試集,包含 7個(gè)男性和7個(gè)女性的錄音,大約8000句話。最終訓(xùn)練的得到的模型總共包含約5000個(gè)狀 態(tài)得,每個(gè)狀態(tài)由含16個(gè)高斯的高斯混合模型描述。實(shí)驗(yàn)結(jié)果如表1所示,包含5個(gè)聲調(diào) 分別的實(shí)驗(yàn)正確率和總的識別正確率。與顯式聲調(diào)建模方法相比,本發(fā)明中的方法在大部 分聲調(diào)上都取得了更好的識別結(jié)果,最終的聲調(diào)識別正確率比TRUES方法提高了約3. 7個(gè) 百分點(diǎn)。表1
聲調(diào)TRUES識別正確 率—聲92.02%90.63%二聲85.94%88.3%一 ^zt=- 二尸60.97%91.03%四聲88.79%89.4%五聲59.26%75.39%全部85.07%88.8% 最后,需要說明的是,雖然上述實(shí)施例以漢語為例進(jìn)行說明,但本領(lǐng)域技術(shù)人員易 于理解,本發(fā)明可以用于對其它有調(diào)語言進(jìn)行聲調(diào)識別。
權(quán)利要求
一種連續(xù)語音聲調(diào)識別方法,包括訓(xùn)練步驟和識別步驟,其特征在于,所述訓(xùn)練步驟包括1)提取已知語音段中每一個(gè)語音幀的頻譜特征和基頻特征,對于每一個(gè)語音幀,所述基頻特征至少包括當(dāng)前語音幀的基頻值,當(dāng)前連續(xù)基頻段的長度,以及當(dāng)前幀基頻值與前一個(gè)連續(xù)基頻段的后N幀基頻平均值的差值;所述頻譜特征是MFCC特征或者M(jìn)F PLP特征,或者是二者的組合;2)對所提取出的多個(gè)語音幀的基頻特征所組成的基頻特征流,采用多空間概率分布隱馬爾可夫模型來進(jìn)行建模,對所提取出的多個(gè)語音幀的頻譜特征所組成的頻譜特征流,采用普通隱馬爾可夫模型建模;其中,組成識別單元的元素包括當(dāng)前音節(jié),當(dāng)前聲調(diào)以及前一個(gè)字的聲調(diào);3)采用特征流相關(guān)的決策樹聚類方法,根據(jù)所述識別單元中的當(dāng)前音節(jié)和前一個(gè)字聲調(diào)來建立決策樹;其中,對頻譜特征流和基頻特征流分別建立不同的決策樹,分別得到聚類后的基頻特征模型和頻譜特征模型;所述識別步驟包括4)對每一句待識別語音,進(jìn)行語音識別得出其音節(jié)內(nèi)容;5)根據(jù)已得出的音節(jié)內(nèi)容,基于訓(xùn)練步驟所得出的聚類后的基頻特征模型和頻譜特征模型,建立聲調(diào)識別網(wǎng)絡(luò),并在所述聲調(diào)識別上進(jìn)行Viterbi搜索,得其最優(yōu)路徑,并從最優(yōu)路徑中提取聲調(diào)序列,作為最終的聲調(diào)識別結(jié)果。
2.根據(jù)權(quán)利要求1所述的連續(xù)語音聲調(diào)識別方法,其特征在于,所述步驟1)中,所述基 頻特征還包括當(dāng)前幀與相鄰幀的基頻一階差分值;和/或當(dāng)前幀與相鄰幀的基頻二階差 分值。
3.根據(jù)權(quán)利要求1所述的連續(xù)語音聲調(diào)識別方法,其特征在于,所述步驟2)中,所述識 別單元由當(dāng)前音節(jié),當(dāng)前聲調(diào),前一個(gè)字的聲調(diào),以及后一個(gè)字的聲調(diào)組成。
4.根據(jù)權(quán)利要求1所述的連續(xù)語音聲調(diào)識別方法,其特征在于,所述步驟2)中,采用多 空間概率分布隱馬爾可夫模型來進(jìn)行建模時(shí),0維子空間描述清音部分的基頻,多維連續(xù)子 空間描述濁音部分的基頻。
5.根據(jù)權(quán)利要求3所述的連續(xù)語音聲調(diào)識別方法,其特征在于,所述步驟3)中,決策樹 根據(jù)當(dāng)前音節(jié),前字聲調(diào)和后字聲調(diào)來建立,對所識別的有調(diào)語言中每一類聲調(diào)各建立一 個(gè)決策樹。
6.根據(jù)權(quán)利要求3所述的連續(xù)語音聲調(diào)識別方法,其特征在于,所述步驟5)還包括 在建立所述聲調(diào)識別網(wǎng)絡(luò)時(shí),所述聲調(diào)識別網(wǎng)絡(luò)中每一個(gè)音節(jié)含有N個(gè)聲調(diào)候選,聲調(diào)識 別網(wǎng)絡(luò)有一個(gè)開始節(jié)點(diǎn)和一個(gè)結(jié)束節(jié)點(diǎn),聲調(diào)識別網(wǎng)絡(luò)經(jīng)過聲調(diào)上下文擴(kuò)展轉(zhuǎn)換為識別單 元網(wǎng)絡(luò),識別單元網(wǎng)絡(luò)最終再轉(zhuǎn)換為隱馬爾可夫模型狀態(tài)網(wǎng)絡(luò),供識別時(shí)使用。
全文摘要
本發(fā)明涉及一種連續(xù)語音聲調(diào)識別方法,1)提取已知語音段中每一個(gè)語音幀的頻譜特征和基頻特征,所述基頻特征至少包括當(dāng)前語音幀的基頻值,當(dāng)前連續(xù)基頻段的長度,以及當(dāng)前幀基頻值與前一個(gè)連續(xù)基頻段的后N幀基頻平均值的差值;2)對所提取出的基頻特征流和頻譜特征流,分別采用多空間概率分布和普通的隱馬爾可夫模型來進(jìn)行建模;3)采用特征流相關(guān)的決策樹聚類方法建立決策樹,分別得到聚類后的基頻特征模型和頻譜特征模型;4)對每一句待識別語音進(jìn)行語音識別;5)根據(jù)已得出的音節(jié)內(nèi)容,基于步驟3)所得出模型和建立聲調(diào)識別網(wǎng)絡(luò),并在所述聲調(diào)識別上進(jìn)行Viterbi搜索,得其最優(yōu)路徑,并從最優(yōu)路徑中提取聲調(diào)序列,作為最終的聲調(diào)識別結(jié)果。
文檔編號G10L15/06GK101950560SQ201010279090
公開日2011年1月19日 申請日期2010年9月10日 優(yōu)先權(quán)日2010年9月10日
發(fā)明者劉常亮, 潘復(fù)平, 董濱, 顏永紅 申請人:中國科學(xué)院聲學(xué)研究所