專利名稱::一種基于改進(jìn)二次判別式的語(yǔ)音情感識(shí)別方法
技術(shù)領(lǐng)域:
:本發(fā)明涉及一種語(yǔ)音識(shí)別方法,特別涉及一種語(yǔ)音情感識(shí)別系統(tǒng)及方法。
背景技術(shù):
:語(yǔ)音情感自動(dòng)識(shí)別技術(shù)主要包括兩個(gè)問(wèn)題一是采用語(yǔ)音信號(hào)中的何種特征作為情感識(shí)別,也就是情感特征提取的問(wèn)題,一是如何將特定的語(yǔ)音數(shù)據(jù)進(jìn)行分類,也就是模式識(shí)別的問(wèn)題。語(yǔ)音情感識(shí)別中常用的情感特征主要是韻律參數(shù)及音質(zhì)參數(shù),前者包括持續(xù)時(shí)間、語(yǔ)速、能量、基音頻率及其衍生參數(shù),音質(zhì)參數(shù)主要是是共振峰、諧波噪聲比及其衍生參數(shù)等。但是由于人和人之間存在的個(gè)體差異性(聲道的易變性、聲道特征、單詞發(fā)音音調(diào)等)目前存在的方法都難以實(shí)現(xiàn)基音和共振峰的精確檢測(cè),單純的使用基音、共振峰等常見(jiàn)的參數(shù)難以實(shí)現(xiàn)較高的情感識(shí)別率。根據(jù)三維情感空間理論,韻律參數(shù)主要是體現(xiàn)各種情感在激活維坐標(biāo)的參數(shù),而音質(zhì)參數(shù)則主要是表征情感在效價(jià)維的坐標(biāo)。對(duì)于在激活維坐標(biāo)較遠(yuǎn)的情感,韻律參數(shù)可以表征出較好的差異性;對(duì)于在激活維坐標(biāo)較近而效價(jià)維坐標(biāo)較遠(yuǎn)的情感,需要音質(zhì)類參數(shù)來(lái)加強(qiáng)表征參數(shù)差異性。在本發(fā)明之前,在已有的各種識(shí)別方法中,神經(jīng)網(wǎng)絡(luò)法雖然具有高度的非線性和極強(qiáng)的分類能力,但是隨著網(wǎng)絡(luò)的增大所需學(xué)習(xí)時(shí)間增加很快,另外局部極小問(wèn)題也是一個(gè)不足之處;隱馬爾可夫法(HMM)在建立和訓(xùn)練時(shí)間上較長(zhǎng),應(yīng)用于實(shí)際還需要解決計(jì)算復(fù)雜度過(guò)高的問(wèn)題。二次判別式雖然算法簡(jiǎn)單計(jì)算量小,但是必須以特征矢量服從正態(tài)分布為前提,極大的影響了識(shí)別率,而到目前為止,特征矢量的正態(tài)化,例如開根或Box-Cox變換,對(duì)近r分布的參數(shù)有較好的效果,而上面提到的參數(shù)分布是多樣非正態(tài)的,對(duì)其概率函數(shù)如何尋找更有效的正態(tài)變換是釆用二次判別式進(jìn)行識(shí)別過(guò)程中必須考慮的問(wèn)題。
發(fā)明內(nèi)容本發(fā)明的目的就在于克服上述現(xiàn)有技術(shù)的缺陷,設(shè)計(jì)、研究一種基于改進(jìn)二次判別式的語(yǔ)音情感識(shí)別方法。本發(fā)明的技術(shù)方案是-一種基于改進(jìn)二次判別式的語(yǔ)音情感識(shí)別方法,其主要技術(shù)步驟為建立特征提取分析模塊、改進(jìn)二次判別模型、情感識(shí)別模塊。特征提取分析模塊包括兩類參數(shù)的提取和分析韻律參數(shù)和音質(zhì)參數(shù)。首先對(duì)原始語(yǔ)音信號(hào)預(yù)加重、分幀,然后分別進(jìn)行特征提取。(1)韻律參數(shù)提取(l-l)將原始語(yǔ)音信號(hào)經(jīng)高通濾波器預(yù)處理,提取發(fā)音持續(xù)時(shí)間、語(yǔ)速參數(shù);(1-2)分幀,加窗;(1-3)應(yīng)用短時(shí)分析技術(shù),分別提取各幀語(yǔ)句主要特征參數(shù)基頻軌跡、短時(shí)能量軌跡、濁音段清音段時(shí)間比;(l-4)提取部分韻律特征參數(shù)的衍生參數(shù)短時(shí)能量最大值、最小值、均值和方差,短時(shí)能量抖動(dòng)最大值、最小值、均值和方差,基頻最大值、最小值、均值和方差,基頻抖動(dòng)的最大值、最小值、均值和方差。其中短時(shí)能量抖動(dòng)的計(jì)算如下-諱《1"3,…,w(式d其中《是第/幀短時(shí)能量,7V為幀數(shù)?;l抖動(dòng)的計(jì)算同(式l)。(2)音質(zhì)特征參數(shù)提取(2-1)提取聲門波參數(shù)的最大值、最小值、均值和方差,包括聲門開啟時(shí)間與整個(gè)聲門周期比(OQ,openquotient)、聲門開啟過(guò)程時(shí)間與閉合過(guò)程時(shí)間比(SQ,speedquotient)、聲門閉合時(shí)間與整個(gè)聲門周期比(CQ,ClosedQuotient)、聲門閉合過(guò)程時(shí)間與整個(gè)聲門周期比(C1Q,ClosingQuotient)、聲門波歪斜度;(2-2)提取諧波噪聲比最大值、最小值、均值、方差;(2-3)提取前三個(gè)共振峰最大值、最小值、均值、方差和帶寬;(2-4)提取前三個(gè)共振峰抖動(dòng)的最大值、最小值、均值、方差;共振峰抖動(dòng)計(jì)算同(式l);(3)特征降維(3-1)將(1)(2)中全部特征提取完畢后,組成特征矢量;(3-2)采用獨(dú)立分量神經(jīng)網(wǎng)絡(luò)分析法對(duì)所有特征降維,神經(jīng)網(wǎng)絡(luò)權(quán)值向量更新公式巧+1]=w乂W+//(^[A]x'W—力2Ww乂W)(式2)x'=xW-ZO[A:]y,|>](式3)這里選擇可以保證90%以上信息的主分量個(gè)數(shù)為25。(4)改進(jìn)二次判別式的建立(4-1)從情感語(yǔ)句庫(kù)中選取高興、生氣、悲傷、恐懼、驚訝五類情感各iV,.條語(yǔ)句作為訓(xùn)練樣本,11^=^;(4-2)對(duì)第z'類第fc條情感語(yǔ)句,抽取其特征參數(shù)構(gòu)成一個(gè)特征參數(shù)矢量v…,^'r,然后對(duì)其正態(tài)化變換得到h'、(h/,h2',…,a;);V^刈(式4)、<V=o(4-3)以h'服從正態(tài)分布為前提,求得V的概率密度函數(shù)M^lw,)的對(duì)數(shù)形式;4^')=—會(huì)U'—/vH')—!(^'_/V)_^inMd=i&、'(式5)(4-4)求取戶(&'iw)中參數(shù)估計(jì)值;二^lT,^/處進(jìn)行泰勒展開,并代入(式5),并令4')=0,得到"2,3,4(式7)(4-5)根據(jù)(4-2)(4-4),根據(jù)男女性別分別建立五類情感的二次判別式;(5)情感識(shí)別按照步驟(1)、(2)提取待識(shí)別語(yǔ)句的特征矢量,根據(jù)步驟(3)所提供的權(quán)值向量進(jìn)行降維,得到降維后特征矢量x,按照性別輸入到各個(gè)二次判別式中,選擇具有最大輸出值所對(duì)應(yīng)的情感為待識(shí)別語(yǔ)句的情感。本發(fā)明的優(yōu)點(diǎn)和效果在于1.通過(guò)對(duì)情感語(yǔ)句的特征參數(shù)提取與分析,將參數(shù)從韻律參數(shù)擴(kuò)充至音質(zhì)參數(shù),增加了特征參數(shù)的有效性;2.釆用獨(dú)立分量祌經(jīng)網(wǎng)絡(luò)對(duì)所提取的特征矢量進(jìn)行降維,不僅減少了計(jì)算量,而且在一定程度上起到了降噪作用;3.充分考慮了特征矢量非正態(tài)分布的實(shí)際情況,在識(shí)別前對(duì)原始特征進(jìn)行非線性變換以得到正態(tài)化參數(shù),較以往其他變換更有效;4.獲得更確切的原始特征矢量概率密度函數(shù)用于建立改進(jìn)的二次判別式,并在此基礎(chǔ)上提供了一個(gè)實(shí)用的、性能優(yōu)良的高識(shí)別率語(yǔ)音情感識(shí)別系統(tǒng),獲得最好的語(yǔ)音情感識(shí)別;5.方法簡(jiǎn)單,計(jì)算量較小。本發(fā)明的其他優(yōu)點(diǎn)和效果將在下面繼續(xù)描述。圖1——語(yǔ)音情感識(shí)別系統(tǒng)框圖。圖2——情感特征提取分析模塊流程圖。圖3——聲門門波形及其微分波形圖圖4——獨(dú)立分量神經(jīng)網(wǎng)絡(luò)示意圖圖5——開根法、Box-Cox變換和本發(fā)明變換對(duì)特征參數(shù)正態(tài)化的峭度比較圖6——基于改進(jìn)二次判別函數(shù)的語(yǔ)音情感識(shí)別結(jié)果具體實(shí)施例方式下面結(jié)合附圖和實(shí)施例,對(duì)本發(fā)明所述的技術(shù)方案作進(jìn)一步的闡述。圖l為本系統(tǒng)框圖,主要分為3大塊特征提取分析模塊、改進(jìn)二次判別式模塊和語(yǔ)音情感識(shí)別模塊。整個(gè)系統(tǒng)執(zhí)行過(guò)程分為訓(xùn)練過(guò)程和識(shí)別過(guò)程。訓(xùn)練過(guò)程包括特征提取分析、改進(jìn)二次判別式的建立;識(shí)別過(guò)程包括特征提取分析、語(yǔ)音情感識(shí)別。一.情感特征提取分析模塊1.韻律特征參數(shù)選擇韻律特征參數(shù)包括短時(shí)能量最大值、最小值、均值和方差;短時(shí)能量抖動(dòng)最大值、最小值、均值和方差;基頻的最大值、最小值、均值和方差;基頻抖動(dòng)的最大值、最小值、均值和方差;濁音段清音段時(shí)間比;語(yǔ)速。首先,根據(jù)附圖2中的特征參數(shù)提取流程將待提取特征語(yǔ)句進(jìn)行預(yù)加重處理,包括高通濾波、語(yǔ)句開始端點(diǎn)與結(jié)束端點(diǎn)的檢測(cè);提取全句的語(yǔ)句發(fā)音持續(xù)時(shí)間、語(yǔ)速這兩個(gè)特征;然后對(duì)語(yǔ)句分幀加窗,采用短時(shí)分析技術(shù),按照男女性別,分別求出各幀基頻、短時(shí)能量、濁音幀數(shù)和清音幀數(shù),將各幀所得參數(shù)匯總,分別得到語(yǔ)句的基音軌跡、基音抖動(dòng)軌跡、短時(shí)能量軌跡和短時(shí)能量抖動(dòng)軌跡,進(jìn)而獲得它們的特征統(tǒng)計(jì)量,得到上述全部韻律特征參數(shù)。2.音質(zhì)特征參數(shù)選擇音質(zhì)特征參數(shù)包括0Q的最大值、最小值、均值和方差;SQ的最大值、最小值、均值和方差;CQ的最大值、最小值、均值和方差;C1Q的最大值、最小值、均值和方差;《的最大值、最小值、均值和方差;第一共振峰最大值、最小值、均值、方差和帶寬;第一共振峰抖動(dòng)的最大值、最小值、均值、方差;第二共振峰最大值、最小值、均值、方差和帶寬;第二共振峰抖動(dòng)的最大值、最小值、均值、方差;第三共振峰最大值、最小值、均值、方差和帶寬;第三共振峰抖動(dòng)的最大值、最小值、均值、方差;諧波噪聲比最大值、最小值、均值、方差。多個(gè)音質(zhì)參數(shù)的選取是本文方法的特點(diǎn)之一。雖然韻律特征在識(shí)別中起主導(dǎo)作用,但在識(shí)別某些激活維接近效價(jià)維分離的情感時(shí),如高興和生氣,音質(zhì)特征可以起到有效補(bǔ)充作用。音質(zhì)參數(shù)是反映發(fā)音時(shí)聲門波形狀的變化,其影響因素有肌肉張力,聲道中央壓力以及聲道長(zhǎng)度張力,具體的有聲源類型(發(fā)音方式)、聲門波參數(shù)和聲道共振峰參數(shù)。LF模型(Liljencrants-FantMode)是常用的描述聲門波的模型,如圖3所示,T。基音周期;Z。聲門開啟時(shí)刻;~:聲門閉合時(shí)刻;聲門波達(dá)到最大峰值時(shí)刻;差分波達(dá)到最大負(fù)峰值時(shí)刻。根據(jù)此模型可提取如下聲門波參數(shù)L一L7""10&=丄c/2=^乂o(式8)(式9)1—(9g(式IO)(式ll)(式12)具體實(shí)施時(shí),仍然需要進(jìn)行預(yù)加重處理,包括高通濾波、語(yǔ)句開始端點(diǎn)與結(jié)束端點(diǎn)的檢然后對(duì)語(yǔ)句分幀加窗,分別得到聲門波特征、共振峰特征、諧波噪聲比等音質(zhì)參數(shù)。在系統(tǒng)的執(zhí)行過(guò)程中,特征提取分析是必不可少的。在訓(xùn)練過(guò)程中,訓(xùn)練樣本的特征提取分析可以直接按照?qǐng)D2所示流程進(jìn)行。在識(shí)別過(guò)程中,待識(shí)別語(yǔ)句的特征提取分析同樣按照?qǐng)D2流程進(jìn)行。3.特征降維前面分析提取了共69個(gè)特征參數(shù),為避免維度過(guò)高而引起的計(jì)算復(fù)雜度提升,以及冗余信息對(duì)識(shí)別的影響,采用獨(dú)立分量神經(jīng)網(wǎng)絡(luò)來(lái)實(shí)現(xiàn)降維,采用基于Hebb規(guī)則的線性無(wú)監(jiān)督學(xué)習(xí)神經(jīng)網(wǎng)絡(luò),如圖4所示。通過(guò)對(duì)權(quán)矩陣『的學(xué)習(xí),使權(quán)值向量接近于特征向量x的斜方差陣中特征值所對(duì)應(yīng)的特征向量,避免直接對(duì)矩陣的求逆運(yùn)算。得到降維后特征矢量少=『。權(quán)值向量修改規(guī)則如下w)&+1]=,W+W力W—VkkW)(式13)(式14)二.改進(jìn)二次判別式1.改進(jìn)二次判別式的推導(dǎo)從情感語(yǔ)句庫(kù)中選取高興、生氣、悲傷、恐懼、驚訝五類情感各iV,條語(yǔ)句作為訓(xùn)練樣本,Z^iV,-iV;對(duì)第/類第A條情感語(yǔ)句,抽取其特征參數(shù)構(gòu)成一個(gè)特征參數(shù)矢量…,^/r,然后對(duì)其正態(tài)化變換得到;V、(V,;W,…,dexp()—l義..義/*0(式15);i/=o設(shè)h,'服從正態(tài)分布,求得'的概率密度函數(shù)的對(duì)數(shù)形式;》'將(式15)代入(式16),去掉常數(shù)項(xiàng),整理得到:見(jiàn)豐,卜-f1,,將JV在V=+K>&'處進(jìn)行泰勒展開乂,'(式17)(式16)A/〖,.、2〔一j+24^廣^J+0^.(式18)義,氛,+■(式19)—丄Y^(,—"-v乙"i、少&—■/柳"=扭K'、卞,"3,412"4(式21)(式20)代入(式17),并令i;.=-\A,"丄0,得至U:耽6,(式22)同理,將特征矢量的密度函數(shù)取對(duì)數(shù)并簡(jiǎn)化丄k')=-會(huì)W-/vr)—1(h'-)-會(huì)一/1+i:二4v/7(X/IVV,.)中參數(shù)估計(jì)值;(式23)/V、+r:x'V:士r:,Gv-/vk-4(式24)1vw,.義,6附3;3、附2jj_7附〉^HW—VZ,葉2,3,4(式25)按照上述步驟分別建立不同性別各自的五種情感二次判別式。2.情感識(shí)別根據(jù)特征提取模塊流程提取待識(shí)別語(yǔ)句特征矢量,按照男女性別進(jìn)行判斷,將輸出最大值的二次判別式所對(duì)應(yīng)的情感作為識(shí)別結(jié)果。三.識(shí)別系統(tǒng)的評(píng)價(jià)圖5是本發(fā)明所用指數(shù)變換、開根變換、Box-Cox變換和無(wú)變換對(duì)特征參數(shù)正態(tài)化后峭度比較,從圖中可以看出,無(wú)變換情況下,參數(shù)是遠(yuǎn)離正態(tài)分布的,正態(tài)化情況下,Box-Cox變換優(yōu)于開根變換,本發(fā)明所用變換優(yōu)于Box-Cox變換;圖6所示是實(shí)施改進(jìn)二次判別式同其傳統(tǒng)二次判別式、基于開根的二次判別式和基于Box-Cox的二次判別式的識(shí)別結(jié)果。該結(jié)果表明,使用本發(fā)明方法對(duì)語(yǔ)音情感進(jìn)行識(shí)別大大高于現(xiàn)有其他二次判別方法,克服了二次判別式以正態(tài)分布為前提的局限性,將具有多樣分布特性的語(yǔ)音特征參數(shù)規(guī)整為正態(tài)或近正態(tài)分布,從而得到改進(jìn)的二次判別形式。本發(fā)明請(qǐng)求保護(hù)的范圍并不僅僅局限于本具體實(shí)施方式的描述。權(quán)利要求1.一種基于改進(jìn)二次判別式的語(yǔ)音情感識(shí)別方法,其步驟為建立特征提取分析模塊、改進(jìn)二次判別模型、情感識(shí)別模塊;特征提取分析模塊包括兩類參數(shù)的提取和分析韻律參數(shù)和音質(zhì)參數(shù);首先對(duì)原始語(yǔ)音信號(hào)預(yù)加重、分幀,然后分別進(jìn)行特征提??;(1)韻律參數(shù)提取(1-1)將原始語(yǔ)音信號(hào)經(jīng)高通濾波器預(yù)處理,提取發(fā)音持續(xù)時(shí)間、語(yǔ)速參數(shù);(1-2)分幀,加窗;(1-3)應(yīng)用短時(shí)分析技術(shù),分別提取各幀語(yǔ)句主要特征參數(shù)基頻軌跡、短時(shí)能量軌跡、濁音段清音段時(shí)間比;(1-4)提取部分韻律特征參數(shù)的衍生參數(shù)短時(shí)能量最大值、最小值、均值和方差,短時(shí)能量抖動(dòng)最大值、最小值、均值和方差,基頻最大值、最小值、均值和方差,基頻抖動(dòng)的最大值、最小值、均值和方差;其中短時(shí)能量抖動(dòng)的計(jì)算如下<mathsid="math0001"num="0001"><math><![CDATA[<mrow><msubsup><mi>E</mi><mi>i</mi><mn>1</mn></msubsup><mo>=</mo><mo>|</mo><msubsup><mi>E</mi><mi>i</mi><mn>0</mn></msubsup><mo>-</mo><msubsup><mi>E</mi><mrow><mi>i</mi><mo>-</mo><mn>1</mn></mrow><mn>0</mn></msubsup><mo>|</mo></mrow>]]></math>id="icf0001"file="A2008101228050002C1.tif"wi="25"he="6"top="109"left="27"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>i=2,3,…,N(式1)其中Ei0是第i幀短時(shí)能量,N為幀數(shù);基頻抖動(dòng)的計(jì)算同(式1);(2)音質(zhì)特征參數(shù)提取(2-1)提取聲門波參數(shù)的最大值、最小值、均值和方差,包括聲門開啟時(shí)間與整個(gè)聲門周期比(OQ,openquotient)、聲門開啟過(guò)程時(shí)間與閉合過(guò)程時(shí)間比(SQ,speedquotient)、聲門閉合時(shí)間與整個(gè)聲門周期比(CQ,ClosedQuotient)、聲門閉合過(guò)程時(shí)間與整個(gè)聲門周期比(ClQ,ClosingQuotient)、聲門波歪斜度;(2-2)提取諧波噪聲比最大值、最小值、均值、方差;(2-3)提取前三個(gè)共振峰最大值、最小值、均值、方差和帶寬;(2-4)提取前三個(gè)共振峰抖動(dòng)的最大值、最小值、均值、方差;共振峰抖動(dòng)計(jì)算同(式1);(3)特征降維(3-1)將(1)(2)中全部特征提取完畢后,組成特征矢量;(3-2)采用獨(dú)立分量神經(jīng)網(wǎng)絡(luò)分析法對(duì)所有特征降維,神經(jīng)網(wǎng)絡(luò)權(quán)值向量更新公式wj[k+1]=wj[k]+η(yj[k]x′[k]-yj2[k]wj[k])(式2)<mathsid="math0002"num="0002"><math><![CDATA[<mrow><msup><mi>x</mi><mo>′</mo></msup><mo>[</mo><mi>k</mi><mo>]</mo><mo>=</mo><mi>x</mi><mo>[</mo><mi>k</mi><mo>]</mo><mo>-</mo><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mrow><mi>j</mi><mo>-</mo><mn>1</mn></mrow></msubsup><msub><mi>w</mi><mi>i</mi></msub><mo>[</mo><mi>k</mi><mo>]</mo><msub><mi>y</mi><mi>i</mi></msub><mo>[</mo><mi>k</mi><mo>]</mo></mrow>]]></math>id="icf0002"file="A2008101228050002C2.tif"wi="48"he="6"top="219"left="28"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>(式3)這里選擇可以保證90%以上信息的主分量個(gè)數(shù)為25;(4)改進(jìn)二次判別式的建立(4-1)從情感語(yǔ)句庫(kù)中選取高興、生氣、悲傷、恐懼、驚訝五類情感各Ni條語(yǔ)句作為訓(xùn)練樣本,<mathsid="math0003"num="0003"><math><![CDATA[<mrow><msubsup><mi>Σ</mi><mrow><mi>i</mi><mo>=</mo><mn>1</mn></mrow><mn>5</mn></msubsup><msub><mi>N</mi><mi>i</mi></msub><mo>=</mo><mi>N</mi><mo>;</mo></mrow>]]></math>id="icf0003"file="A2008101228050002C3.tif"wi="21"he="6"top="255"left="32"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>(4-2)對(duì)第i類第k條情感語(yǔ)句,抽取其特征參數(shù)構(gòu)成一個(gè)特征參數(shù)矢量xki=(xk1i,xk2i,…,xkmi)T,然后對(duì)其正態(tài)化變換得到y(tǒng)ki=(yk1i,yk2i,…,ykmi);<mathsid="math0004"num="0004"><math><![CDATA[<mrow><msup><msub><mi>y</mi><mi>kj</mi></msub><mi>i</mi></msup><mo>=</mo><mfencedopen='('close=''><mtable><mtr><mtd><mfrac><mrow><mi>exp</mi><mrow><mo>(</mo><msup><msub><mi>λ</mi><mi>j</mi></msub><mi>i</mi></msup><msup><msub><mi>x</mi><mi>kj</mi></msub><mi>i</mi></msup><mo>)</mo></mrow><mo>-</mo><mn>1</mn></mrow><msup><msub><mi>λ</mi><mi>j</mi></msub><mi>i</mi></msup></mfrac></mtd><mtd><msup><msub><mi>λ</mi><mi>j</mi></msub><mi>i</mi></msup><mo>≠</mo><mn>0</mn></mtd></mtr><mtr><mtd><msup><msub><mi>x</mi><mi>kj</mi></msub><mi>i</mi></msup></mtd><mtd><msup><msub><mi>λ</mi><mi>j</mi></msub><mi>i</mi></msup><mo>=</mo><mn>0</mn></mtd></mtr></mtable></mfenced></mrow>]]></math>id="icf0004"file="A2008101228050003C1.tif"wi="52"he="19"top="27"left="26"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>(式4)(4-3)以yki服從正態(tài)分布為前提,求得xki的概率密度函數(shù)p(xki|wi)的對(duì)數(shù)形式;<mathsid="math0005"num="0005"><math><![CDATA[<mrow><mi>L</mi><mrow><mo>(</mo><msup><msub><mi>x</mi><mi>k</mi></msub><mi>i</mi></msup><mo>)</mo></mrow><mo>=</mo><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><msup><mrow><mo>(</mo><msup><msub><mi>y</mi><mi>k</mi></msub><mi>i</mi></msup><mo>-</mo><msup><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>y</mi></msub><mi>i</mi></msup><mo>)</mo></mrow><mi>T</mi></msup><msup><mrow><mo>(</mo><msup><msub><mover><mi>Σ</mi><mo>^</mo></mover><mi>y</mi></msub><mi>i</mi></msup><mo>)</mo></mrow><mrow><mo>-</mo><mn>1</mn></mrow></msup><mrow><mo>(</mo><msup><msub><mi>y</mi><mi>k</mi></msub><mi>i</mi></msup><mo>-</mo><msup><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>y</mi></msub><mi>i</mi></msup><mo>)</mo></mrow><mo>-</mo><mfrac><mn>1</mn><mn>2</mn></mfrac><mi>ln</mi><mo>|</mo><msup><msub><mover><mi>Σ</mi><mo>^</mo></mover><mi>y</mi></msub><mi>i</mi></msup><mo>|</mo><mo>+</mo><msubsup><mi>Σ</mi><mrow><mi>j</mi><mo>=</mo><mn>1</mn></mrow><mi>m</mi></msubsup><msup><mrow><msub><mover><mi>λ</mi><mo>^</mo></mover><mi>j</mi></msub></mrow><mi>i</mi></msup><msup><msub><mi>x</mi><mi>kj</mi></msub><mi>i</mi></msup></mrow>]]></math>id="icf0005"file="A2008101228050003C2.tif"wi="111"he="9"top="60"left="28"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>(式5)(4-4)求取p(xki|wi)中參數(shù)估計(jì)值;<mathsid="math0006"num="0006"><math><![CDATA[<mrow><msup><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>y</mi></msub><mi>i</mi></msup><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>i</mi></msub></mfrac><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>i</mi></msub></msubsup><msup><msub><mi>y</mi><mi>k</mi></msub><mi>i</mi></msup><mo>,</mo></mrow>]]></math>id="icf0006"file="A2008101228050003C3.tif"wi="34"he="10"top="84"left="26"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths><mathsid="math0007"num="0007"><math><![CDATA[<mrow><msup><msub><mover><mi>Σ</mi><mo>^</mo></mover><mi>y</mi></msub><mi>i</mi></msup><mo>=</mo><mfrac><mn>1</mn><msub><mi>N</mi><mi>i</mi></msub></mfrac><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><msub><mi>N</mi><mi>i</mi></msub></msubsup><mrow><mo>(</mo><msup><msub><mi>y</mi><mi>k</mi></msub><mi>i</mi></msup><mo>-</mo><msup><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>y</mi></msub><mi>i</mi></msup><mo>)</mo></mrow><msup><mrow><mo>(</mo><msup><msub><mi>y</mi><mi>k</mi></msub><mi>i</mi></msup><mo>-</mo><msup><msub><mover><mi>μ</mi><mo>^</mo></mover><mi>i</mi></msub><mi>y</mi></msup><mo>)</mo></mrow><mi>T</mi></msup></mrow>]]></math>id="icf0007"file="A2008101228050003C4.tif"wi="62"he="9"top="84"left="64"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>(式6)將ykji在<mathsid="math0008"num="0008"><math><![CDATA[<mrow><msup><msub><mover><mi>x</mi><mo>‾</mo></mover><mi>kj</mi></msub><mi>i</mi></msup><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msup><msub><mi>x</mi><mi>kj</mi></msub><mi>i</mi></msup></mrow>]]></math>id="icf0008"file="A2008101228050003C5.tif"wi="29"he="9"top="101"left="34"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>處進(jìn)行泰勒展開,并代入(式5),并令<mathsid="math0009"num="0009"><math><![CDATA[<mrow><mfrac><mrow><mo>∂</mo><mi>L</mi><mrow><mo>(</mo><msup><msub><mi>x</mi><mi>k</mi></msub><mi>i</mi></msup><mo>)</mo></mrow></mrow><msubsup><mrow><mo>∂</mo><mi>λ</mi></mrow><mi>j</mi><mi>i</mi></msubsup></mfrac><mo>=</mo><mn>0</mn><mo>,</mo></mrow>]]></math>id="icf0009"file="A2008101228050003C6.tif"wi="21"he="13"top="98"left="139"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>得到<mathsid="math0010"num="0010"><math><![CDATA[<mrow><msubsup><mover><mi>λ</mi><mo>^</mo></mover><mi>j</mi><mi>i</mi></msubsup><mo>=</mo><mfrac><mrow><mn>6</mn><msup><msub><mi>m</mi><mrow><mn>3</mn><mi>j</mi></mrow></msub><mi>i</mi></msup></mrow><mrow><mn>3</mn><msup><mrow><mo>(</mo><msup><msub><mi>m</mi><mrow><mn>2</mn><mi>j</mi></mrow></msub><mi>i</mi></msup><mo>)</mo></mrow><mn>2</mn></msup><mo>-</mo><mn>7</mn><msup><msub><mi>m</mi><mrow><mn>4</mn><mi>j</mi></mrow></msub><mi>i</mi></msup></mrow></mfrac><mo>,</mo></mrow>]]></math>id="icf0010"file="A2008101228050003C7.tif"wi="42"he="14"top="115"left="26"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths><mathsid="math0011"num="0011"><math><![CDATA[<mrow><msup><msub><mi>m</mi><mi>rj</mi></msub><mi>i</mi></msup><mo>=</mo><mfrac><mn>1</mn><mi>N</mi></mfrac><msubsup><mi>Σ</mi><mrow><mi>k</mi><mo>=</mo><mn>1</mn></mrow><mi>N</mi></msubsup><msup><mrow><mo>(</mo><msup><msub><mi>x</mi><mi>kj</mi></msub><mi>i</mi></msup><mo>-</mo><msup><msub><mover><mi>x</mi><mo>‾</mo></mover><mi>kj</mi></msub><mi>i</mi></msup><mo>)</mo></mrow><mi>p</mi></msup><mo>,</mo></mrow>]]></math>id="icf0011"file="A2008101228050003C8.tif"wi="47"he="9"top="117"left="72"img-content="drawing"img-format="tif"orientation="portrait"inline="yes"/></maths>r=2,3,4(式7)(4-5)根據(jù)(4-2)~(4-4),根據(jù)男女性別分別建立五類情感的二次判別式;(5)情感識(shí)別按照步驟(1)、(2)提取待識(shí)別語(yǔ)句的特征矢量,根據(jù)步驟(3)所提供的權(quán)值向量進(jìn)行降維,得到降維后特征矢量x,按照性別輸入到各個(gè)二次判別式中,選擇具有最大輸出值所對(duì)應(yīng)的情感為待識(shí)別語(yǔ)句的情感。全文摘要本發(fā)明公開了一種基于改進(jìn)二次判別式的語(yǔ)音情感識(shí)別方法,利用本方法可以有效降低由于情感特征參數(shù)統(tǒng)計(jì)概率分布多樣性所帶來(lái)的誤識(shí)別率。本發(fā)明首先對(duì)特征參數(shù)進(jìn)行了一種指數(shù)變換,使得變換后參數(shù)分布近正態(tài)化,然后以變換后參數(shù)服從正態(tài)分布為前提,估計(jì)出原始特征概率分布函數(shù),并取對(duì)數(shù)形式,從而得到一種改進(jìn)的二次判別式。與已有的其他一些特征正態(tài)化變換比較,本發(fā)明所采用的指數(shù)變換可以更有效的正態(tài)化特征參數(shù),并且采用改進(jìn)二次判別式可以有效提高識(shí)別率。文檔編號(hào)G10L15/00GK101620852SQ20081012280公開日2010年1月6日申請(qǐng)日期2008年7月1日優(yōu)先權(quán)日2008年7月1日發(fā)明者力趙,艷趙,鄒采榮,昕魏申請(qǐng)人:鄒采榮;趙力