專利名稱:一種基于改進模糊矢量量化的語音情感識別方法
技術領域:
本發(fā)明涉及一種語音識別方法,特別涉及一種語音情感識別系統(tǒng)及方法。
背景技術:
語音情感自動識別技術主要包括兩個問題 一是采用語音信號中的何種特征作為情感識 別,也就是情感特征提取的問題,包括特征提取和選擇; 一是如何將特定的語音數(shù)據(jù)進行分
類,也就是模式識別的問題,包括各種模式識別算法,如最近鄰、神經(jīng)網(wǎng)絡、支持向量機等。 語音情感識別中用到的情感特征主要是韻律參數(shù)及音質(zhì)參數(shù),前者包括持續(xù)時間、語速、 能量、基音頻率及其衍生參數(shù),后者主要是是共振峰、諧波噪聲比及其衍生參數(shù)等。根據(jù)三 維情感空間理論,韻律參數(shù)主要是表征各種情感在激活維坐標的參數(shù),而音質(zhì)參數(shù)則主要是 表征情感在效價維的坐標。對于在激活維坐標距離較遠的情感,韻律參數(shù)可以表征出較好的
差異性;對于在激活維坐標距離較近而效價維坐標距離較遠的情感,則需要音質(zhì)類參數(shù)來加 強表征參數(shù)差異性。目前的參數(shù)提取方法大多存在精確檢測的問題,而且這些參數(shù)主要體現(xiàn) 的是人體的聲門和聲道的特征,和人的生理構造有著密切的關系,在不同的個體上顯現(xiàn)出較 強的相異性,這種差異在不同的性別上尤其明顯。在本發(fā)明之前,在已有的各種識別方法中, 神經(jīng)網(wǎng)絡法雖然具有高度的非線性和極強的分類能力,但是隨著網(wǎng)絡的增大所需學習時間增 加很快,另外局部極小問題也是一個不足之處;隱馬爾可夫法(HMM)在建立和訓練時間上 較長,應用于實際還需要解決計算復雜度過高的問題。二次判別式雖然算法簡單計算量小, 但是必須以特征矢量服從正態(tài)分布為前提,極大的影響了識別率。基于矢量量化的識別方法 則由于量化誤差、初始值敏感等問題而較少使用,模糊矢量量化雖然一定程度上緩解了量化 誤差問題,但仍易陷入初始值敏感和局部極小的問題。
發(fā)明內(nèi)容
本發(fā)明的目的就在于克服上述現(xiàn)有技術的缺陷,設計、研究一種基于改進模糊矢量量化 的語音情感識別方法。 本發(fā)明的技術方案是
一種基于改進模糊矢量量化的語音情感識別方法,其步驟為
建立特征提取分析模塊、特征降維模塊、改進模糊矢量量化模塊的訓練、情感識別模塊。 特征提取分析模塊包括兩類參數(shù)的提取和性別規(guī)整韻律參數(shù)和音質(zhì)參數(shù)。首先對原始語音 信號預加重、分幀,然后分別進行特征提取。 (1)韻律參數(shù)提取
(1-1)將原始語音信號經(jīng)高通濾波器預處理,提取發(fā)音持續(xù)時間、語速參數(shù); (1-2)分幀,加窗;
(1-3)應用短時分析技術,分別提取各幀語句主要特征參數(shù)基頻軌跡、短時能量軌跡、濁 音段清音段時間比;
(1-4)提取部分韻律特征參數(shù)的衍生參數(shù)短時能量最大值、最小值、均值和方差,短時能量抖動最大值、最小值、均值和方差,基頻最大值、最小值、均值和方差,基頻抖動的最大 值、最小值、均值和方差。其中短時能量抖動的計算如下-
《=|£,。一£,^| / = 2,3,...,iV (式l) 其中£,°是第/幀短時能量,7V為幀數(shù)。基頻抖動的計算同(式l)。 (l-5)性別規(guī)整,按照樣本所屬的不同性別,歸入不同的集合s,。再次分別計算各自的均值 M和方差q,這里用/表示不同的集合序號,利用下式將參數(shù)規(guī)整到相同的空間;
V = ^^ (式2)
(2) 音質(zhì)特征參數(shù)提取
(2-1)提取聲門波參數(shù)的最大值、最小值、均值和方差,包括聲門開啟時間與整個聲門周
期比(OQ, open quotient)、聲門開啟過程時間與閉合過程時間比(SQ, speed quotient)、聲 門閉合時間與整個聲門周期比(CQ, ClosedQuotient)、聲門閉合過程時間與整個聲門周期 比(C1Q, Closing Quotient)、聲門波歪斜度;
(2-2)提取諧波噪聲比最大值、最小值、均值、方差;
(2-3)提取前三個共振峰最大值、最小值、均值、方差和帶寬;
(2-4)提取前三個共振峰抖動的最大值、最小值、均值、方差;共振峰抖動計算同(式l); (2-5)性別規(guī)整,同(1-5);
(3) 特征降維
(3-1)將(1) (2)中全部特征提取和規(guī)整完畢后,組成特征矢量;
(3-2)采用主分量分析神經(jīng)網(wǎng)絡(PCANN)實現(xiàn)降維,得到樣本特征矢量序列
(4) 改進模糊矢量量化
(4-1)對某種情感所有訓練樣本,計算任意兩個樣本間的歐氏距離,將距離最近的兩個樣
本定為一類,選定距離閥值丄,將與該兩樣本之一的距離在丄之內(nèi)的所有樣本判為此類; (4-2)將已有類別歸屬的樣本及與這些樣本有關的距離適當處理,不再使用;
(4-3)在剩下的樣本中找到距離最近的一對樣本,若它們之間的距離大于i:,則將這兩個樣
本分別定為一類,且各類中只有一個樣本;若它們之間的距離小于丄,則選定距離閥值 < " S 1),將與該樣本之一的距離在aZ之內(nèi)的所有樣本判屬此類;
(4-4)重復步驟(4-2)、 (4-3),直到所有樣本都被分類,若最后只剩一個樣本,則將該樣 本單獨定為一類; (4-5)調(diào)整£及"丄,直到所有樣本被聚成/類;
(4-6)將隸屬度函數(shù)^(X,)的歸一化條件擴大為力 iV ,按(式3)計算"*(《),按(式4)計算得到各類的類中心l^z、l,2,…力;
乂=1 /=i
1"",K"tV (式3)
(式4)
IX歐
-1""
其中me[l,oo)為模糊度,d(Z,.,i;)表示距離;
(4-7)選擇常數(shù)oO,設置迭代次數(shù)yt-0,以(4-6)的類中心作為初始碼本,采用模糊C 均值(FCM)聚類算法遞推出碼本巧(;=1,2,…力;
(4-8)對每種情感按(4-1) (4-7)訓練出一個碼本; (5)情感識別
(5-1)對于待識別語句按照步驟(1) (2) (3)求出特征矢量X,,把X,量化成由隸屬度函
數(shù)組成的矢量t/(《)=kcx,),"^;^),...^/;^)}, 得到《的重構矢量i,和量化誤差";
(式6)
(5-2)選擇平均量化失真最小的那個碼本對應的情感為識別結果。
本發(fā)明的優(yōu)點和效果在于
1. 通過對情感語句的特征參數(shù)提取與分析,將參數(shù)從韻律參數(shù)擴充至音質(zhì)參數(shù),增加了特征 參數(shù)對識別的有效性;
2. 采用獨立分量神經(jīng)網(wǎng)絡對所提取的特征矢量進行降維,不僅減少了計算量,而且在一定程 度上起到了降噪作用;
3. 將模糊隸屬度函數(shù)歸一化條件放寬,降低野點對碼本的影響;
4. 采用基于相似性閥值和最小距離原則的聚類方法訓練碼本,避免了初值和局部極小問題;
5. 通過矢量量化把輸入矢量《量化成由隸屬度函數(shù)組成的矢量,而不是某個碼字^,相當
于增加了碼本的尺寸,降低了量化誤差。
本發(fā)明的其他優(yōu)點和效果將在下面繼續(xù)描述。
圖1——語音情感識別系統(tǒng)框圖。
圖2——情感特征提取分析模塊流程圖。圖3——聲門波及其微分波形圖。 圖4——主分量分析神經(jīng)網(wǎng)絡示意圖。
圖5——改進前后模糊矢量量化方法的情感識別結果比較。
具體實施例方式
下面結合附圖和實施例,對本發(fā)明所述的技術方案作進一步的闡述。
如圖1所示,是本系統(tǒng)框圖,主要分為4大塊特征提取分析模塊、特征降維模塊、模 糊矢量量化碼本訓練模塊和情感識別模塊。整個系統(tǒng)執(zhí)行過程分為訓練過程和識別過程。訓 練過程包括特征提取分析、特征降維和模糊矢量量化碼本訓練;識別過程包括特征提取分析、 特征降維和情感識別。
一.情感特征提取分析模塊
1. 韻律特征參數(shù)選擇
韻律特征參數(shù)包括短時能量最大值、最小值、均值和方差;短時能量抖動最大值、最 小值、均值和方差;基頻的最大值、最小值、均值和方差;基頻抖動的最大值、最小值、均 值和方差;濁音段清音段時間比;語速。
首先,根據(jù)附圖2中的特征參數(shù)提取流程將待提取特征語句進行預加重處理,包括高通 濾波、語句開始端點與結束端點的檢測;提取全句的語句發(fā)音持續(xù)時間、語速這兩個特征; 然后對語句分幀加窗,采用短時分析技術,按照男女性別,分別求出各幀基頻、短時能量、 濁音幀數(shù)和清音幀數(shù),將各幀所得參數(shù)匯總,分別得到語句的基音軌跡、基音抖動軌跡、短 時能量軌跡和短時能量抖動軌跡,進而獲得它們的特征統(tǒng)計量,并進行性別規(guī)整,得到上述 全部韻律特征參數(shù)。
2. 音質(zhì)特征參數(shù)選擇
音質(zhì)特征參數(shù)包括OQ的最大值、最小值、均值和方差;SQ的最大值、最小值、均值和
方差;CQ的最大值、最小值、均值和方差;C1Q的最大值、最小值、均值和方差;《的最大
值、最小值、均值和方差;第一共振峰最大值、最小值、均值、方差和帶寬;第一共振峰抖 動的最大值、最小值、均值、方差;第二共振峰最大值、最小值、均值、方差和帶寬;第二 共振峰抖動的最大值、最小值、均值、方差;第三共振峰最大值、最小值、均值、方差和帶 寬;第三共振峰抖動的最大值、最小值、均值、方差;諧波噪聲比最大值、最小值、均值、 方差。
多個音質(zhì)參數(shù)的選取是本發(fā)明提出方法的特點之一。雖然韻律特征在識別中起主導作用, 但在識別某些激活維接近效價維分離的情感時,如高興和生氣,音質(zhì)特征可以起到有效補充 作用。音質(zhì)參數(shù)是反映發(fā)音時聲門波形狀的變化,其影響因素有肌肉張力,聲道中央壓力以 及聲道長度張力,具體的有聲源類型(發(fā)音方式)、聲門波參數(shù)和聲道共振峰參數(shù)等。LF模
型(Liljencrants-FantMode)是常用的描述聲門波的模型,如圖3所示,其中r?;糁芷?; f。聲門開啟時刻;聲門閉合時刻;fp:聲門波達到最大峰值時刻;"差分波達到最大負峰值時刻。根據(jù)此模型可提取如下聲門波參數(shù)
l 一r
一l
(式7) (式8) .Og (式9) (式10) (式11)
具體實施時,仍然需要對情感語句進行預加重處理,包括高通濾波、語句開始端點與結 束端點的檢測;然后對語句分幀加窗,分別得到聲門波特征、共振峰特征、諧波噪聲比等音 質(zhì)參數(shù),并進行性別規(guī)整,得到最終用于碼本訓練或識別的音質(zhì)特征參數(shù)。
在系統(tǒng)的執(zhí)行過程中,特征提取分析是必不可少的。在訓練過程中,訓練樣本的特征提 取分析可以直接按照圖2所示流程進行。在識別過程中,待識別語句的特征提取分析同樣按 照圖2流程進行。
二. 特征降維
前面分析提取了共69個特征參數(shù),為避免維度過高而引起的計算復雜度提升,以及冗余 信息對識別的影響,采用獨立分量神經(jīng)網(wǎng)絡來實現(xiàn)降維,采用基于Hebb規(guī)則的線性無監(jiān)督學 習神經(jīng)網(wǎng)絡,如圖4所示。通過對權矩陣『的學習,使權值向量接近于特征向量;c的斜方差
陣中特征值所對應的特征向量,避免直接對矩陣的求逆運算。得到降維后特征矢量少=『 。
權值向量修改規(guī)則如下
w》+1] = , W + 7 (力W—力2 [A化W) (式12 )
x'w=xW—s;》WxW (式13)
三. 改進模糊矢量量化碼本訓練
傳統(tǒng)模糊矢量量化是釆用模糊聚類算法代替K均值算法設計量化碼本的一種方法, 一定 程度上可以減少碼本的量化誤差,但是仍存在野點干擾、初值敏感和局部最小化問題,為此, 本發(fā)明提出一種改進模糊矢量量化方法,具體步驟如下
1.對某一種情感的所有訓練特征樣本,計算任意兩個樣本間的歐氏距離,將距離最近的 兩個樣本定為一類,選定距離閥值Z,將與該兩樣本之一的距離在Z之內(nèi)的所有樣本判為此 類;2. 將已有類別歸屬的樣本及與這些樣本有關的距離適當處理,不再使用;
3. 在剩下的樣本中找到距離最近的一對樣本,若它們之間的距離大于丄,則將這兩個樣 本分別定為一類,且各類中只有一個樣本;若它們之間的距離小于丄,則選定距離閥值
< " S 1),將與該樣本之一的距離在aZ之內(nèi)的所有樣本判屬此類;
4. 重復步驟2、 3,直到所有樣本都被分類,若最后只剩一個樣本,則將該樣本單獨定 為一類;
5. 調(diào)整Z及a丄,直到所有樣本被聚成J類;
6. 按照(式3)計算隸屬度函數(shù)Wt(《),將^(《)的歸一化條件擴大為 ^|>y(X,.) = iV,這也是本發(fā)明特點之一,并按(式4)計算得到各類的類中心
"(,=1U);
7. 選擇常數(shù)£>0,設置迭代次數(shù)^ = 0,以6中結果作為初始碼本,采用模糊C均值算 法遞推出碼本".(…1,2,…力;
8. 對每種情感按1 7分別訓練出一個碼本。
四. 情感識別模塊
對于待識別的情感語句,按照圖2流程提取其特征矢量,然后利用主分量分析神經(jīng)網(wǎng)絡 進行降維,得到X,.;將義,.對應每種情感的碼本進行矢量量化,把X,.量化成由隸屬度函數(shù)組
成的矢量[/(《hk(義'),"2(《),...,^(1,^,得到《的重構矢量A和量化誤差D;選擇平 均量化失真最小的那個碼本對應的情感為識別結果。
五. 識別系統(tǒng)的評價
由于將隸屬度總和由l擴為iV, 一定程度上降低了樣本野點對訓練迭代過程的影響,在 碼本訓量過程中采用基于相似性閥值和最小距離原則的聚類方法, 一定程度上避免了聚類中 心的對初值敏感、易陷入局部極小值的問題,從圖5兩種情感識別方法的結果看,其識別效 果得到較大的改善,生氣的識別率提高了 12.3%,悲傷的識別率提高了 5. 1%,高興的識別率 提高了 5.9%,驚奇的識別率提高了 14.9%,本發(fā)明方法對語音情感進行識別大大高于現(xiàn)有其 他方法。
本發(fā)明請求保護的范圍并不僅僅局限于本具體實施方式
的描述。
權利要求
1.一種基于改進模糊矢量量化的語音情感識別方法,其步驟為建立特征提取分析模塊、特征降維模塊、改進模糊矢量量化模塊的訓練、情感識別模塊;特征提取分析模塊包括兩類參數(shù)的提取和性別規(guī)整韻律參數(shù)和音質(zhì)參數(shù);首先對原始語音信號預加重、分幀,然后分別進行特征提?。?1)韻律參數(shù)提取(1-1)將原始語音信號經(jīng)高通濾波器預處理,提取發(fā)音持續(xù)時間、語速參數(shù);(1-2)分幀,加窗;(1-3)應用短時分析技術,分別提取各幀語句主要特征參數(shù)基頻軌跡、短時能量軌跡、濁音段清音段時間比;(1-4)提取部分韻律特征參數(shù)的衍生參數(shù)短時能量最大值、最小值、均值和方差,短時能量抖動最大值、最小值、均值和方差,基頻最大值、最小值、均值和方差,基頻抖動的最大值、最小值、均值和方差;其中短時能量抖動的計算如下<maths id="math0001" num="0001" ><math><![CDATA[ <mrow><msubsup> <mi>E</mi> <mi>i</mi> <mn>1</mn></msubsup><mo>=</mo><mo>|</mo><msubsup> <mi>E</mi> <mi>i</mi> <mn>0</mn></msubsup><mo>-</mo><msubsup> <mi>E</mi> <mrow><mi>i</mi><mo>-</mo><mn>1</mn> </mrow> <mn>0</mn></msubsup><mo>|</mo> </mrow>]]></math> id="icf0001" file="A2008101228060002C1.tif" wi="24" he="6" top= "106" left = "31" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>i=2,3,…,N(式1)其中Ei0是第i幀短時能量,N為幀數(shù);基頻抖動的計算同(式1);(1-5)性別規(guī)整,按照樣本所屬的不同性別,歸入不同的集合si;再次分別計算各自的均值μi和方差σi,這里用i表示不同的集合序號,利用下式將參數(shù)規(guī)整到相同的空間;<maths id="math0002" num="0002" ><math><![CDATA[ <mrow><msup> <msub><mi>s</mi><mi>i</mi> </msub> <mo>′</mo></msup><mo>=</mo><mfrac> <mrow><msub> <mi>s</mi> <mi>i</mi></msub><mo>-</mo><msub> <mi>u</mi> <mi>i</mi></msub> </mrow> <msub><mi>σ</mi><mi>i</mi> </msub></mfrac> </mrow>]]></math> id="icf0002" file="A2008101228060002C2.tif" wi="17" he="8" top= "149" left = "37" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>(式2)(2)音質(zhì)特征參數(shù)提取(2-1)提取聲門波參數(shù)的最大值、最小值、均值和方差,包括聲門開啟時間與整個聲門周期比(OQ,open quotient)、聲門開啟過程時間與閉合過程時間比(SQ,speed quotient)、聲門閉合時間與整個聲門周期比(CQ,ClosedQuotient)、聲門閉合過程時間與整個聲門周期比(ClQ,Closing Quotient)、聲門波歪斜度;(2-2)提取諧波噪聲比最大值、最小值、均值、方差;(2-3)提取前三個共振峰最大值、最小值、均值、方差和帶寬;(2-4)提取前三個共振峰抖動的最大值、最小值、均值、方差;共振峰抖動計算同(式1);(2-5)性別規(guī)整,同(1-5);(3)特征降維(3-1)將(1)(2)中全部特征提取和規(guī)整完畢后,組成特征矢量;(3-2)采用主分量分析神經(jīng)網(wǎng)絡(PCANN)實現(xiàn)降維,得到樣本特征矢量序列X={X1,X2...,XN,};(4)改進模糊矢量量化(4-1)對某種情感所有訓練樣本,計算任意兩個樣本間的歐氏距離,將距離最近的兩個樣本定為一類,選定距離閥值L,將與該兩樣本之一的距離在L之內(nèi)的所有樣本判為此類;(4-2)將已有類別歸屬的樣本及與這些樣本有關的距離適當處理,不再使用;(4-3)在剩下的樣本中找到距離最近的一對樣本,若它們之間的距離大于L,則將這兩個樣本分別定為一類,且各類中只有一個樣本;若它們之間的距離小于L,則選定距離閥值αL(0<α≤1),將與該樣本之一的距離在αL之內(nèi)的所有樣本判屬此類;(4-4)重復步驟(4-2)、(4-3),直到所有樣本都被分類,若最后只剩一個樣本,則將該樣本單獨定為一類;(4-5)調(diào)整L及αL,直到所有樣本被聚成J類;(4-6)將隸屬度函數(shù)uk(Xi)的歸一化條件擴大為<maths id="math0003" num="0003" ><math><![CDATA[ <mrow><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>J</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>N</mi></munderover><msub> <mi>u</mi> <mi>j</mi></msub><mrow> <mo>(</mo> <msub><mi>X</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><mi>N</mi><mo>,</mo> </mrow>]]></math> id="icf0003" file="A2008101228060003C1.tif" wi="32" he="10" top= "81" left = "111" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>按(式3)計算uk(Xi),按(式4)計算得到各類的類中心Yj(i=1,2,…J);<maths id="math0004" num="0004" ><math><![CDATA[ <mrow><msub> <mi>u</mi> <mi>k</mi></msub><mrow> <mo>(</mo> <msub><mi>X</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>j</mi><mo>=</mo><mn>1</mn> </mrow> <mi>J</mi></munderover><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>N</mi></munderover><msup> <mrow><mo>(</mo><mfrac> <mrow><mi>d</mi><msup> <mrow><mo>(</mo><msub> <mi>X</mi> <mi>i</mi></msub><mo>,</mo><msub> <mi>Y</mi> <mi>k</mi></msub><mo>)</mo> </mrow> <mrow><mn>2</mn><mo>/</mo><mrow> <mo>(</mo> <mi>m</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo></mrow> </mrow></msup> </mrow> <mrow><mi>Nd</mi><msup> <mrow><mo>(</mo><msub> <mi>X</mi> <mi>i</mi></msub><mo>,</mo><msub> <mi>Y</mi> <mi>j</mi></msub><mo>)</mo> </mrow> <mrow><mn>2</mn><mo>/</mo><mrow> <mo>(</mo> <mi>m</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo></mrow> </mrow></msup> </mrow></mfrac><mo>)</mo> </mrow> <mrow><mo>-</mo><mn>1</mn> </mrow></msup><mo>,</mo> </mrow>]]></math> id="icf0004" file="A2008101228060003C2.tif" wi="63" he="14" top= "106" left = "28" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>1≤k≤J,1≤i≤N(式3)<maths id="math0005" num="0005" ><math><![CDATA[ <mrow><msub> <mi>Y</mi> <mi>k</mi></msub><mo>=</mo><mfrac> <mrow><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>N</mi></munderover><msubsup> <mi>u</mi> <mi>k</mi> <mi>m</mi></msubsup><mrow> <mo>(</mo> <msub><mi>X</mi><mi>i</mi> </msub> <mo>)</mo></mrow><msub> <mi>X</mi> <mi>i</mi></msub> </mrow> <mrow><munderover> <mi>Σ</mi> <mrow><mi>i</mi><mo>=</mo><mn>1</mn> </mrow> <mi>N</mi></munderover><msubsup> <mi>u</mi> <mi>k</mi> <mi>m</mi></msubsup><mrow> <mo>(</mo> <msub><mi>X</mi><mi>i</mi> </msub> <mo>)</mo></mrow> </mrow></mfrac> </mrow>]]></math> id="icf0005" file="A2008101228060003C3.tif" wi="31" he="21" top= "124" left = "27" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>1≤k≤J(式4)其中m∈[1,∞)為模糊度,d(Xi,Yk)表示距離;(4-7)選擇常數(shù)ε>0,設置迭代次數(shù)k=0,以(4-6)的類中心作為初始碼本,采用模糊C均值(FCM)聚類算法遞推出碼本Yj(i=1,2,…J);(4-8)對每種情感按(4-1)~(4-7)訓練出一個碼本;(5)情感識別(5-1)對于待識別語句按照步驟(1)(2)(3)求出特征矢量Xi,把Xi量化成由隸屬度函數(shù)組成的矢量U(Xi)={u1,(Xi),u2(Xi),...,uJ(Xi)},得到Xi的重構矢量 id="icf0006" file="A2008101228060003C4.tif" wi="4" he="5" top= "206" left = "151" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/>和量化誤差D;<maths id="math0006" num="0006" ><math><![CDATA[ <mrow><msub> <mover><mi>X</mi><mo>^</mo> </mover> <mi>i</mi></msub><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mi>J</mi></munderover><msubsup> <mi>u</mi> <mi>k</mi> <mi>m</mi></msubsup><msub> <mi>Y</mi> <mi>k</mi></msub><mo>/</mo><munderover> <mi>Σ</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mi>J</mi></munderover><msubsup> <mi>u</mi> <mi>k</mi> <mi>m</mi></msubsup> </mrow>]]></math> id="icf0007" file="A2008101228060003C5.tif" wi="36" he="10" top= "217" left = "28" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>(式5)<maths id="math0007" num="0007" ><math><![CDATA[ <mrow><mi>D</mi><mo>=</mo><munderover> <mi>Σ</mi> <mrow><mi>k</mi><mo>=</mo><mn>1</mn> </mrow> <mi>J</mi></munderover><msubsup> <mi>u</mi> <mi>k</mi> <mi>m</mi></msubsup><mrow> <mo>(</mo> <msub><mi>X</mi><mi>i</mi> </msub> <mo>)</mo></mrow><mi>d</mi><mrow> <mo>(</mo> <msub><mi>X</mi><mi>i</mi> </msub> <mo>,</mo> <msub><mi>Y</mi><mi>k</mi> </msub> <mo>)</mo></mrow> </mrow>]]></math> id="icf0008" file="A2008101228060003C6.tif" wi="41" he="10" top= "234" left = "27" img-content="drawing" img-format="tif" orientation="portrait" inline="yes"/></maths>(式6)(5-2)選擇平均量化失真最小的那個碼本對應的情感為識別結果。
全文摘要
本發(fā)明公開了一種基于改進模糊矢量量化的語音情感識別方法。本發(fā)明將模糊隸屬度函數(shù)總和由1擴為N,一定程度上降低了樣本野點對訓練迭代過程的影響,在碼本訓練過程中采用基于相似性閥值和最小距離原則的聚類方法,一定程度上避免了聚類中心的對初值敏感、易陷入局部極小值的問題,從實驗結果看,本發(fā)明方法可以有效改善現(xiàn)有模糊矢量量化方法情感識別率。
文檔編號G10L15/00GK101620853SQ20081012280
公開日2010年1月6日 申請日期2008年7月1日 優(yōu)先權日2008年7月1日
發(fā)明者力 趙, 艷 趙, 鄒采榮, 昕 魏 申請人:鄒采榮;趙 力