基于似然概率模糊熵的緊張狀態下語音情緒自動識別方法
【技術領域】
[0001] 本發明設及語音識別方法,尤其設及一種基于似然概率模糊賭的緊張狀態下語音 情緒自動識別方法。
【背景技術】
[0002] 在人工智能中,情感計算被認為是賦予計算機更高的、全面的智能的一個關鍵途 徑。在人機交互中,賦予計算機擬人的情感能力,使其能感知周圍的環境和氣氛,自適應提 供最舒適的交互環境,盡量消除人和機器之間的障礙,已經成為下一代計算機發展的目標。 語音情感識別技術運用模式識別的方法從語音信號中提取出說話人的情感狀態信息,從而 使計算機能夠自動的識別語音情感,是情感計算的一個重要部分,是自然人機交互的一個 重要基礎。
[0003] 現有的語音情感識別的研究主要集中在基本情感類別論中指出的幾種情感,包括 喜悅、憤怒、驚訝、悲傷和恐懼等,但對于緊張等具有特殊意義的語音情感缺乏研究。目前的 語音情感識別方法不能對緊張情緒進行較好的識別。對緊張情緒狀態的識別具有很高的應 用價值,特別是在航空航天等軍事應用領域中,長時間的、枯燥的、高強度的任務會使相關 人員面臨嚴酷的生理W及屯、理考驗,引發緊張等一些負面的情緒。緊張情緒出現后,如果不 妥善的處理,對人員的工作能力會造成重大的影響,甚至引起人為的疏忽導致事故。探討緊 張等負面情緒對于人類認知活動的作用機制和影響因素,研究提高個體認知和工作效率的 方法、避免影響認知和工作能力的因素,具有重大的實際意義。
[0004] 目前在語音情感識別研究中,面臨著情感語料真實度的問題。通過表演的方式采 集的情感語料數據,稱為表演語料。目前大部分的語音情感識別研究是基于表演語料的。表 演語料的優點是容易采集,缺點是情感表現夸張,與實際的自然語音有一定的差別,因此導 致表演數據的可靠性較差。基于表演情感語料建立情感識別系統,由于用于識別模型訓練 的數據與實際的數據有一定的差別,導致了在實際條件下識別性能的下降。通過誘發的方 法采集的情感語料稱為誘發語料。誘發語料的特點是自然度較高,而且便于通過實驗屯、理 學的方法控制獲得所需要的特定情感的語料。現有的中文語音情感識別中關于緊張情緒的 誘發語料庫十分匿乏。
[0005] 人類的情感具有模糊性和多樣性,在語音情感識別中,傳統的識別方法是將出現 的樣本硬性的劃分為已知類別中的某一類,運種做法的缺陷是,在現實中存在較多模糊不 清的情感樣本時,分類的可信度較差,誤判的概率較高。
【發明內容】
[0006] 發明目的:針對現有技術中語音情感識別技術在實際應用中關于緊張情緒的空白 之處,提供一種基于似然概率模糊賭的緊張狀態下語音情緒自動識別方法。
[0007] 技術方案:一種基于似然概率模糊賭的緊張狀態下語音情緒自動識別方法,包括 如下步驟:
[0008] (I)建立語音數據庫,所述語音數據庫包括緊張、喜悅和平靜的語音數據;
[0009] (2)從語音數據庫中提取語音情感特征,所述語音情感特征包括韻律情感特征和 音質情感特征;
[0010] (3)采用fisher準則對語音情感特征進行特征評價,選擇識別特征;
[0011] (4)依據識別特征利用似然概率模糊賭判斷待識別樣本的情感類別,并在模糊賭 超過闊值時拒判。
[0012] 進一步的,步驟(1)具體包括如下子步驟:
[001引(1-1)被試對象分別錄制緊張、曹悅和平靜的語音片段;
[0014] (1-2)篩選出緊張、喜悅和平靜的語音數據。
[0015] 進一步的,步驟(2)中所述的韻律情感特征包括:短時能量的均值、最大值、最小 值、中值、方差;短時能量差分的均值、最大值、最小值、中值、方差;基音的均值、最大值、最 小值、中值、方差;基音一階差分的均值、最大值、最小值、中值、方差;基音二階差分的均值、 最大值、最小值、中值、方差;基音范圍;發音帖數、不發音帖數、不發音帖數和發音帖數之 比、發音帖數和總帖數之比、發音區域數、不發音區域數、發音區域數和不發音區域數之比、 發音區域數和總區域數之比、最長發音區域數、最長不發音區域數。
[0016] 進一步的,步驟(2)中所述的音質情感特征包括:第一共振峰的均值、最大值、最小 值、中值、方差;第二共振峰的均值、最大值、最小值、中值、方差;第=共振峰的均值、最大 值、最小值、中值、方差;第一共振峰一階差分的均值、最大值、最小值、中值、方差;第二共振 峰一階差分的均值、最大值、最小值、中值、方差;第=共振峰一階差分的均值、最大值、最小 值、中值、方差;250化W下譜能量百分比、650化W下譜能量百分比、4k化W上譜能量百分 比;諧波噪聲比化NR)的均值、最大值、最小值、中值、方差。
[0017] 進一步的,步驟(3)中所述的fisher準則對第d個維度具體表示為
[001 引
[0019] 其中y為語音情感特征的特征值的均值,O為語音情感特征的特征值的標準差,m為 語音情感特征的類別的總數。
[0020] 進一步的,步驟(4)具體包括如下子步驟:
[0021] (4-1)采用GMM對緊張、喜悅和平靜S種情感進行建模,每種情感對應一個GMM模 型,得到每種情感的P(XilAj),通過最大后驗概率準則判決;X康示第i條語句樣本,A徒示 情感類別,最大后驗概率可W表示為:
[0022]
[0023]
[0024]
[0025] 其中,j*表示樣本所屬的類別;
[0026] (4-2)分別用緊張、喜悅和平靜的GMM似然概率密度值代表待識別樣本與緊張、喜 悅和平靜情感類別的符合程度;當模糊賭超過闊值化時則發生拒判:
[0027]
[0028] 其中,C為情感類別數。
[0029] 有益效果:本發明提供的一種基于似然概率模糊賭的緊張狀態下語音情緒自動識 別方法能夠自動識別語音中的緊張情緒,通過誘發的方法來采集緊張情緒的語料,使數據 更加接近真實的情感數據,從而獲得較好的緊張情緒的識別性能;另外,本發明采用可拒判 的語音情感識別方法,對于不確定的或未知的情感樣本,分類器給出拒絕判斷的識別結果, 即不屬于需要檢測的實用語音情感類別中的任何一類,能夠保證識別的準確性,有效的降 低誤判率。
【附圖說明】
[0030] 圖1為本發明的流程圖;
[0031 ]圖2為情感的二維維度空間模型圖;
[0032] 圖3為映射函數圖;
[0033] 圖4為韻律特征空間中的樣本分布圖;
[0034] 圖5為音質特征空間中的樣本分布圖;
[0035] 圖6為韻律與音質特征空間中的樣本分布圖;
[0036] 圖7為前5個特征的均值圖;
[0037] 圖8為前5個特征的方差圖。
【具體實施方式】
[0038] 下面結合附圖對本發明作進一步的說明,一種基于似然概率模糊賭的緊張狀態下 語音情緒自動識別方法,包括如下步驟:
[0039] (1)建立語音數據庫,所述語音數據庫包括緊張、喜悅和平靜的語音數據。
[0040] 在實驗屯、理學中,通過計算機多媒體技術進行視覺感知與聽覺感知方面的刺激, 是近年來隨著計算機技術的發展而出現的,采用較多的一種實驗手段。計算機游戲通過畫 面和音樂的視覺、聽覺刺激,能提供一個互動的、具有較強感染力的人機交互環境,能夠有 效的誘發出被試人員的正面與負面的情感。特別是在游戲接連勝利時,被試人員由于在游 戲虛擬場景中的成功與滿足,被誘發出喜悅的情感;在游戲連續失敗時,被試人員在虛擬場 景中受到挫折,容易引發包括緊張在內的負面情感。在進行較長時間的實驗過程中,重復性 的游戲操作和失敗,能順利的誘發緊張情感,步驟(1)具體包括如下子步驟:
[0041] (1-1)被試對象分別錄制緊張、喜悅和平靜的語音片段,具體包括:
[0042] (1-1-1)被試對象的選擇:選擇十名大學生(五名男性、五名女性)進行計算機游戲 誘發的語音采集,在游戲之前進行平靜語料的錄制。
[0043] (1-1-2)被試語句文本的設計:考慮到緊張等實用語音情感識別的一個主要應用 領域為長期的航空、航天和航海任務所引發的負面情緒的評估,20句無情感傾向性的工作 用語短句選自國際海事組織(IMO)發布的《標準航海通信用語KSMCP)。
[0044] (1-1-3)游戲的選擇:為了便于誘發緊張情感,我們選用了需要耐屯、和仔細的計算 機小游戲。游戲中被試人員要求用鼠標移動一個小球,小球需要通過纏繞的、狹窄的管道, 在通過管道的過程中小球不能碰到管壁,否則"炸彈"將爆炸,游戲失敗,在規定時間內順利 通過管道后,"拆彈"成功,游戲勝利。
[0045] (1-1-4)錄制喜悅情感語料:在每次游戲勝利后,要求被試人員用喜悅的情感說出 需要錄制的文本語句內容。
[0046] (1-1-5)錄制緊張情感語料:在每次游戲失敗后,要求被試人員用緊張的情感說出 需要錄制的文本語句內容。
[0047] (1-1-6)主觀體驗的記錄:被試填寫情緒的主觀體驗,包括五個選擇:非常緊張、有 點緊張、中間狀態、有點喜悅、非常喜悅。
[0048] (1-2)篩選出緊張、喜悅和平靜的語音數據:本實施例中通過計算機游戲誘發的方 式,獲得緊張、喜悅和平靜=種情感的原始的情感語音共計1800條,聽過聽辨篩選出質