專利名稱:語音可視化系統及語音可視化方法
技術領域:
本發明涉及一種語音可視化系統及語音可視化方法。
背景技術:
目前,生物模擬技術主要是對生物的外觀行為特征的模擬,對生物體內部
器官的模擬僅限于再現其靜態狀態。其不足之處在于不能模擬說話人內部發 音器官的真實動作。
發明內容
有鑒于此,有必要針對生物模擬技術不能模擬說話人內部發音器官的真實 動作的問題,提供一種能模擬說話人內部發音器官的真實動作的語音可視化系統。
一種語音可視化系統,包括說話人運動數據采集模塊、至少一語音數據采 集模塊、至少一語音識別模塊、發音器官運動數據采集模塊、三維說話人頭像 靜態建模模塊、運動控制參數變換模塊、單音素發音器官運動模擬模塊、連續 發音運動模擬模塊和顯示模塊;所述說話人運動數據采集模塊用于采集說話人 的說話人運動數據;所述至少一語音數據采集模塊用于同步采集說話人的語音 數據;所述至少一語音識別模塊用于從語音數據中提取音素序列文本、音素時 間長度信息、連續協同發音信息和連續音素音頻數據;所述發音器官運動數據 采集模塊用于根據各音素的時間長度對說話人運動數據進行處理,建立與音素 對應的發音器官運動數據庫;所述三維說話人頭像靜態建模模塊用于根據生理 解剖學結構數據建立可觀測發音器官的各個軟組織和硬組織的三維說話人頭像 靜態三維模型,提供可觀測發音器官所有三維說話人頭像靜態三維模型數據, 以及所定義運動控制特征點的靜態三維數據;所述運動控制參數變換模塊將發 音器官運動數據庫與三維說話人頭像靜態三維模型進行配準,獲得校準后的發音器官運動數據庫;所述單音素發音器官運動^t擬^^莫塊利用三維動態變形^^莫擬 算法,加載從校準后的發音器官運動數據庫中得到的運動控制參數,實現各個 單音素的所有發音器官協同變形模擬;所述連續發音運動模擬模塊用于接收音 素時間長度信息和連續音素音頻數據,采用發音器官協同運動與音素音頻同步 算法實現三維說話人頭像發音同步,結合說話人表情模擬三維說話人頭像發音 運動;所述顯示模塊用于顯示三維說話人頭像發音運動的三維可視化信息。
優選的,所述至少一語音數據采集模塊的個數為一個,所述至少一語音識 別模塊的個數為一個,該語音數據采集模塊與該語音識別模塊連接,該語音識 別模塊與發音器官運動數據釆集模塊連接。
優選的,所述至少一語音數據采集模塊包括第一語音數據采集模塊和第二 語音數據采集模塊,所述至少 一語音識別模塊包括第 一語音識別模塊和第二語 音識別模塊;該第一語音數據采集模塊與該第一語音識別模塊連接,該第一語 音識別模塊與發音器官運動數據采集模塊連接;該第二語音數據采集模塊與該 第二語音識別模塊連接,該第二語音識別模塊與連續發音運動模擬模塊連接。
優選的,所述語音識別模塊包括聲學特征參數提取模塊、聲學模型數據庫 存儲模塊、語言模型數據庫存儲模塊和解碼模塊;所述聲學模型數據庫存儲模 塊用于存儲聲學模型數據庫;所述語言模型數據庫存儲模塊用于存儲語言模型 數據庫;所述聲學特征參數提取模塊用于從語音數據中提取語音信號特征參 數;所述解碼模塊根據聲學模型數據庫和語言模型數據庫,運用廣度優先的搜 索算法對語音信號特征參數進行解碼識別,輸出音素序列文本、音素時間長度 信息、連續協同發音信息和連續音素音頻數據。
此外,還提供一種語音可視化方法。
一種語音可視化方法,包括同步采集說話人的說話人運動數據和語音數 據;對語音數據進行處理;建立發音器官運動數據庫;建立三維說話人頭像靜 態三維模型;建立校準后的發音器官運動數據庫;實現各個單音素的所有發音 器官協同變形模擬;接收說話人的語音信息;模擬三維說話人頭像發音運動; 顯示三維說話人頭像發音運動的三維可視化信息。
優選的,所述建立發音器官運動數據庫包括定義控制各發音器官變形運動的特征點;提取面部特征點二維參數;提取口腔內部特征點二維參數;建立 發音器官運動數據庫。
優選的,所述建立校準后的發音器官運動數據庫包括獲取各特征點的靜 態數據;獲得特征參數變換矩陣;獲得校準后的發音器官運動數據庫。
優選的,所述實現各個單音素的所有發音器官協同變形模擬包括對發音 器官進行分類;對各類發音器官分別進行運動^t擬;實現發音器官協同變形模 擬。
優選的,所述對發音器官進行分類包括根據三維說話人頭像模型和發音 器官的生理物理屬性將發音器官分為軟組織類發音器官、開合類發音器官和固 定類發音器官。
優選的,所述對各類發音器官分別進行運動模擬包括對軟組織類發音器 官采用基于位移的算法進行運動模擬或者采用基于物理的算法進行運動模擬; 對開合類發音器官建立局部旋轉坐標系,根據校準后的發音器官運動數據庫進 行轉開合運動模擬;對固定類發音器官,保持運動不變。
上述語音可視化系統利用語音可視化技術,采用計算機圖形學的變形運動 模擬方法和高識別準確率的自動語音識別技術,能模擬說話人內部發音器官的 真實動作。通過視覺和聽覺兩類信息的有機融合,全面模擬人類語言發音的過 程,可以真實地反映發音器官的運動情況,有效地提升語言感知的程度。
圖l是語音可視化系統的示意圖。
圖2是第一語音識別模塊的示意圖。
圖3是發音器官運動數據采集模塊的工作流程圖。
圖4是運動控制參數變換模塊的工作流程圖。
圖5是單音素發音器官運動模擬模塊的工作流程圖。
具體實施例方式
圖1是語音可視化系統的示意圖。語音可視化系統100包括說話人運動數據采集模塊101、第一語音數據采集模塊102、第一語音識別模塊103、發音器 官運動數據采集模塊104、三維說話人頭像靜態建模模塊105、運動控制參數變 換模塊106、單音素發音器官運動模擬模塊107、第二語音識別模塊109、連續 發音運動模擬模塊110和顯示模塊111。
說話人運動數據采集模塊101用于采集說話人運動數據。說話人運動凄t據 可以是二維數據或三維數據。說話人運動數據可以通過對i兌話人的正面和正交 側面進行錄像,以及對說話人進行X光透像(或者進行核》茲共振成像)的方法 獲得。或者利用運動捕捉技術對說話人面部和唇部的特征點進行運動跟蹤,直 接獲取說話人運動數據。或者利用三維電磁發音記錄儀(Electromagnetic Articulography)對說話人進行采樣,直接獲取說話人運動數據。
第一語音數據采集模塊102用于采集說話人的語音數據(自然連續語音)。 說話人的語音數據可以通過對說話人的語音進行錄音的方法獲得。
上述說話人運動數據采集和語音數據采集是同步進行的。
第一語音識別模塊103用于從語音數據中提取音素序列文本、音素時間長 度信息、連續協同發音信息和連續音素音頻數據。
發音器官運動數據采集模塊104用于根據各音素的時間長度對說話人運動 數據進行處理,建立與音素對應的發音器官運動數據庫。
三維說話人頭像靜態建模模塊105用于根據生理解剖學結構數據建立可觀 測發音器官的各個軟組織和硬組織的三維說話人頭像靜態三維模型,提供可觀 測發音器官所有三維說話人頭像靜態三維模型數據,以及所定義運動控制特征 點的靜態三維數據。發音器官包括上下唇、上下齒、齒齦、下顎、軟顎、小 舌、舌尖、舌面和舌根。其中上齒、齒齦、軟顎和舌根為發音動作中不變形的 器官,而上下唇、下齒、下顎、舌尖、舌面和小舌為運動變形器官。
運動控制參數變換模塊106將發音器官運動數據庫與三維說話人頭像靜態 三維模型進行配準,獲得校準后的發音器官運動數據庫。
單音素發音器官運動模擬模塊107利用三維動態變形模擬算法,加載從校 準后的發音器官運動數據庫中得到的運動控制參數,實現各個單音素的所有發 音器官協同變形模擬。
8第二語音數據采集^:莫塊108用于采集說話人的語音數據(自然連續語音)。 說話人的語音數據可以通過對說話人的語音進行錄音的方法獲得。第二語音數
據采集模塊108和第一語音數據采集模塊102完全相同,因此,第二語音數據 采集模塊108也可由笫一語音數據采集模塊102代替。
第二語音識別模塊109用于接收第二語音數據采集模塊108采集的語音數 據,從語音數據中提取音素序列文本、音素時間長度信息、連續協同發音信息 和連續音素音頻數據。第二語音識別模塊109和第一語音識別模塊103完全相 同,因此,第二語音識別模塊109也可由第一語音識別模塊103代替。
連續發音運動模擬模塊110用于接收從第二語音識別模塊109中提取的音 素時間長度信息和連續音素音頻數據,采用發音器官協同運動與音素音頻同步 算法實現三維說話人頭像發音同步,結合說話人表情模擬三維說話人頭像發音 運動。
顯示模塊111用于顯示三維說話人頭像發音運動的三維可視化信息。顯示 模塊lll可以是顯示器、電視機等顯示設備。
圖2是第一語音識別模塊103的示意圖。第一語音識別模塊103包括聲學 特征參數提取模塊302、聲學模型數據庫存儲模塊304、語言模型數據庫存儲模 塊306和解碼模塊308。聲學模型數據庫存儲模塊304所存儲的聲學模型數據庫 是從大規模新聞類和訪談類語音數據中提取的聲學特征參數建立基于隱馬爾科 夫模型(HMM )的上下文相關的三音素^f莫型,利用最大似然估計算法(Maximum Likelihood)和區別性訓練算法(Discriminative Training)對聚類的三音素模型 進行參數估計和更新。語言模型數據庫存儲模塊306所存儲的語言模型數據庫 是根據大規模新聞類數據以及網絡上收集的大量語音數據標注文本進行統計訓 練得到。聲學特征參數提取模塊302用于從語音數據中提取語音信號特征參 數。解碼模塊308根據聲學模型數據庫和語言模型數據庫,運用廣度優先的搜 索算法對語音信號特征參數進行解碼識別,并可同時采用設置適當的寬度值來 提升解碼的效率。語音信號特征參數經解碼識別后可得到音素序列文本、音素 時間長度信息、連續協同發音信息和連續音素音頻數據。測試表明,語音識別 模塊針對朗讀方式的大詞匯量非特定人連續語音識別的音素識別準確率能夠達到卯。/o以上。
語音識別的具體方法詳細說明如下首先對自然連續語音進行語音信號特 征提取,例如采用感知線性預測(PLP)特征參數,包括能量以及差分特征等。 聲學模型采用基于HMM的統計模型。每個HMM可以表征語音信號的基本音 素單元,多個音素的HMM串行起來構成一個詞的HMM。采用詞典(Lexicon) 來表征每個單詞對應的發音和音素序列。在大量語音數據的基礎上訓練聲學模 型各個三音素模型的均值、方差、權值、轉移概率等參數。利用大量文本信息 建立語言模型,通過估計相連詞匯的出現概率提供語言模型分數,并結合聲學
模型分數在識別網絡中搜索最優音素序列,最終識別出語音所對應的文本信 旮
第一語音識別;f莫塊103除了可以識別中文和英文的語音之外,同時也為增 加其他語種的聲學模型和語言模型提供了接口 ,可根據需要增加或更新相應的 聲學模型數據庫和語言模型數據庫。
圖3是發音器官運動數據采集模塊104的工作流程圖。發音器官運動數據 采集模塊104的具體工作過程如下
S401:定義控制各發音器官變形運動的特征點。
根據生理解剖學結構數據對正面視頻圖像、正交側面視頻圖像和X-光透一見 圖像進行分析,定義出控制各個發音器官變形運動的特征點。其中,面部的特 征點有唇部6個特征點、鼻尖、下顎等,口腔內部的特征點有舌部6個特征點等。
S402:提取面部特征點二維參數。
根據音素序列文本與音素時間長度信息確定所有音素對應的正面視頻圖像 和正交側面視頻圖像,提取面部特征點二維參數,然后利用立體視覺恢復三維 坐標。
S403:提取口腔內部特征點二維參數。
根據音素序列文本與音素時間長度信息確定所有音素對應的口腔X光透視 圖像,并提取口腔內部二維參數。 S404:建立發音器官運動凝:據庫。根據說話人實際頭部數據對面部特征點二維參數和口腔內部特征點二維參 數進行配準,建立發音器官運動數據庫。
圖4是運動控制參數變換模塊106的工作流程圖。運動控制參數變換模塊 106的具體工作過程如下
S501:獲取各特征點的靜態數據。
根據外部和內部發音器官不發音時的靜態圖像獲取各特征點的靜態數據。 各特征點的靜態數據包括口腔內部靜態二維數據和面部三維重建后特征點靜態數據。
S502:獲得特征參數變換矩陣。
根據口腔內部靜態二維數據、面部三維重建后特征點靜態數據和三維說話 人頭像模型特征點靜態數據,對說話人實際頭部數據進行配準,獲得特征參數 變換矩陣。
S503:獲得校準后的發音器官運動數據庫。
根據特征參數變換矩陣對發音器官運動數據庫進行變換,得到校準后的發 音器官運動數據庫。該數據庫為單音素發音器官運動模擬模塊107提供所有音 素的發音器官運動控制特征點的動態變形運動控制參數,在該參數的控制下可 以模擬出所有單個和多個連續中文和英文音素的發音變形,并為新語言音素發 音變形模擬提供加載參數的接口 ,可根據需要增加或更新相應音素的發聲變形 模擬。
圖5是單音素發音器官運動模擬模塊107的工作流程圖。單音素發音器官 運動模擬模塊107的具體工作流程包括如下步驟 S601:對發音器官進行分類。
根據三維說話人頭像模型和發音器官的生理物理屬性將發音器官分為軟組 織類發音器官(唇部和舌部)、開合類發音器官(下齒和下顎)和固定類發音 器官(上齒和口腔上部)。
S602:對各類發音器官分別進行運動模擬。
對軟組織類發音器官采用基于位移的算法(Displacement-based )模擬變形, 根據軟組織類發音器官特征點進行廣度優先搜索得到各特征點的鄰域,在該鄰域內構造以特征點為中心的橢球面,設置橢球面上的點的位移為零,以特征點 的位移和鄰域內各點與橢球面的距離為參數,構造正弦或余弦函數對影響范圍 內的點進行變形,實現發音器官特征點變形的真實擴散。或者采用基于物理的
算法(Physics-based)模擬舌部和面部的變形,構造彈簧質點模型或有限元模 型,同時標注口輪匝肌和舌部肌肉群(包括頦舌肌、舌骨舌肌、莖突舌肌、舌 上縱肌、舌下縱肌、舌直肌和舌橫肌)的走向,根據發音器官特征點的運動控 制參數設計相應的邊界條件,并且沿肌肉纖維走向設置收縮系數模擬肌肉收 縮,模擬軟組織的生理物理變形。
對開合類發音器官建立局部旋轉坐標系,根據校準后的發音器官運動數據 庫進行轉開合運動模擬。
對固定類發音器官,保持運動不變。
S603:實現發音器官協同變形模擬。
對每一音素建立發音時的各發音器官運動的邏輯關系,根據聯合時序邏輯 控制算法,共同實現各個單音素的所有發音器官協同變形模擬。
上述語音可視化系統可將外部模型設置為透視狀態或線框模式,從而可以 觀察到口腔內部發音器官發音變形的位置和狀態。并且上述語音可視化系統中 所有內部和外部模型可實現在三維空間的任意角度旋轉和任意大小縮放。
上述語音可視化系統是根據生理解剖學構建三維發音器官靜態建模的基礎 之上,應用生物力學原理模擬發音器官運動變形狀態和速度,同時利用高識別 準確率的自動語音識別技術,對實時、自然連續語音進行音素識別和協同發音 音素時間長度信息獲取,構建并實現了三維說話人頭像發音器官協同運動模擬 和說話人表情系統。上述語音可視化系統模擬出的發音器官運動不僅具有高真 實感和高準確度,而且能夠自動模擬出連續發音時對應多個發音器官運動的形 狀、速度和力度。
上述語音可視化系統100利用語音可視化技術,采用計算機圖形學的變形 運動模擬方法和高識別準確率的自動語音識別技術,構建三維說話人頭像連續 發音運動模擬系統。該發明通過視覺和聽覺兩類信息的有機融合,全面模擬人 類語言發音的過程,可以真實地反映發音器官的運動情況,有效地提升語言感知的程度。上述語音可視化系統可以推廣到三維動漫的人物運動設計中,從而 大幅度提高設計三維動漫人物對話的效率和真實感。
此外,當外界輸入的是語音數據中已包含音素時間長度信息和連續音素音
頻數據時,上述語音可視化系統100可以沒有第二語音識別模塊109,此時,外 界語音數據直接輸入至連續發音運動模擬模塊110。
以上所述實施例僅表達了本發明的幾種實施方式,其描述較為具體和詳 細,但并不能因此而理解為對本發明專利范圍的限制。應當指出的是,對于本 領域的普通技術人員來說,在不脫離本發明構思的前提下,還可以做出若干變 形和改進,這些都屬于本發明的保護范圍。因此,本發明專利的保護范圍應以 所附權利要求為準。
權利要求
1、一種語音可視化系統,其特征在于包括說話人運動數據采集模塊、至少一語音數據采集模塊、至少一語音識別模塊、發音器官運動數據采集模塊、三維說話人頭像靜態建模模塊、運動控制參數變換模塊、單音素發音器官運動模擬模塊、連續發音運動模擬模塊和顯示模塊;所述說話人運動數據采集模塊用于采集說話人的說話人運動數據;所述至少一語音數據采集模塊用于同步采集說話人的語音數據;所述至少一語音識別模塊用于從語音數據中提取音素序列文本、音素時間長度信息、連續協同發音信息和連續音素音頻數據;所述發音器官運動數據采集模塊用于根據各音素的時間長度對說話人運動數據進行處理,建立與音素對應的發音器官運動數據庫;所述三維說話人頭像靜態建模模塊用于根據生理解剖學結構數據建立可觀測發音器官的各個軟組織和硬組織的三維說話人頭像靜態三維模型,提供可觀測發音器官所有三維說話人頭像靜態三維模型數據,以及所定義運動控制特征點的靜態三維數據;所述運動控制參數變換模塊將發音器官運動數據庫與三維說話人頭像靜態三維模型進行配準,獲得校準后的發音器官運動數據庫;所述單音素發音器官運動模擬模塊利用三維動態變形模擬算法,加載從校準后的發音器官運動數據庫中得到的運動控制參數,實現各個單音素的所有發音器官協同變形模擬;所述連續發音運動模擬模塊用于接收音素時間長度信息和連續音素音頻數據,采用發音器官協同運動與音素音頻同步算法實現三維說話人頭像發音同步,結合說話人表情模擬三維說話人頭像發音運動;所述顯示模塊用于顯示三維說話人頭像發音運動的三維可視化信息。
2、 根據權利要求l所述的語音可視化系統,其特征在于所述至少一語音 數據采集模塊的個數為一個,所述至少一語音識別模塊的個數為一個,該語音 數據采集模塊與該語音識別模塊連接,該語音識別模塊與發音器官運動數據采 集模塊連接。
3、 根據權利要求l所述的語音可視化系統,其特征在于所述至少一語音 數據采集模塊包括第 一語音數據采集模塊和第二語音數據采集模塊,所述至少 一語音識別模塊包括第一語音識別模塊和第二語音識別模塊;該第一語音數據采集模塊與該第一語音識別模塊連接,該第一語音識別模塊與發音器官運動數據釆集模塊連接;該第二語音數據采集模塊與該第二語音識別模塊連接,該第二語音識別模塊與連續發音運動模擬模塊連接。
4、 根據權利要求l所述的語音可視化系統,其特征在于所述語音識別模塊包括聲學特征參數提取模塊、聲學模型數據庫存儲模塊、語言模型數據庫存儲模塊和解碼模塊;所述聲學模型數據庫存儲模塊用于存儲聲學模型數據庫;所述語言模型數據庫存儲模塊用于存儲語言模型數據庫;所述聲學特征參數提取模塊用于從語音數據中提取語音信號特征參數;所述解碼模塊根據聲學模型數據庫和語言模型數據庫,運用廣度優先的搜索算法對語音信號特征參數進行解碼識別,輸出音素序列文本、音素時間長度信息、連續協同發音信息和連續音素音頻數據。
5、 一種語音可一見化方法,包括同步采集說話人的說話人運動數據和語音數據;對語音數據進行處理;建立發音器官運動數據庫;建立三維說話人頭像靜態三維模型;建立校準后的發音器官運動數據庫;實現各個單音素的所有發音器官協同變形^t擬;接收說話人的語音信息;模擬三維說話人頭像發音運動;顯示三維說話人頭像發音運動的三維可視化信息。
6、 根據權利要求5所述的語音可視化方法,其特征在于所述建立發音器官運動數據庫包括定義控制各發音器官變形運動的特征點;提取面部特征點二維參數;提取口腔內部特征點二維參數;建立發音器官運動數據庫。
7、 根據權利要求5所述的語音可視化方法,其特征在于所述建立校準后的發音器官運動數據庫包括獲取各特征點的靜態數據;獲得特征參數變換矩陣;獲得校準后的發音器官運動數據庫。
8、 根據權利要求5所述的語音可視化方法,其特征在于所述實現各個單音素的所有發音器官協同變形模擬包括對發音器官進行分類;對各類發音器官分別進行運動模擬;實現發音器官協同變形模擬。
9、 根據權利要求8所述的語音可視化方法,其特征在于所述對發音器官進行分類包括根據三維說話人頭像模型和發音器官的生理物理屬性將發音器官分為軟組織類發音器官、開合類發音器官和固定類發音器官。
10、 根據權利要求9所述的語音可視化方法,其特征在于所述對各類發音器官分別進行運動^f莫擬包括對軟組織類發音器官采用基于位移的算法進行運動模擬或者采用基于物理的算法進行運動模擬;對開合類發音器官建立局部旋轉坐標系,根據校準后的發音器官運動數據庫進行轉開合運動模擬;對固定類發音器官,保持運動不變。
全文摘要
本發明涉及一種語音可視化系統及語音可視化方法,該語音可視化系統包括說話人運動數據采集模塊、至少一語音數據采集模塊、至少一語音識別模塊、發音器官運動數據采集模塊、三維說話人頭像靜態建模模塊、運動控制參數變換模塊、單音素發音器官運動模擬模塊、連續發音運動模擬模塊和顯示模塊。該語音可視化方法包括同步采集說話人的說話人運動數據和語音數據;對語音數據進行處理;建立發音器官運動數據庫;建立三維說話人頭像靜態三維模型;建立校準后的發音器官運動數據庫;實現各個單音素的所有發音器官協同變形模擬;接收說話人的語音信息;模擬三維說話人頭像發音運動;顯示三維說話人頭像發音運動的三維可視化信息。
文檔編號G10L21/06GK101488346SQ200910105558
公開日2009年7月22日 申請日期2009年2月24日 優先權日2009年2月24日
發明者歐陽建軍, 嵐 王, 輝 陳 申請人:深圳先進技術研究院