專利名稱:語音對話方法和系統的制作方法
技術領域:
本發明屬于語音對話系統領域,特別是使用者說出短語進行確認 的領域。
背景技術:
當前對話系統通常采用語音作為輸入和輸出形式。語音識別功能用于將語音輸入轉換為文本,而文本到語音(TTS)功能用于將文本表 現為語音輸出。在很多對話系統中,TTS主要用于提供音頻反饋以確 認語音輸入。例如,在手持式通訊設備中,用戶可以使用語音輸入來 進行姓名撥號。當使用TTS來確認語音輸入時提高了可靠性。然而, 使用TTS的傳統確認功能占用了大量時間和資源研究每一種語言,同 時也消耗了手持式通信設備中大量的存儲資源。這成為使用這種對話 系統的多語言設備在全世界推廣的主要問題。
本發明采用示例進行說明但不限于附圖,其中類似的參考表示類 似元件,并且其中圖1是表示根據本發明一些實施例的語音對話方法的流程圖;圖2是表示根據本發明一些實施例的示范語音短語分析圖表;圖3是表示根據本發明一些實施例的執行語音對話的電子設備的 方塊圖;以及圖4是表示根據本發明一些實施例的語音對話方法的流程圖。熟練技術人員明白,附圖中的元件僅簡明地示出,而不一定按比 例繪制。例如,為了更好的理解本發明的實施例,附圖中的一些元件 的尺寸相對于其他元件被放大。
具體實施方式
在對根據本發明的語音對話系統的特定實施例進行詳細描述之 前,首先說明,本發明的實施例主要集中在有關語音對話系統的方法 步驟和裝置構件的組合。因此,裝置構件和方法步驟在圖中采用常用 符號適當地進行表示,僅表示那些與理解本發明相關的特定細節,以 避免將本公開與那些對具有本說明書中益處的本領域普通技術來說已 經明顯的細節相混淆。同樣應當理解,除非特別說明其特定含義,否則這里使用的術語 和表述具有這些術語和表述各自相應調查和研究領域的普通含義。在本申請中,關系術語例如第一和第二,頂部和底部,僅僅是用 來區分一個實體或動作與另一個實體或動作并不要求或暗示這些實體 或動作之間的實際關系或順序。術語"包含"或其他任何類似的變化 旨在表示非排他性包含,例如包含一系列要素的過程、方法、物品或 裝置不僅僅包含這些要素,還可以包含其他沒有特別列出的要素或者 這些步驟、方法、物品或裝置中固有的要素。由"包含……"引導的 要素,沒有更多限制時,并不排除在包含該要素的過程、方法、物品 或裝置中還存在同樣的要素。在本文中使用的"組"可以表示空的組。這里使用的術語"另一 個"被定義為至少一第二或者更多。這里使用的術語"包括"和/或"具 有"被定義為"包含"。這里使用的與電光技術相關的術語"耦合的" 被定義為連接,但不一定表示直接地、也不一定表示機械地。這里使 用的"程序"被定義為設計用于在計算機系統上執行的一系列指令。"程序",或"計算機程序",可以包括子程序、功能、過程、對象 方法、對象實現、可執行應用程序、小應用程序、伺服程序、源代碼、 目標代碼、共享程序附圖l、 2和3,展示了根據本發明一些實施例的語音對話方法的一些步驟的流程圖IOO(附圖1),語音短語的分析圖以及電子設備300 (圖3)的方塊圖。在步驟105 (附圖1),用戶在對話中發出的語音 短語由電子設備300的麥克風305 (附圖3)接收并由電子設備300利 用常規技術轉換為數字采樣信號307。語音短語由包含實例化變量的請 求短語組成,且可以進一步包含不可變片段。在附圖2所示的實施例 中,語音短語為"撥TomMacTavish"。在這個語音短語中,"撥"是 不可變片段,而"TomMacTavish"是實例化變量的名字(也就是,變 量的特定值)。這個實施例中的不可變片段是命令〈撥〉,并且這個 變量在示例中具有變量形式就是〈撥名字〉。這個語音短語可以選擇 性的不包含不可變片段或者包含一個以上的不可變片段,也可以包含 一個以上實例化變量。例如,為響應接收到的附圖2所示的語音短語 示例,電子設備可以合成響應"請重復名字",因為正確的語音短語 可以只包含名字,沒有不可變片段。在另一個實施例中,語音短語可 以是"把這個圖片用郵件發送給Jim Lamb"。在這個示例中,"用郵 件發送"是不可變片段,"圖片"是類型〈用郵件發送目標〉的實例 化變量,"JimLamb"是類型〈撥名字〉的實例化變量。電子設備300 以常用方式存儲各組變量和不可變片段值的數學模型,例如隱馬爾可 夫模型(HMM)。這里可以有一個以上的HMM,例如一個用于不可 變片段,而一個用于各種變量類型的每一個,或者HMM可以是所有 變量類型和不可變片段的聯合模型。在步驟IIO (附圖1),電子設備 300的語音識別功能310 (附圖3)在定時間隔220 (附圖2)對語音短 語的數字化電信號進行處理,例如10毫秒,并生成基音與發音特征315, 而且生成語音短語的聲學向量。這些聲學向量可以是Mel頻率倒譜系 數(MFCC)或者是另一個常規(或非常規的)類型的特征向量。這些 可能更通常地被作為聲學特征描述。在附圖2所示的示例中,聲學向 量用一系列邏輯框225表示,而基音與發音特征用一系列邏輯框230 表示。根據由至少一種類型的變量(例如〈撥名字〉)的一組值(例 如Tom MacTavish, Tom Lynch, Steve Nowlan, Changxue Ma,......)的聲學狀態得到的聲學狀態的存儲模型,語音識別功能310從最可能 代表接收到的每一個實例化變量和不可變片段(當存在不可變片段時) 的聲學向量的存儲模型中選擇一組聲學狀態。在一個示例中,存儲模型是常規隱馬爾可夫模型(HMM),但是也可以采用其他模型。在更普通的情況下,定義表示變量存儲值的狀態,使得它們可以被該數學 模型用于查找最相匹配的一組由接收到的音頻片段得到的聲學特征和一組表示變量值的狀態。盡管在常規語音識別系統中HMM模型被廣 泛用于實現這種目的,但是其他模型是公知的并且其他模型是可以被 開發的;這些模型可以被有益地用于本發明的實施例中。被選擇的不 可變片段的聲學狀態組確定該不可變片段的值325 (附圖3),在步驟 120完成不可變片段的語音識別。最能代表實例化變量的該組聲學狀態 被稱為為該實例化變量的最相似的聲學狀態組320,在步驟125,最相 似的聲學狀態組的選擇完成了的實例化變量語音識別部分。在附圖2 所示的示例中,實例化變量"TomMacTavish"的最相似的狀態組用一 系列聲學狀態235表示。依照一些實施例,響應短語判決器330 (附圖3)根據不可變片段 (當其存在于聲音短語中時)的識別值325和由對話歷史功能器327 (附圖3)產生的對話歷史確定響應短語。在附圖2所示的實施例中, 不可變值〈撥〉已經被確定并且可以用于不使用對話歷史來確定產生 響應短語"你想要撥號嗎"240的音頻。在一些實施例中,每個響應短 語的值的一組聲學狀態被存儲在電子設備300中,并且與存儲的基音 與發音值一起釆用常規的聲音合成技術生成該響應短語的數字音頻信 號331,在附圖2中用一組聲學向量245和相應的基音與發音特征250 表示。在其他實施例中,響應短語的數字化音頻采樣被存儲并且被用 于直接生成響應短語的數字音頻信號331。電子設備300進一步包含合 成實例化變量生成器335,該實例化變量生成器根據與接收到的音頻短 語的基音與發音特征校準的最相似的聲學狀態組生成合成實例化變量 的數字化音頻信號336,在附圖2中用聲學向量255和基音與發音特征 260表示。基音與發音特征的持續時間被延長或縮短,以在校準期間與從最相似的聲學狀態組生成的聲學向量匹配。數據流合成器340接著 以適當的順序合成響應短語的數字化音頻信號與合成實例化變量。在 合成過程中,響應短語的基音與發音特征可以根據那些存儲的進行修 正,以更好地與那些用于合成實例化變量的相混合。在附圖2所示的實施例中,當被選中的最相似的聲學狀態組針對 被叫名字的值是Tom MacTavish時,響應短語和合成實例化變量的表 示,在大多數情況下"Tom MacTavish" 265可以典型地被用戶理解, 允許用戶確認選擇的正確性。另一方面,當所選的最相似的聲學狀態 組針對被撥叫名字時,例如Tom Lynch時,響應短語與合成實例化變 量"Tom Lynch" 270的表示很難使用戶與請求的Tom MacTavish混淆 因為不僅是錯誤的選擇和使用值,而且在大多數情況下向用戶表現出 的是錯誤的基音與發音特征,使用戶很容易給出不確認該選擇。實質 上,根據接收到的短語的基音與發音,正確的變量值與語音學上接近 但不正確的變量值之間的區別被擴大了 。在一些實施例中,電子設備300的可選質量評估功能345(附圖3) 確定最相似的聲學狀態組的質量量度,當質量量度達到了標準,質量 評估功能345控制選擇器350將數據流合并器的數字音頻信號輸出與 將數字音頻信號轉換為模擬信號的揚聲器相耦合并且使用它驅動揚聲 器。質量評估功能345 (附圖3)執行的確定和控制實施為可選步驟130 (附圖1),在這里確定最相似的聲學向量組的量度是否達到標準。通 過響應短語判決器330生成響應短語的數字信號331的部分實施為步 驟135 (附圖3),其中給出聲學存儲的響應短語。根據最相似的聲學 狀態組和實例化變量的基音與發音特征生成合成實例化變量的數字化 音頻信號336的部分包含在步驟140 (附圖l)。在那些可選質量評估功能345 (附圖3)確定最相似的聲學狀態組 的質量量度的實施例中,當質量量度沒有達到標準時,在步驟145(附 圖1)中質量評估功能345控制可選選擇器350將來自未辨別詞匯(OOV)音頻響應功能360的數字化音頻信號耦合到給出用戶表示未 辨別詞匯提示的短語揚聲器功能355。例如,未辨別詞匯提示可以是"請 重復你最后的短語"。對響應短語采用相同的方式,這個OOV短語可 以利用基音與發音特征存儲為數字化采樣或者聲學向量,或者類似的 形式。在沒有利用量度確定是否給出OOV短語的實施例中,數據流合成 器功能340的輸出與揚聲器功能355直接耦合,步驟130和145 (附圖 1)被刪除。在那些利用量度確定是否給出oov短語的實施例中的量度可以是表示對已進行的最相似的聲學狀態組的正確選擇的置信度。例如,這個量度可以是表示實例化變量聲學向量組與被選擇的最相似的聲學狀態組之間的距離。依照附圖4,給出了根據本發明一些實施例的語音對話方法的流程 圖。步驟105-125在上面參考附圖1的內容已經進行了說明。在步驟 410,被確定為正確地響應了至少一個變量的唯一值的實例化變量被存 儲在值屬性數據庫中,每一個識別值都與用于標識該值的已存儲的實 例化變量的最相似的聲學狀態組和基音與發音特征相關聯。包含具有 新實例化變量的新請求短語的新語音短語在步驟415接收。識別值在 在步驟420通過第二實例化變量的語音識別被確定。在步驟425,至少 一個最相似的聲學狀態組和基音與發音特征是根據與具有消除歧義可 能性的識別值相關聯的值屬性數據庫確定。在步驟430,根據與值屬性 數據庫中的識別值相關聯的最相似的聲學狀態組和基音與發音特征生 成響應。應當理解,通過這種方法,與一個或多個先前接收到的變量 相關聯的聲學狀態和基音與發音特征可以用于代替新接收到的實例化 變量,以更好地消除該實例化變量的歧義。這里描述的語音對話方法100、 400和電子設備300的實施例可以廣泛應用于各種電子裝置例如,但不局限于,便攜式電話、個人娛樂 設備、尋呼機、電視線纜機頂盒、電子設備遙控單元,手提式或臺式 或主機計算機,或電子測試裝置。相對于包括了語音識別直到最相似 的實例化變量的文本版本與根據合成實例化變量的文本語音合成的確 定現有技術,這些實施例提供了縮短開發時間和減少所需處理資源的 有益效果。這些有益效果部分是避免開發用于這里所描述的實施例的 不同講話語言的合成變量的合成的文本語音轉換軟件系統的結果。可以理解,這里描述的語音對話實施例可以包含一個或多個常規 處理器和唯一的存儲程序指令,其控制一個或多個處理器結合非處理 器電路,以實現一些、更多或者所有的這里所描述的語音對話實施例 的功能。這個唯一的存儲的程序可以通過媒體傳遞,例如軟盤,或在 下載包含唯一程序的文件的數字信號傳遞。這個非處理器電路可以包 括,但不限于,無線電接收機、無線電發射機、信號驅動器、時鐘電 路、電源電路以及用戶輸入設備。這樣,這些功能可以解釋成執行訪 問通信系統的方法的步驟。或者, 一些或所有功能可以通過沒有存儲 程序指令的狀態機來完成,其中每一個功能或某些功能的結合可以作 為定制邏輯來完成。當然,也可以使用兩種方法的組合。這樣,以上 所描述的就是這些功能的方法和裝置。在前面的詳細闡述中,本發明及其效益和優點通過特定的實施例 己經被描述了。但是,本領域的普通技術人員應當理解各種修正和替 換都在下面本發明所列出的權利要求的保護范圍之內。因此,說明書 和附圖作為展示而不是作為限制,并且所有這樣的修正都包括在本發 明的范圍之中。上面所描述的實施例的一些部分是常規技術,但是應 當理解這些部分也可以采用現在未知的裝置和/或技術實現。效益、優 點、技術問題的解決方案,以及可以使效益、優點或解決方案出現或 更加顯著的任何要素不構成任何或者所有權利要求的關鍵的、必須的 或本質的特征或者要素。
權利要求
1.一種語音對話方法,包括接收語音短語,該語音短語包含具有實例化變量的請求短語;生成所述實例化變量的基音與發音特征;執行對所述實例化變量的話音識別,以確定最相似的聲學狀態組;以及利用所述最相似的聲學狀態組和所述實例化變量的所述基音與發音特征生成所述實例化變量的合成值。
2. 根據權利要求l所述的語音對話方法,其中所述請求短語進一 步包括與所述實例化變量相關聯的不可變片段,進一步包括執行對所述不可變片段的話音識別;以及 呈現聲學存儲的響應短語。
3. 根據權利要求l所述的語音對話方法,其中執行對所述實例化 變量的話音識別包括確定所述實例化變量的聲學特征;以及使用存儲查找值的數學模型和所述聲學特征確定所述最相似的聲 學狀態組。
4. 根據權利要求3所述的語音對話方法,其中所述存儲查找值的 數學模型是隱馬爾可夫模型。
5. 根據權利要求l所述的語音對話方法,其中生成所述實例化變 量的合成值是在所述最相似的聲學狀態組的量度符合標準時執行的, 并且進--步包括在所述最相似的聲學狀態組的量度不符合該標準時,呈現聲學存 儲的未辨別詞匯響應短語。
6. —種語音對話電子設備,包括用于接收語音短語的裝置,該語音短語包含具有實例化變量的請 求短語;用于生成所述實例化變量的基音與發音特征的裝置; 用于執行對所述實例化變量的話音識別以確定最相似的聲學狀態 組的裝置;以及利用所述最相似的聲學狀態組和所述實例化變量的所述基音與發 音特征生成所述實例化變量的合成值的裝置。
7. 根據權利要求6所述的語音對話電子設備,其中所述請求短語 進一步包括與所述實例化變量相關聯的不可變片段,進一步包括用于執行對所述不可變片段的話音識別的裝置;以及 用于呈現聲學存儲響應短語的裝置。
8. —種包括存儲程序指令組的媒體,包括接收語音短語的功能,該語音短語包含具有實例化變量的請求短語;生成所述實例化變量的基音與發音特征的功能; 執行對所述實例化變量的話音識別以確定最相似的聲學狀態組的 功能;以及利用所述最相似的聲學狀態組和所述實例化變量的所述基音與發 音特征生成所述實例化變量的合成值的功能。
9. 根據權利要求8所述的媒體,其中所述請求短語進一步包括與 所述實例化變量相關聯的不可變片段,進一步包括執行對所述不可變片段的話音識別的功能;以及 呈現聲學存儲響應短語的功能。
10. —種語音對話方法,包括接收包括一個或多個實例化變量的一個或多個語音短語;生成所述一個或多個實例化變量的基音與發音特征;執行對所述實例化變量的話音識別以確定所述一個或多個實例化 變量的每一個的最相似的聲學狀態組;存儲最相似的聲學狀態組和所述一個或多個實例化變量的基音與 發音特征,它們每一個都被確定為正確地對應于值屬性數據庫中變量 的唯一值,每一所述最相似的聲學狀態組和基音與發音特征與它對應 的唯一值相關聯地存儲;接收新語音短語,該新語音短語包含具有新實例化變量的新請求短語;通過對所述新實例化變量的話音識別確定識別值; 從具有消除所述識別值歧義可能性的值屬性數據庫中確定最相似的聲學狀態組和基音與發音特征;利用與所述值屬性數據庫中所述識別值相關聯的所述最相似的聲學狀態組和所述基音與發音特征生成響應。
全文摘要
一種語音對話電子設備(300)包括以下功能接收(305,105)包含具有實例化變量(215)的請求短語的語音短語,生成(335,115)實例化變量的基音與發音特征(315),和執行實例化變量的語音識別(319,125)以確定最相似的聲學狀態組(235)。電子設備利用該實例化變量的最相似的聲學狀態組和基音與發音特征生成(335,140)實例化變量的合成值。電子設備利用一組預先輸入的唯一確定的變量的值,其中這些值與由每個值的接收確定的最相似的聲學狀態組和基音與發音特征關聯在一起,以消除(425,430)最新接收的實例化變量的歧義。
文檔編號H04M1/66GK101253547SQ200680014400
公開日2008年8月27日 申請日期2006年3月20日 優先權日2005年4月29日
發明者宸 劉, 史蒂文·J·諾蘭, 特德·馬祖爾凱維奇, 程燕鳴, 詹姆斯·R·塔利, 韋元軍, 馬長學 申請人:摩托羅拉公司