專利名稱:用于構成連續語音識別器的方法
技術領域:
本發明涉及一種用于構成連續語音識別器的方法,其例如可以用于電視機的語音控制的。
連續語音識別系統把連續語音波形轉換為一系列相等間隔的參數矢量。該系列參數矢量建立判斷所說出的單詞序列的基礎。統計方法用于判定哪一個單詞序列最適合于參數矢量的序列。特別是使用兩種概率,聲音概率和語言概率。聲音概率把參數矢量的序列與詞匯表的各個單詞相聯系。語言概率使用語言模型,并且基于給定單詞的各個序列具有不同概率的事實,其中有意義的語句比無意義的語句具有更高的概率。為了把所需的計算能力減小為合理的數值,對于給定單詞不使用所有在前的單詞,而僅僅使用兩個(二單詞組)或三個連續單詞(三單詞組)。對于不同二單詞組或三單詞組的概率是在“訓練”期間由在訓練文本語料庫中的相關概率所確定的。
用于構成語音識別器(二單詞組或三單詞組模型)的統計語法的標準程序用已有的軟件從足夠大的語料庫執行計算。該語料庫由幾千個或更多有意義的語句所構成,并且要從適當的場景建立,或者使用標準語料庫。對于特定的應用來說通常沒有現成的語料庫,或者已有的語料庫不完全合適或者太大。
本發明的一個目的是一種用于構成連續語音識別器的方法,其完全適合于特定應用,并且如果該應用擴大則其以簡單的方式來適應。
該目的是通過在權利要求1中所述的方法而實現的。
原則上,用于構成連續語音識別器的方法,其中根據語句語料庫計算統計語法模型,使用語句發生器,其建立分別覆蓋要構成的語料庫的特定區域的語句組,其中該語料庫從語句發生器的輸出中組合。
在一個優選方式中,該語句發生器是從小場景中得出或者根據直覺建立。
在一個優選方案中,該語料庫是從語句發生器的加權輸出中組合而得的。
另外,由語句發生器所覆蓋的特定區域是特定命令、請求或問題。
最后,另外使用用于補充語句外延的特定發生器,其可以鏈接到任意數目的語句發生器。
本發明具有如下優點語料庫的組合是一個受控制的過程。如果語料庫僅僅是足夠大的話,這比簡單依賴于語料庫是良好形成并且相容的事實更加對應于工程學的方式。
可以更容易地保證必要(確定性的)單詞組合(例如,數字或日期,肯定能得到的所有組合)。即使在一個大的語料庫(例如,在報紙或在電話呼叫)中,也不一定存在這些組合。
該語料庫可以為特定任務設計,而不需要太多的額外開銷。
可以逐漸變化。即使從實際情景或從情景的預先過濾提取中,可以容易地添加新的或丟失的特征。
語句產生的依據不是“各個說話人”,而是“對個人語音的認識”。更加普通的方法是首先引向基本系統,然后可以在次級處理中細化。至少從最初可以避免從幾百個說話人收集語句。
語句產生處理“拓寬”可用的數據庫。可以使忘記組合的危險最小化,并且把一般分支概率引入發生器網絡可以用于優化識別器行為。
下面參照附圖描述本發明的示例實施例,其中
圖1示出用于命令語句的發生器。
本發明的一個示例實施例表現在用于語音控制中的獨立于說話人的統計語法和詞匯的構成,以及用于電視機的對話系統,包括EPG(錯誤模式生成程序)。
建立十八個語句發生器,其中的十二個是基本發生器,并且其中的六個用于產生語句外延。該發生器獨立工作,但是部分地共用相同的主格,并且它們使用共同的詞匯。發生器的一個列表如下。
●命令命令句●注釋以“I prefer”,“I don’t mind”,“it is”等等為開始的語句。
●請求以“I want”,“I would like to”等等為開始的語句。
●響應對系統的回答“Yes”,“No”,“thank you”,“None of them”等等。
●quest_what 以“what”為開始的問句。
●quest_cwould以“can,could,would,等等”為開始的問句。
●quest_when 以“when”為開始的問句。
●quest_which 以“which”為開始的問句。
●quest_who 以“who”為開始的問句。
●quest_how 以“how”為開始的問句。
●quest_do以“do”為開始的問句。
●quest_is以“is”為開始的問句。
●if_esc 條件句外延●esc_add_expr_esc 附加表達外延,例如“Tell me…”,“Let us…”等等。
●esc_glob_ell_esc 對語句外延的省略(僅僅在語句的開始處)●esc_item_ell_esc 對項目外延的省略,例如“the newsand the weather report”等等。
●esc_prog_ell_esc 對程序外延的省略,例如“BBCONE或者EECTWO_”● esc_time_ell_esc 對時間外延的省略,例如“before sixo’clock或者after eight o’clock”,等等。
在下文列表中的主格用于大多數發生器。
● intro 引入“Yes”,“No”,猶豫詞和停頓。
● hesitate 用于前導(intro)的猶豫詞,例如“well”,“so”,“right”,“ehmm”,“hum”,等等。
● adv_time 時間的提前表達● time 用于adv_time及其他地方的時間● hour 用于time及其他地方的數字(帶有“1”)● hours 用于time及其他地方的數字(不帶有“1”)● minutes用于time及其他地方的數字● ord序數(“第一”…“第十”)● item_def_sing 例如“adventure movie”,“talkshow”等詞條● item_def_plur 例如“adventure movies”,“talkshows”等詞條● item_def_singl 例如“adventure movie”,“talkshow”等詞條● item_def_plurl 例如“adventure movies”,“talkshows”等詞條● item_indef 例如“an adventure movie”,“adifferent talkshow”等詞條● program例如“BBC”、“CNNINTERNATIONAL”等節目圖1示出用于命令句的語句發生器。
該語句發生器以主格“intro”為開始,其中包括前導詞,例如“yes”、“no”,猶豫詞或停頓。在前導部分之后,實際命令輸入開始。可以有各種語法結構。用戶可以在一個完整句中給出命令,以“you must,shall,…”、“I want you to…”、“Please…”為開始,隨后跟著一個動詞,例如“show”或者“offer me”等等,并且最后跟著該廣播的節目或者節目類型和時間。但是,還可以跳過部分命令句并以各個動詞為開始,或者甚至以節目或節目類型等等為開始。對于節目或節目類型,還可以使用主格,其中分別包括不同節目或節目類型。該節目類型可以用單數、復數或不定格式給出,其考慮到各種主格。在輸入時,可以使用另外的主格,其允許一般的時間表達,例如“tomorrow”、“this afternoon”、“before midnight”,但是還可以是確切的時間表達,例如“8 pm”。最后,該命令可以用“Please”結束。
補充句擴展(介紹,例如,其他或特定的表達)可以與已經存在的語料庫相聯系。這提供更高的自由度,特別是對于更加復雜的句子的產生,限制語料庫變大,以及不違反模塊化。
它還可以從子句單元(分句或短語)建立一個語料庫,并且把在雙字母組中的這些單元相聯系。如果適當地選擇子單元和聯系,這提供一種從非常小的語料庫設計語法的方式。
只要可用,每個語句發生器的詞匯可以從系統詞典中取出。特定詞,例如節目,可以從音素中合成,所有語句發生器的所有使用單詞被保存在一個用戶詞典中。如果一個詞多于一個音標,則它在詞典中不只一次出現,但是僅僅一個詞條。
完整的語料庫從所有語句發生器的輸出構成。每個發送器的所產生語句數可以獨立調節。該平衡主要基于語法分析,具有一些擴展。
在這一點上,該識別器由該詞典和所有語句(語料庫)。該詞典是完整的并可以隨后裝載到識別器中。該語料庫是基于補償的二單詞組,其是在不重要的一些中間步驟之后自動建立的,該步驟沒有在此描述。
在該二單詞組計算中,僅僅考慮到來自單詞列表中的單詞。所有其他單詞都被忽略。該單詞列表包含詞匯表的所有單詞(每個單詞出現一次)以及節點!ENTER和!EXIT。除了在該語句開始和/或末尾存在未知單詞之外,該二單詞組強制所有語句以!ENTER節點為開始,以!EXIT節點為結束。補充句擴展一單詞!ESCAPE為開始和/或結束(根據定義)。因此,在識別處理中,這些擴展不能直接進入和/或退出。這意味著,該擴展僅僅能夠從在該語料庫的任何其他匹配語句中的相應(相同)單詞,通過!ESCAPE之后的第一單詞進入和/或通過在!ESCAPE之前的最后一個單詞。在擴展發生器的設計中必須非常小心,因為可能會出現被忽略或不希望有的鏈接,或者出現平衡問題。
二單詞組文件必須轉換為格文件,并且然后可以直接裝載到識別器中。從語音相關的觀點來看,識別器的構成在此完成。詞典和格是主要用戶定義文件,其確定識別器的大小的屬性。
完整的系統可以包括附加的部件,例如語法分析器、語境轉換器、對話管理器、交互發生器、文本發音單元、對話管理器,這些都沒有在此描述。
本發明可以便利地用于在中等規模的應用程序中的連續語音的語音識別,該中等規模的應用程序例如語音控制的EPG,具有幾百個單詞的詞匯表,或者在大規模應用程序中的專業化的子詞匯表,但是還可以應用于任何其他類型的語音控制和對話系統。
權利要求
1.一種用于構成連續語音識別器的方法,其中根據語句語料庫計算統計語法模型,其特征在于,使用語句發生器,其建立分別覆蓋要構成的語料庫的特定區域的語句組,其中該語料庫從語句發生器的輸出中組合。
2.根據權利要求1所述的方法,其特征在于,該語句發生器是從小場景中得出或者根據直覺建立。
3.根據權利要求1或2所述的方法,其特征在于,該語料庫是從語句發生器的加權輸出中組合而得的。
4.根據權利要求1至3中的任何一項所述的方法,其特征在于,由語句發生器所覆蓋的特定區域是特定命令、請求或問題。
5.根據權利要求1至4中的任何一項所述的方法,其特征在于,另外使用用于補充語句外延的特定發生器,其可以鏈接到任意數目的語句發生器。
全文摘要
用于構成語音識別器的統計語法的標準程序用已有的軟件從足夠大的語料庫執行計算。該語料庫由大量語句所構成,并且要從適當的場景建立,或者使用標準語料庫。對于特定的應用來說通常沒有現成的語料庫,或者已有的語料庫不完全合適或者太大。根據本發明,使用語句發生器,其建立其建立分別覆蓋要構成的語料庫的特定區域的語句組。可以使用用于補充語句外延的特定發生器,其可以具有到任意數目的語句發生器的鏈接。
文檔編號G10L15/197GK1296256SQ0013345
公開日2001年5月23日 申請日期2000年11月7日 優先權日1999年11月11日
發明者克勞斯·艾爾茨-格林, 于爾根·拉布斯 申請人:德國湯姆森-布蘭特有限公司