專利名稱:執行句法置換規則的語音識別裝置的制作方法
信息系統或控制系統正越來越多地利用語音接口與用戶進行快速和直觀的互相聯系,由于這些系統正變得更加復雜,所以被支持的對話形式一直變得更為豐富多樣,其一正進入大詞匯量的連續語音識別領域。
眾所周知,大詞匯量連續語音識別系統的設計要求語言模型產品,這種產品確定句子流水順序中應用詞匯的一個給定詞跟隨另一個詞或詞組的概率。
這個語言模型必須復現系統用戶原來所用的話語形式。
所用語言模型的質量對語音識別的可靠性有很大影響。這個質量最常用的所謂語言模型的困惑性指數來衡量,它概略地相當于對每個解碼詞必須進行的選擇次數。這個困惑性越低,質量就越高。
語言模型是對話系統常用的一個步驟即把語音信號轉換為詞的文本串所必需的。因而需要建立理解邏輯,這種邏輯使有可能領悟疑問從而回答它。
有兩種用于產生大詞匯量語言模型的標準方法(1)所謂N-字母組統計方法,最常用的是雙字母組或三字母組,其要點是假定句子中的一個詞的出現概率只與它前面的N個字有關而與句子中它的上下文無關。
如果就1000個詞的詞匯舉三字母組的例子,就需要確定10003個概率,以確定語言模型,這是很不切實際的。為解決這個問題,把字組合成組,它們即可以由模型設計者明確地確定,也可以由自組織方法推定。
這種語言模型是根據文本語言資料庫自動建立起來的。
(2)第二種方法的要點是借助于概率語法描述語法,其基本上是由一組所謂巴克斯-諾爾形式或BNF形式中描述的規則確定的上下文無關語法。
描述語法的規則通常是手寫的,但也可以自動推定。在這方面可以參考下列文件“概率上下文無關語法的基本方法”,(Basic methods of probabilisticcontext-free grammars F.Jelinek,J.D.Lafferty and R.L.Mercer NATO ASISeries Vl.75pp.345-359,1992)。
上述模型在應用于自然語言系統接口時,會有一些特殊問題N字母組型的語言模型(1)不能正確地模擬句子中幾個距離的語法上的子結構之間的依賴性。對于句法上正確的完整句子來說,無法保證這些子結構在識別過程中被作為根據,因此難以確定通常由一個或多個句法結構承載的如此這般的意義是否被句子傳達。
這些模型適合于連續聽寫,但它們在對話系統中應用就有上述缺點。
基于語法的模型(2)使有可能正確地模擬句子中的遠距離依賴性,也能遵守特定的句法子結構。在給定的應用中,所得語言的困惑性通常比N字母組型的模型為低。
另一方面,對于高度字型變化的文字,如法語或意大利語,句中的句法組的位置是相當自由的,BNF型語法的問題在于確定句法組的置換。
對于較少字型變化的文字,如英語,這些置換也是需要的,以便描述通常口語的短停和似是而非的開始,以BNFs為基礎的語言模型更加不合適。
本發明的目的是一種語言識別裝置,包括采集音頻信號用的音頻處理器和確定與音頻信號相應的詞序列用的語言解碼器,其特點在于語言解碼器包括用語法的幫助確定的語言模型,這個語法包含不重復地改變符號序列的句法規則。
發明者提出的語言模型擴展了BNF語法體系,用以支持普通語言的語法置換和高度字型變化的文字的語法置換。它能減少語言識別處理所需要的存儲量,并特別適合在大量銷售的產品中使用。
根據優選實施例,置換符號的句法規則包括一個符號表,和約束符號次序的適當表達。
根據優選實施例,語言解碼器包括識別引擎,它在將置換的符號指派給一串句項時,只在以前未被指派置換的符號中選擇一個符號指派給給定項。
根據具體實施例,識別引擎執行“定向搜索”或“n-最佳”型算法。
其他算法也可被執行。
本發明的其他特征和優點,通過借助于附圖對具體而非局限的實施例的描述,將變得明顯可見,附圖中
圖1是語言識別系統的示意圖,圖2是現有技術的棧庫自動化示意圖,圖3是根據本發明的棧庫自動化示意圖,圖4是根據本發明的在例示性置換分折的開始替換符號的示意圖,圖5是根據本發明的在圖4例子的后一步驟中替換符號的示意圖,圖6是借助于現有技術規則置換的表達中替換符號的示意圖,圖7a是樹形圖,說明根據本發明的由例示性置換所得節點上的替換組。
圖7b是樹形圖,說明根據現有技術的由例示性置換所得節點上的替換組。
圖1是語言識別的例示性裝置1的方塊圖。這個裝置包括音頻信號處理器2,它對通過信號采集電路4而得的源自傳聲器3的音頻信號進行數字化。處理器也將數字采樣轉換為從預定的字母表中選擇的聲符號。為此,它包含聲學一語言解碼器5。語言解碼器6處理這些符號,從而為符號序列A確定所給序列A的最大概率詞序列W。
語言解碼器使用聲模型7和語言模型8,由基于假設的搜索算法9實現。聲模型是例如所謂“隱藏馬爾可夫”模型(或HMM)。在這個實施例中實現的語言模型是基于借助于巴克斯-諾爾形式的句法規則描述的語法。語言模型用于向搜索算法提供假設。搜索算法是識別引擎所固有的,就這個例子來說,它是以維特比型算法為基礎并被稱為“n-最佳”的搜索算法。n-最佳型算法在句子分析的每一步驟中決定n個最大概率詞的序列。在句子的末尾,最大概率解從n個候選者中選擇。
上一段中的概念本來是熟悉技術的人所熟知的,具體有關n-最佳算法的信息在下列著作中被給出語言識別用的統計方法”,(“Statistical methods for speechrecognition,F.Jelinek,MIT Press 1999 ISBN 0-262-10066-5 pp.79-84)。其他算法也可以被實現。特別是“定向搜索”型的其他算法,“n-最佳”算法是它的一個例子。
聲學-語音解碼器和語言解碼器能通過適當的軟件來具體實現,這個軟件上由具有存儲器入口的微處理器執行的,而存儲器則包含識別引擎的算法和聲學模型及語言模型。
本發明也涉及語言模型,以及它在識別引擎中的應用。
下列四個句法規則常用于定義語言模型概率語法。
這四個規則是(a)“Or”符號<符號A>=<符號B>|<符號C>
(b)“And”符號(串聯)<符號A>=<符號B><符號C>
(c)任選單元<符號A>=<符號B>?<任選下標>
(d)詞分配<符號A>=“詞字”需要注意的是只有規則(a)、(b)和(d)實際上是必須的。規則(c)能借助于其余三個規則再生,不過對語言模型的簡縮是不利的。
根據本實施例,語言模型使用一個附加規則,以定義語言模型的概率語法(e)“permutation”(“置換”)符號<符號A>=Permut.{<符號A1>,<符號A2>,…,<符號An>}(<符號Ai>><符號Aj>
,…,<符號Ak>><符號Al>)這表明符號A是n個符號Al,…,An的不重復置換中的任意一個,每次置換時這些符號被用“And”規則連接。
另外,根據本實施例,只有當置換滿足括號之間表示的約束,并讀出“符號Ai在置換中出現在Aj之前,符號Ak出現在Al之前”,這個置換才是句法上有效的。
規則(c)中所定義的任選下標操作如下任選下標是由一個整數和一個布爾值形成的對,它可以是真或是假。
當碰到這樣的重寫規則時,即<符號A>=<符號B>?(任選下標)那么·如果當前任選下標相同的整數在其他規則(這些規則已在語言模型的語法中產生現行狀態)的任選下標中沒有碰到過(現時調查的假設),那么,符號A可能·被用來替換符號B,任選下標被激活;·被替換到空符號,任選下標不被激活。
·如果根據上述規約通過應用同類規則而相同的下標已被激活,那么,規則的有效表示僅僅是·如果布爾下標為真,則用符號A替換符號B;·如果布爾下標為假,則用符號A替換空符號。
置換可在上下文無關的BNF型語言中被表示,即通過第五規則簡單地擴展句法樹,這種擴展完全是利用前面的四個規則而得到的。為了組合,隨著被置換的符號數目地增加,所得到的句法樹將加大尺度。
置換處理是通過棧庫自動化而實現的,因此它是與上下文有關的,并標明在句法搜索過程中,是否已碰到參與置換的組存在,且正確地與次序約束有關。
標準的BNF語法處理是通過圖2所示的目標而實現的。
另一方面,實施例依賴于棧庫自動化,用的是圖3所示的新目標。
為描述句法規則(e)的具體實現,我們將以沒有約束的、由三個句法組成的單個置換句子為例<句子>=置換{<A>,<B>,<C>}
項A,B和C它們本身可以是重復項,用一個或多個置換符號和/或其他符號定義。
用語法表述的通常原則,使用簡單的BNF句法為基礎的語言識別系統,將以下列方式對句子的這種形式進行轉換<句子>=<A><B><C>|<A><C><B>|<B><A><C>|<C><A><B>|<B><C><A>|<C><B><A>。
有3!個組合,由“or”符號(1)連接。句法樹是全然不顯露的,事實上,這個樹表達置換的信息丟失掉了。所述的樹完全存儲在存儲器中,代表語音識別所要求的語言模型。
這個結構在識別引擎的“n-最佳搜索”過成中被用于提出待分析的候選項,這些項將被銜接起來形成句法應允的句子,識別引擎將從其中保留n個最佳,即那些能就所給被記錄的聲信號顯現出最高似然得分的項。
“n-最佳搜索”算法和修剪句法樹分枝的策略相結合,這個策略是在從左至右分析句子的過程中,僅保留n個最佳后選段直至當前分析點。
可以看出,在檢查前面所考慮的這個句子時,在分析的開始,將有六種替換出現在聲學解碼引擎,每種都是三個項目<A>,<B>,<C>的一種組合。有可能從左至右區別兩種組合的三個子組的事實(一個以符號<A>開始,第二個以符號<B>開始,最后一個以符號<C>開始)丟失掉了,引擎將以無差別的方式分析六種結構中的每一種。如果在對這些結構的分析過程中,發現句法結構<A>,<B>和<C>對于修剪是充分復合的,那么,被分析的n個最佳段實際上將被組成為完全相同的結構時,因此,實際上只有n-最佳/2次替換被考慮過。
本發明提出的新穎的處理并沒有搜索空間減小的缺點在語法中存在置換的信息被明確指明的,置換照原樣被處理。
下面,將詳細描述識別引擎在具體實施描述置換的規則(e)時的行為,然后我們將集中描述識別引擎在借助于規則(a)至(d)表示置換的情況下的行為。從這兩種行為比較中,本發明所提供的上述優點將會顯現出來。
按照本發明,當它表現為置換時,圖4和5顯示了識別引擎的行為。
現在著手分析這種置換,圖3表示步驟,對識別引擎選擇句子的第一項來說,出現三種可能符號<A>,符號<B>和符號<C>。用以修剪的“n-最佳”分析被應用于這些結構。引擎首先考慮符號<A>。在如下的左/右分析中,對探索路由<A>的路徑進行協商。
如果它是從被分析的<A>開始的路徑,通過設置被指派到置換和指派到當前檢查的置換的變量,存儲器中的一個邏輯符號便保留這一信息。由引擎管理的這個變量確定在本路徑的其余分析中這個符號<A>不再是激活的,也就是說,它將不再是變量,即不再是沿相同路徑繼續下去的項的后選符號。
更精細地說,分析開始時的狀態如圖4所說明的三個符號<A>,<B>,<C>是激活的,是n-最佳識別算法的候選者。
在搜索過程中,每個替換都被探查。例如,首先是符號<A>被設想。在這個探查過程中,有必要探查由<A>開始的可能的符號串從分析句子第二項的觀點出發,將會是圖5所說明的狀態對分析句子的余下部分,對當前設想的替換者來說,符號<A>不再是變量,因為前面在對被記錄的信號流左/右分析中它已經被用過了。
至此,還有兩個候選符號保留,<B>和<C>。將要對例如符號<B>進行分析的搜索路由,將標明這個符號是激活的,只有符號<C>在其后的解碼中將保留為變量。
按另一方式,根據本發明的識別引擎處理由規則(e)按圖7a所說明的方式定義的置換。所考慮的是識別引擎考察有待分析的句子的序列ⅰ的項。引擎確定可能替換的符號組在以三個符號作為置換例子的情況下,在ⅰ層次上有三個可能的替換者<A>,<B>,<C>。在序列ⅰ+1,現在只有兩個替換者,前面在序列ⅰ被選擇的符號不再被引擎考慮。在序列ⅰ+2,現在沒有可能的選擇。
從考慮n個最佳路徑的觀點來看,顯然,在圖7a的樹的某些節點的層次上,可能的替換者數目的減少,避免了對部分多余路徑的考慮。
通常的語音識別算法(未使用我們發明的機制)的操作,能類似地表示出來。
現在開始解碼,狀態如圖6所示可以看出,開始對句子的分析,識別引擎會想到它面對六種可能。頭兩個以符號<A>開始,在出現與第二項相稱的實際替換者之前,它們的處理將正好是相同的。
因此,直到現在,n-最佳算法為保留最有希望的線索所用的存儲空間,將兩次包含每個搜索假設。
如果組(A)是充分復合的,并且在跟隨<A>的差異項出現之前發生修剪,那么,“n-最佳搜索”算法實際上將僅進行“n/2最佳搜索”次,被分析的每個路由是重復的。
所給的例子是就三個項的置換而言的。對于四個或更多個項的置換,同樣的做法會對識別算法施加更為有害的影響。從識別引擎看來的困惑性大大超過語言模型的實際困惑性。
圖7b說明現有技術的處理六個替換者出現在序列ⅰ,而不是三個。
這個例子表示我們的發明與傳統方法相比,提供了兩個優點,即使不增強語言模型的表達性替代描述句法樹的存儲,它可以用若干存儲器,一個只存儲在置換中出現的項,外加簡單類型的變量,這些變量標明在識別引擎的n-最佳分析的過程中可能激活的句法組。
以BNF語法為基礎的語法置換處理,是不適合于語言識別處理的聲部分勉強采用的n-最佳搜索算法的一個和相同的分析假設被考慮幾次,并且n-最佳常常是n/m-最佳,m依賴于包含在置換中的項數。
所提出的新穎的語言模型旨在用于大詞匯量人機語音對話應用、高度字型變化的文字或自發語言識別。
當符合語法的句子有限時,基于上述規則的語言并不是更能表達的,或者說并不比利用通常的規則表達的NBF型的語言更強。所以,本發明的有利之處不在于新穎語言的表達性,而在于通過語言識別引擎的算法,在句法規則的處理層上的優點。處理所要有的存儲量較少。
另外,新穎的句法規則使語法寫起來容易得多。
由于處理過程依賴于棧庫自動化,不同于現行的解決方法,它特別適用于低成本的機內應用例如在大量銷售的電子裝置中應用。
權利要求
1.一種語音識別裝置,包括用于采集音頻信號的音頻處理器(2)和用于確定與音頻信號相對應的詞序列的語言解碼器(6),其特征在于語言解碼器包括用語法的幫助定義的語言模型(8),該語言模型包含不重復置換符號用的句法規則。
2.根據權利要求1所述的裝置,其特征在于置換符號用的句法規則包括符號表,和約束符號序列的適當表達。
3.根據權利要求1或2所述的裝置,其特征在于語言解碼器包括識別引擎(9),它在將置換的符號指派給一串句項時,只在以前未被指派置換的符號中選擇一個符號指派給定項。
4.根據權利要求3所述的裝置,其特征在于識別引擎執行“定向搜索”或“n-最佳”型算法。
全文摘要
一種語音識別裝置,包括用于采集聲信號的音頻處理器(2)和用于確定與音頻信號相對應的詞序列的語言解碼器(6),其特點在于語言解碼器包括用語法的幫助定義的語言模型(8),該語言模型包含不重復置換符號用的句法規則。
文檔編號G10L15/19GK1298171SQ0013229
公開日2001年6月6日 申請日期2000年11月28日 優先權日1999年11月30日
發明者克里斯托夫·德洛奈, 弗雷德里克·蘇夫萊 申請人:湯姆森多媒體公司