專利名稱:用于調試與語言模型一起使用的類實體詞典的方法和設備的制作方法
技術領域:
本發明涉及語言模型,特別涉及根據用戶輸入來調試語言模型。
背景技術:
語言模型提供了對文本字符串出現的一系列字詞的概率度量。這樣的模型用于語音識別、中文斷詞和語音-字符轉換,如中文中的拼音-漢字轉換,以在已知字詞序列格的情況下識別一個最為可能的序列。例如,在語音識別中,語言模型能識別出短語“go to bed”比語音上相似的短語“go too bed”更為可能。
一般來說,語言模型要在語句庫上訓練。盡管這樣的集在訓練語言模型以處理一般字詞上很有效,但在訓練語言模型以處理專有名詞,如人和事的名稱上,卻不是非常有效。其原因是那些專有名詞在語料庫中發生得不夠頻繁,難以精確模擬。
有些系統允許用戶來糾正由語言模型所犯的錯誤。但是,一個系統即使在得知了該糾正后,也無法根據該糾正來調整語言模型,因為無法估計由該糾正所形成的字詞序列的概率。因此,該系統在以后遇到同樣輸入時,一般會犯同樣的錯誤。
所以,需要一種允許根據由用戶所作糾正來修改語言模型和動態詞典的系統。
發明內容
提供一種根據由用戶所作糾正來擴大具有類實體詞典的語言模型的方法和設備。在該方法和設備下,用戶通過以正確的片斷替換輸出片斷來糾正部分基于語言模型的輸出。將該正確片斷添加到在類實體詞典中的片斷類中,并根據與該輸出片斷相關的n字列概率和與該類相關的n字列概率來估計該正確片斷在該類中的概率。然后用所估計的這一概率來產生進一步的輸出。
圖1是可在其中實現本發明的計算環境的方框圖;圖2是可在其中實現本發明的可替代計算環境的方框圖;圖3是在本發明一實施例下更新類實體詞典的流程圖;圖4是本發明某個拼音-漢字轉換實施例的方框圖;圖5是在本發明某實施例下利用類實體詞典的流程圖;圖6是本發明模式識別系統實施例的方框圖。
具體實施例方式
圖1例示了一個可在其中實現本發明的合適的計算系統環境100的實例。該計算系統環境100只是合適的計算系統環境的一個實例,而無意對本發明的使用范圍或功能作任何限制。該計算系統環境100也不能被解釋為對于在操作環境示例100中所示的任一部分或其組合具有任何依賴或要求。
本發明可以在其它多種一般用途或特殊用途的計算系統環境或配置中運作。可以適合與本發明一起使用的眾所周知的計算系統、環境和/或配置的例子包括,但不限于,個人計算機、服務器計算機、手持或膝上設備、多處理器系統、基于微處理器的系統、機頂盒、可編程消費電子產品、網絡PC、小型計算機、大型計算機、電話系統、包含以上任何系統或設備的分布式計算環境等。
本發明可以在計算機可執行指令的總環境(諸如如由計算機執行的程序模塊)中描述。一般而言,程序模塊包括執行特定任務或實現特定抽象數據類型的過程、程序、對象、組件、數據結構等。本發明也可以在由經通信網絡聯接的遠端處理設備執行任務的分布式計算環境中實現。在分布式計算環境中,程序模塊可以位于包含記憶存儲設備的本地或遠端計算機存儲媒體上。
參照圖1,實現本發明的一個示例系統包含計算機110形式的一般用途的計算設備。計算機110的部件可以包括,但不限于,處理單元120、系統存儲器130、把包括系統存儲器的多種系統部件連接到處理單元120的系統總線121。系統總線121可以是幾種總線結構類型中的任何一種,這幾種總線結構類型包括存儲器總線或存儲器控制器、外圍設備總線、使用多種總線體系結構中任何一種的局部總線。舉例而言,但非限制,這樣的體系結構包括工業標準結構(ISA)總線、微通道結構(MCA)總線、增強ISA(EISA)總線、視頻電子產品標準協會(VESA)局部總線,以及也被稱為“夾層”總線的外圍設備部件互連(PCI)總線。
計算機110一般包含多種計算機可讀取媒體。計算機可讀取媒體可以是可由計算機110訪問的任何可購得的媒體,包括易失的與非易失的媒體、可擦除的與不可擦除的媒體。舉例而言,但非限制,計算機可讀取媒體可以包括計算機存儲媒體和通信媒體。計算機存儲媒體包括以任何方法或技術用于存儲諸如計算機可讀取指令、數據結構、程序模塊或其它數據等信息的易失的與非易失的媒體、可擦除的與不可擦除的媒體。計算機存儲媒體包括,但不限于,RAM、ROM、EEPROM、閃存或其它存儲器技術、CD-ROM、數字通用盤(DVD)或其它光盤存儲器、盒式磁帶、磁帶、磁盤存儲器或其它磁存儲設備,或任何可以用來存儲所期望信息并可由計算機110訪問的其它媒體。通信媒體一般具體表現為某種已調制的數字信號,如某種載波或其它傳輸機制的計算機可讀取指令、數據結構、程序模塊或其它數據。術語“已調制的數字信號”是指一種信號,其一個或多個特征以某種方式被設置或變化,以在該信號中編碼信息。舉例而言,但非限制,通信媒體包括有線媒體如某種有線網絡或直接線纜連接,和無線媒體如聲音、RF、紅外及其它無線媒體。以上所述的任何組合也應包括在計算機可讀取媒體的范圍內。
系統存儲器130包括易失和/或非易失形式的存儲器,如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132。在ROM131中一般存儲基本輸入/輸出系統(BIOS)133,包含了如在啟動的時候幫助在計算機110內的元件間傳輸信息的基本過程。RAM132一般包含可立即由處理單元120訪問和/或正由處理單元120運行的數據和/或程序模塊。舉例而言,但非限制,圖1例示了操作系統134、應用程序135、其它程序模塊136和程序數據137。
計算機110還可以包含其它可擦除/不可擦除、易失/非易失的計算機存儲媒體。僅舉例而言,圖1例示了讀寫不可擦除、非易失磁媒體的硬盤驅動器141、讀寫可擦除、非易失磁盤152的磁盤驅動器151和讀寫可擦除、非易失光盤156,如CDROM或其它光媒體的光盤驅動器155。其它可用于例示操作環境的可擦除/不可擦除、易失/非易失的計算機存儲媒體包括,但不限于,盒式磁帶、閃存卡、數字通用盤、數字錄像帶、固態RAM、固態ROM等。硬盤驅動器141一般經由不可擦除存儲器接口,諸如接口140,連接到系統總線121,而磁盤驅動器151和光盤驅動器155一般通過可擦除存儲器接口,諸如接口150,連接到系統總線121。
以上所討論并在圖1中例示的驅動器及與之相關的計算機存儲媒體為計算機110提供了對計算機可讀取指令、數據結構、程序模塊和其它數據的存儲。例如,在圖1中,硬盤驅動器141被例示為存儲了操作系統144、應用程序145、其它程序模塊146和程序數據147。請注意,這些組件可以與操作系統134、應用程序135、其它程序模塊136和程序數據137相同,也可以與之不同。這里給了操作系統144、應用程序145、其它程序模塊146和程序數據147不同的編號,以最小程度地例示出它們是不同的拷貝。
用戶可以經由輸入設備,如鍵盤162、話筒163和指點設備161諸如鼠標、跟蹤球或觸摸板),來將命令和信息輸入計算機110。其它的輸入設備(未示出)可以包括操縱桿、游戲鍵盤、衛星碟形天線、掃描儀等。這些及其它的輸入設備通常經由接入系統總線的用戶輸入接口160連接處理單元120,但也可以通過其它接口和總線結構,如并行端口、游戲端口或通用串行總線(USB)來連接。監視器191或其它類型的顯示設備也經由諸如視頻接口190的接口連接到系統總線121。在監視器以外,計算機還可以包含其它外圍輸出設備,諸如可以通過外圍輸出接口190連接的揚聲器197和打印機196。
計算機110可以用與諸如遠端計算機180的一臺或多臺遠端計算機的邏輯連接在聯網環境中運作。遠端計算機180可以是個人計算機、手持設備、服務器、路由器、網絡PC、對等設備或其它普通網絡節點,并且一般包括以上關于計算機110所描述的多數或所有元件。在圖1中所描述的邏輯連接包括局域網絡(LAN)和廣域網絡(WAN),也可以包括其它網絡。這樣的聯網環境在辦公室、企業范圍計算機網絡、內聯網和互聯網中是很平常的。
當在LAN網絡環境中使用時,計算機110通過網絡接口或適配器170連接到LAN 171。當在WAN網絡環境中使用時,計算機110一般包含調制解調器172或其它在WAN 173(諸如互聯網)上建立通信的手段。調制解調器172,可以是外置的或內置的,可以經由用戶輸入接口160或其它適當的機制連接到系統總線121。在聯網環境中,關于計算機110所描述的程序模塊,或其部分,可以存儲在遠端的記憶存儲設備中。舉例而言,但非限制,圖1將遠端應用程序185例示為駐留在遠端計算機180上。可以意識到,所示的網絡連接是示例性的,還可以使用其它在計算機間建立通信鏈路的手段。
圖2是移動設備200的方框圖,這是一個可作替代的示例性計算環境。移動設備200包含微處理器202、存儲器204、輸入/輸出(I/O)部件206,以及用于與遠端計算機或其它移動設備通信的通信接口208。在某實施例中,前述這些部件通過合適的總線210互相連接進行通信。
存儲器204以非易失電子存儲器,如帶有電池后備模塊(未示出)的隨機存取存儲器來實現,這樣當至移動設備的通用供電關閉時,存儲在存儲器204中的信息也不會丟失。存儲器204的一部分最好被分配成用于程序執行的可尋址存儲器,而存儲器204的另一部分最好被用于存儲,諸如用于模擬在硬盤驅動器上的存儲。
存儲器204包含操作系統212、應用程序214以及對象庫216。在操作過程中,操作系統212最好是由處理器202從存儲器204中執行。在一較佳實施例中,操作系統212是Microsoft Corporation的可商用的WINDOWSCE商標操作系統。操作系統212最好是針對移動設備設計,并實現可由應用214通過一些公開的應用編程接口與方法來利用的數據庫特性。在對象庫216中的對象由應用214及操作系統212至少部分地響應對公開的應用編程接口與方法的調用而予以維持。
通信接口208代表了可以讓移動設備200發送與接收信息的多種設備和技術。這樣的設備略舉幾種,包括有線與無線調制解調器、衛星接收機和廣播調諧器。移動設備200還可以直接與計算機相連接。以與之交換數據。在這種情況下,通信接口208可以是能夠傳輸流信息的紅外收發器或串行或并行通信連接。
輸入/輸出部件206包括多種輸入設備,如某種可感知觸摸的屏幕、按鈕、滾輪和話筒,以及多種輸出設備,包括音響發生器、振動裝置和顯示器。上面所列的設備是舉例而言的,并不需要統統出現在移動設備200上。此外,在本發明的范圍內,其它的輸入/輸出設備也可以被附屬于移動設備200或出現在移動設備200上。
本發明為在多個應用中使用與調試統計學的語言模型及基于類的詞典提供了一種手段。統計學的語言模型提供了字詞序列在語言中出現的概率。n字列語言模型一般定義字詞序列的概率為Pr(H)=Pr(w1)*Pr(w2|w1)*…*Pr(wi|wi-(n-1),…,wi-1)*…*Pr(wt|wt-(n-1),…,wt-1)(方程式1)其中H是字詞序列w1,w2,…,wt,t為該序列中的字詞數,n-1為已用于預測下一字詞的已過字詞的數量,而Pr(wi|wi-(n-1),…,wi-1)為第i個字詞在已知前面n-1個字詞時的概率。如此在二字列語言模型中n=2,而在三字列語言模型中n=3。
統計學的語言模型的一個問題是它們無法為未知的或罕用的字詞,如專有名詞提供精確的概率。為克服這一點,本發明使用了一種基于類的語言模型。
在本發明的基于類的語言模型中,該模型對字詞類與單個字詞的序列進行預測。為做到這一點,當在一個或多個字詞處使用一個類時,應修改方程式1。例如,對于一個三字列語言模型,所計算的與一個類記號N相關的概率為Pr(H)=…*Pr(wi-1|wi-3,wi-2)*Pr(Ti|Ni)*Pr(Ni|wi-2,wi-1)*Pr(wi+1|wi-1,Ni)*…Pr(wi+2|Ni,wi+1)*…(方程式2)其中,為求簡化,只顯示了類概率附近的那些概率,Ni是在序列中第i個位置的類,Ti是類N中的一個實體,而Pr(Ti|Ni)指提供已知類N時實體T的概率的內部概率。在某實施例中,該內部概率由定義在每個類中所出現字詞的類實體詞典來提供。在一實施例中,該類實體詞典提供了一套定義在特定類中所出現已知字詞的語法規則。例如,針對類[名字]的上下文無關語法可以包含“Hank Hanson”規則。外部概率(某個類在前面字詞中的概率)由基于類的語言模型提供。
基于類的語言模型有助于克服與某些類的字詞(諸如專有名詞)相關的稀少問題。這樣的字詞在訓練數據中出現得如此稀少,以至于不使用類的語言模型將總是會傾向于更為普通的字詞,而不是這些少用的字詞。通過使用類,本發明的語言模型增大了類被識別出來的概率,因為在訓練數據中一個字詞類比該類中的單個字詞發生得更為頻繁。
基于類的語言模型或類實體詞典在使用前,必須先訓練。在一實施例中,基于類的語言模型或類實體詞典通過首先標記訓練語料庫,以根據一套試探法來標識在類范圍內的字詞,而初始地訓練。這套試探法提供了一套根據輸入中的其它字詞來預測某個類字詞位置的規則。例如,如果動詞“叫”是一個輸入的字詞,則試探法規則能指示可以將“叫”的后一個或后兩個詞考慮成[名字]類的部分(如,“叫Jack Jones”)。
用試探法所標識出的字詞將由它們的類來替代,然后用標準訓練法來按語料庫中的字詞和類訓練基于類的語言模型。
類實體詞典通過將每個類中所標識的字詞劃分成子部分來初始地訓練。然后在標準n字列訓練技術中用這些子部分來標識這些字詞在類中的概率。這樣的概率就構成了類的內部概率。
本發明在另外的方面提供了根據用戶的輸入而對類實體詞典和基于類的語言模型的更新與擴充。特別是,在用戶改變某個已譯解的字詞序列時,類實體詞典可得以擴充,這樣修改后的序列就包含了某個不在類實體詞典中的字詞。例如,如果基于類的語言模型和類實體詞典譯解了字詞序列“寫一封信給Phil”,而用戶將該序列改變為“寫一封信給Bill”,則“Bill”如果以前不在類實體詞典中,就將會被添加到類實體詞典中。
為了在類實體詞典中添加一個實體,必須確定該實體的內部概率。如上面所記述,內部概率提供了已知類時實體的概率。這一概率無法準確計算,因為沒有足夠的數據來確定已知該類時該實體的概率。取而代之的是,在本發明的實施例中,通過假設該實體內部概率和該類的語言模型概率的乘積至少應該等于由譯解器所不正確地標識的字詞的語言模型概率,來估計這一內部概率。
以一個對三字列語言模型的方程式而言,這一假設為Pr(Ti|Ni)*Pr(Ni|wi-2,wi-1)=Pr(pi|wi-2,wi-1) (方程式3)其中Pr(Ti|Ni)為已修改的實體Ti在類Ni已知時的內部概率,Pr(Ni|wi-2,wi-1)為類Ni在序列中前面兩個字詞已知時的語言模型概率,而Pr(pi|wi-2,wi-1)為先被譯解而后又被修改形成修改后實體Ti的不正確實體pi的語言模型概率。
利用這一假設,就可以估計內部概率為Pr(Ti|Ni)=Pr(pi|wi-2,wi-1)Pr(Ni|wi-2,wi-1)]]>(方程式4)然而,這一估計高度依賴于序列中前面的字詞。為減少這一依賴而使估計更為通用,該概率可以重新寫為Pr(Ti|Ni)=Pr(pi|<unknown>i-2,<unknown>i-1)Pr(Ni|<unknown>i-2,<unknown>i-1)]]>(方程式5)其中Pr(pi|<unknown>i-2,<unknown>i-1)代表pi在任何兩個前面字詞給定時的概率,而Pr(Ni|<unknown>i-2,<unknown>i-1)代表Ni在任何兩個前面字詞給定時的概率。請注意,通過以<unknown>標記替代前面的字詞,并確定pi和Ni在<unknown>標記給定時的概率,Pr(pi|<unknown>i-2,<unknown>i-1)和Pr(Ni|<unknown>i-2,<unknown>i-1)得以在訓練過程中存儲入語言模型。
在為所修改的實體估計出概率后,就可以將所修改的實體和所估計的內部概率添加到類實體詞典中適當的類下。
用戶對所譯解字詞序列的修改并不總是包含沒有出現在類實體詞典中的字詞。取而代之的是,原來所譯解的字詞或已修改的字詞都可以出現在類實體詞典中。圖3提供了用于根據用戶的修改確定如何來改變類實體詞典的步驟的流程圖。
總的來看,圖3中的過程可以以三種方式來調整內部概率。對于已經在類實體詞典中的修改過的字詞來說,該字詞未得到譯解的事實說明其內部概率過低。因此,其概率需要增高。對于已經在類實體詞典中的已譯解的字詞來說,用戶修改該字詞的事實說明所譯解字詞的內部概率過高。因此,其概率需要降低。對于不在類實體詞典中的已修改的字詞來說,所修改的字詞需要添加到詞典中,并用上面的方程式5來計算其初始概率。
為確定要采取哪種調整,圖3中的過程開始于步驟300,在該步驟中檢查經過用戶修改所產生的字詞序列,以判定所修改的字詞是否在類實體詞典中。如果所修改的字詞在類實體詞典中,則在步驟320進行所修改的字詞是否僅發現在單個類中的判定。
如果所修改的字詞發現在多于一個的類中,則利用基于類的語言模型,通過使用單獨序列中每一可能的類,并標識出提供最大概率的序列,來選擇最為可能的類。在圖3中這被顯示為步驟322。
如果在步驟320中所修改的字詞僅發現在單一類中,或者在步驟322中標識出一個類后,則需要調整所修改字符的內部概率,因為即使所修改的字詞在類實體詞典中,由于其內部概率過低,譯解器也沒能從輸入中標識出它們。為糾正這一情況,在步驟324中提高存儲在類實體詞典中的所修改字符的內部概率。在某些實施例中,通過乘以一個1.5的因子來提高該內部概率。
如果在步驟300中所修改的字符不在類實體詞典中,則在步驟302中使用一套試探法來確定所修改字符的類。然后用這些類中的每一個來與其它已譯解的字詞組建單獨的序列或詞語。而后用基于類的語言模型來標識最為可能的序列,從而標識出所修改字詞的最可能的類。
如果在步驟304中可以對所修改的字詞標識出類,則在步驟308中用上面的方程式5來確定所修改字詞的內部概率,并在步驟310中將所修改的字詞及概率添加到類實體詞典中。
如果在步驟304中對所修改的字詞無法標識出類,則在步驟312中檢查已譯解并由用戶所修改的字詞,以判定該已譯解的字詞是否在類實體詞典中。如果在步驟312中該已譯解的字詞在類實體詞典中,則該已譯解字詞而非所修改字詞被標識出來的事實意味著該已譯解字詞的內部概率被設置得過高。為糾正這一情況,在步驟314中降低該已譯解字符的內部概率。在許多實施例中,該內部概率降低1/1.5。(換句話說,就是將該內部概率除以1.5來形成新概率)。
如果在步驟312中該已譯解的字詞不在類實體詞典中,則既然該已譯解字詞與所修改的字詞都不在某個類的范圍內,就不需要對類實體詞典做任何改變。因此,在步驟318中類實體詞典不變。
本發明中的基于類的語言模型及更新基于類的語言模型的方法可以用于許多系統。例如,圖4提供了一個可以在圖1和2的環境中實現并利用本發明某個實施例的語音-字符轉換系統400的方框圖。在圖5的流程圖中顯示了這一系統的運作。
在圖5的步驟500中,將語音輸入402,即出現在基于字符的語言如漢語、日語或朝鮮語中的字符的語音描述,提供給譯解器404。在漢語中,語音輸入的一種具體形式是拼音輸入。在步驟502中,譯解器404首先用詞典406建立一個可以以該語音輸入表示的字詞格。然后在步驟504中通過使用類實體詞典412和試探法規則416從該格的字詞中標識類實體來對該格進行擴充。所標識出的類將作為單獨的節點而添加到該格中。
在步驟506中,譯解器404利用提供路徑上每個字詞表示一個語音段的概率的語音模型408、提供類的內部概率的類實體詞典、提供字詞和/或類的序列發生在語言中的概率的語言模型310,以及上面的方程式2,為經過該格的每條路徑確定概率。然后在步驟508中將提供最高概率的路徑上的字詞序列作為所譯解的字詞串輸出。
在所譯解出的序列提供給用戶后,系統可以在步驟510中接收用戶的修改。這樣的修改指示出用戶通過其輸入所想要的正確字詞。在步驟512中,檢查這一修改,以確定如何用它來使用圖3中的過程改變類實體詞典。特別的是,類析取單元422使用試探法416和類實體詞典412來為所修改的字詞標識類,并判定所譯解的字詞或所修改的字詞是否在類實體詞典中。而后一個概率確定單元424如在上面圖3中所指示的那樣,計算所修改字詞(如果它沒有出現在詞典中)的概率,或為所修改的字詞或所譯解的字詞確定新的概率,以改善譯解器的表現。
在第二個實施例中,本發明的基于類的語言模型用于語音識別系統,諸如圖6中的語音識別系統。在圖6中,來自說話者600的輸入語音信號和加性噪聲602通過與模數(A/D)轉換器606連接的話筒604轉換成電信號。
A/D轉換器606將來自話筒604的模擬信號轉換成一系列數字值。在若干實施例中,A/D轉換器606以16kHz與每次采樣16比特來對模擬信號進行采樣,從而生成每秒32千字節的語音數據。
由A/D轉換器606所生成的數字數據供給可任選的降噪模塊608,該模塊用一種或多種降噪技術來消除該數字信號中的部分噪聲。
降噪模塊608的輸出供給從該數字信號中析取特征的特征析取器600。特征析取模塊的實例包括用于執行線性預測編碼(LPC)、源于LPC的倒譜、感知線性預測(PLP)、聽覺模型特征析取和Mel頻標倒譜系數(MFCC)特征析取的模塊。請注意,本發明并不限于這些特征析取模塊,其它的模塊也可以用于本發明的環境中。
特征析取模塊從降噪模塊接收數字值的流,并生成特征向量的流,其中每一個特征向量都與一幀語音信號相關。在許多實施例中,幀的中央以10毫秒間隔。
請注意,盡管在圖6的實施例中降噪模塊608被顯示在特征析取器600之前,但在其它實施例中,降噪模塊608出現在特征析取器600之后。
由析取模塊所生成的特征向量流供給譯解器612,譯解器612根據該特征向量流、特殊詞匯614、語言模型616、聲學模型618、試探法規則622和類實體詞典620來識別出一個最為可能的字詞序列。
聲學模型618提供了由語言單元如元音素、音素、雙音素或三音素的發音來產生某個輸入特征向量的概率。
譯解器612使用語言模型616、類實體詞典620和試探法規則622的方式與譯解器404使用語言模型410、類實體詞典412和試探法規則416的方式相似。
根據聲學模型、語言模型、特殊詞匯、類實體詞典和試探法規則,譯解器612從所有可能的字詞序列中識別出一個最為可能的字詞序列。具體而言,譯解器612使用圖5中的步驟500、502、504、506和508來標識該最為可能的字詞序列。
然后該最為可能的字詞序列要受到可能的用戶修改630。如果用戶修改了所譯解的序列中的字詞,則所修改的字詞將被提供給類析取單元632和概率確定單元634,其運作方式與圖4中的類析取單元422和概率確定單元424相似。而后,利用圖3中的過程,就能根據用戶對所譯解字詞的修改來修改類實體詞典620。
盡管本發明是參照特殊的實施例所描述,相關技術的熟練工作者將認識到,可以不背離本發明的精神和范圍,而在形式與細節上作出改變。
權利要求
1.一種譯解輸入的方法,所述方法包含從輸入中識別可能的字詞序列;使用基于類的語言模型和類實體詞典來從可能的字詞序列中選擇一個作為輸出序列;其特征在于,所述方法包括接收對輸出序列所作的修改,并且使用該修改來改變類實體詞典。
2.一種計算機可讀取媒體,具有用于執行以下步驟的計算機可執行指令部分地根據為至少一個類的實體提供概率的類實體詞典來產生字詞序列;接收對該字詞序列的修改,使該字詞序列中的已譯解實體修改成已修改的實體;并且其特征在于至少部分地根據已譯解實體與已修改實體中的至少一個來設定類實體詞典中實體的概率。
3.如權利要求1所述的方法,其特征在于,使用修改來改變類實體詞典包含了使用修改來將實體添加到類實體詞典中。
4.如權利要求3所述的方法,其特征在于,添加實體進一步包含了估計所添加的實體在給定該實體所加入的類時的概率。
5.如權利要求4所述的方法,其特征在于,估計該實體的概率包含了部分地根據與輸出序列中已譯解實體相關的概率來估計概率。
6.如權利要求6所述的方法,其特征在于,估計該實體的概率包含了根據與已譯解實體相關的n字列概率和與在修改中被修改的實體所加入的類相關的n字列概率來估計概率。
7.如權利要求1所述的方法,其特征在于,使用修改來改變類實體詞典包含了提高與類實體詞典中的實體相關的概率。
8.如權利要求1所述的方法,其特征在于,使用修改來改變類實體詞典包含了降低與類實體詞典中的實體相關的概率。
9.如權利要求2所述的計算機可讀取媒體,其特征在于,設定在類實體詞典中實體的概率包含了將所修改的實體添加到類實體詞典中并為所修改的實體選擇概率。
10.如權利要求9所述的計算機可讀取媒體,其特征在于,為所修改的實體選擇概率包含了根據與已譯解實體相關的概率來估計概率。
11.如權利要求10所述的計算機可讀取媒體,其特征在于,估計概率包含了根據與已譯解實體相關的n字列概率和與類實體詞典中的類相關的n字列概率來估計概率。
12.如權利要求2所述的計算機可讀取媒體,其特征在于,設定實體的概率包含了提高實體的概率。
13.如權利要求2所述的計算機可讀取媒體,其特征在于,設定實體的概率包含了降低實體的概率。
全文摘要
提供一種根據由用戶所作糾正來擴大具有類實體詞典(412)的語言模型(410)的方法和設備。在該方法和設備下,用戶通過以正確的片斷替換輸出片斷來糾正部分地基于語言模型的輸出。將該正確片斷添加到在類實體詞典(412)中的片斷類中,并根據與該輸出片斷相關的n字列概率和與該類相關的n字列概率來估計該正確片斷在給定該類時的概率。然后用所估計的這一概率來產生進一步的輸出。
文檔編號G10L21/00GK1419184SQ0215069
公開日2003年5月21日 申請日期2002年11月13日 優先權日2001年11月13日
發明者陳正, 高劍峰, 李明鏡, 章鋒 申請人:微軟公司