專利名稱:自動檢測文件中搭配錯誤的系統和方法
背景技術:
本發明涉及機助寫作系統和方法,特別涉及幫助用非本國語言寫作的用戶的系統和方法。
隨著全球經濟的不斷增長和國際因特網迅速發展,世界各國人民越來越熟悉用非本國語言進行寫作。令人遺憾的是,對文化和寫作風格具有很大差異的的某些朋友來說,用某些非本國語言進行寫作的能力是一直存在的缺陷。當用非本國語言(如英語)進行寫作時,講非本國語言的人(例如,講中文、日語、朝鮮語和其它語言的人)常常會犯語言使用的錯誤。這種錯誤可以包括語法錯誤和不當搭配如動賓搭配、形容詞名詞搭配、副詞動詞搭配等的錯誤。
許多人具有能用正確語法使用非本國語言進行寫作的能力,但是他們仍然可能與兩詞間的搭配的錯誤作斗爭。其它人仍然要與語法錯誤和諸如兩詞間搭配的其它錯誤作斗爭。雖然拼寫校對和語法校對程序和系統對糾正語法錯誤是有用的,但是檢測和/或糾正詞間搭配錯誤會是困難的,尤其是這些困難可以是在語法上是正確的情況下。因此,語法檢驗程序通常對檢測詞間搭配錯誤只能提供很少的幫助,如果能的話,也是檢測涉及詞間搭配錯誤。在下面的討論中,英語作為非本國語言的例子,但這些問題也會出現在其它語言中。
舉例來說,考慮以下句子,其包含搭配錯誤,從而造成該句子即使在語法上正確也不是標準英語的狀況。
1.Open the light(開燈)。
2.Everybody hates the crowded traffic on weekends(每個人討厭周末的擁擠交通)。
3.This is a check of US $ 500(這是500美元的支票)。
4.I congratulate you for your success(我對您的成功表示祝賀)。
這些句子的標準英語應該如下1.Turn on light.
2.Everybody hates the heavy traffic on weekends.
3.This is a check for US $ 500.
4.I congratulate you on your success.
作為講非本土英語的人所面臨的困難的例子,我們來考慮中國用戶的境況。由于文化、背景和思維習慣的原因,中國人常常寫出符合語法但不是標準的英語句子。例如,中國人會把中文的主語直接翻譯成英文的主語,并以同樣的方法處理賓語和動詞。當用英語寫作時,中國人在處理動詞和介詞、形容詞和名詞、動詞和名詞等之間的搭配時,常常會有困難。而且,在特殊領域如商業領域,需要專門的寫作技巧和風格。
普通辭典主要用來給非本國語言說話人作閱讀之用(一種譯碼過程),但是這些辭典不能對寫作提供足夠的支持(一種編碼過程)。它們只提供一單詞的解釋,而它們通常不提供解釋相關詞組和搭配的足夠信息。而且,即使這些辭典提供了某些信息,也沒有簡便的方法來得到這種信息。另一方面,目前廣泛使用的語法檢驗工具局限于檢測容易發生的語法錯誤,但不能檢測搭配的錯誤。
盡管上述問題是結合講本土中文的人進行英文寫作來說的,但是,這些問題,對用第一(非本國)語言進行寫作,而講第二(本國)語言的人來說,是共有的。針對這些問題,用來幫助講非本國語言人沒有搭配錯誤地準備文件的系統和方法,在這個領域將是一個很大的進步。進一步來說,供這種系統和方法使用的一種構筑搭配錯誤模式或樣板的數據庫的改良方法,也是個很大的進步。
發明概述本發明提供了一種可供應用第一種語言進行寫作、但其本國語言為第二種語言的人使用的語言搭配錯誤模式數據庫的構筑方法和計算機可讀媒體。該方法包括獲得一由第一語言句子和第二語言句子組成的雙語語言資料庫,從該語言資料庫的第二語言句子中提取第二語言詞對。對從語言資料庫中提取的每個第二語言詞對,從語言資料庫中相應第一語言句子中提取相應的第一語言詞對,為第二語言詞對確定一正確的第一語言譯文。同樣,對從語言資料庫中提取的每個第二語言詞對,建立一組與第二語言詞對相應的、由第一語言翻譯詞構成的組合。最后,對從語言資料庫中提取的每個第二語言詞對,從由第一語言翻譯詞構成的組合中去除正確的第一語言譯文,使得該組合代表與第二語言詞對相應的一組搭配錯誤的第一語言詞對。
附圖的簡要說明
圖1是可以實施本發明的一種計算環境的方框圖。
圖2是可以實施本發明的另一種計算環境的方框圖。
圖3是用于糾正搭配錯誤的錯誤模式或樣板數據庫的構筑方法的流程圖。
圖4是說明詞調整的數據流程圖。
圖5是用來構筑搭配錯誤模式或樣板數據庫的一系統的方框圖。
圖6是用按照本發明建造的錯誤模式或樣板數據庫來糾正搭配錯誤的一系統的方框圖。
實施例的詳細說明本發明直接有關檢測非本國語言人進行非本國語言寫作時經常出現的典型語言用法錯誤的系統和方法。本發明包括用于此過程的構筑搭配錯誤數據庫的系統和方法。本發明是結合其本國語言不是英語(如中文、日語、朝鮮語等),但用英語進行寫作的人來介紹的。但是,本發明可應用于其它語言范圍中所遇到的類似問題。這些錯誤包括諸如動詞和賓語、形容詞和名詞、副詞和動詞等的不當搭配的使用。與在字處理系統中廣泛使用的拼寫校驗和語法校驗不同,本發明旨在檢測兩詞間的搭配錯誤。這些錯誤可以是語法的,也可以是非語法的。
圖1表示可以實施本發明的一合適的計算系統環境100的例子。該計算系統環境100僅是合適計算環境的一個例子,并不是用來限制本發明的使用范圍或功能。也不能把計算環境100解釋為對例示的操作環境100中任何組件或其組合有依賴關系或要求。
本發明可與許多其它通用或專用計算系統環境或配置一起運行。適用于本發明的眾所周知的計算系統、環境和/或配置的例子,包括但不局限于個人計算機、服務器計算機、手持設備或膝上設備、多處理器系統、基于微處理器的系統、機頂盒、可編程消費者電子品、網絡PC、小型機、大型機、電話系統、包括上述系統和設備之一的分布式計算環境和類似的計算機。
本發明可以在計算機可執行指令諸如由計算機執行的程序模塊的一般情況下進行描述。程序模塊通常包括例行程序、程序、目標、組件、數據結構等,可執行特殊任務或實現特別抽象數據類型。本發明也可在分布式計算環境中實施,在該環境中,任務是由通過一通信網絡與之相連的遠程處理裝置來執行的。在分布式計算環境中,程序模塊可以設置在包括存儲器存儲裝置在內的本地和遠程的存儲介質中。
參考圖1,實施本發明的一示例系統包括以計算機110方式的通用計算裝置。計算機110的組件可包括,但不局限于,處理單元120,系統存儲器130,把各種系統組件包括系統存儲器至處理單元120相連的系統總線121。該系統總線121可以是幾種總線結構中的一種,包括存儲器總線或存儲器控制器,外圍總線和使用多種總線結構中一種總線結構的本地總線。作為例子但不局限于此,這種結構包括工業標準結構(ISA)總線、微通道結構(MCA)總線、增強ISA(EISA)總線、視頻電子產品標準協會(VESA)本地總線和被稱為曼贊寧總線的外圍部件互連(PCI)總線。
計算機110通常包括各種計算機可讀媒體。計算機可讀媒體可以是由計算機110存取的任何現有媒體,包括任何易失和非易失媒體,可擦除和不可擦除媒體。作為例子,但不局限于此,計算機可讀媒體可包括計算機存儲媒體和通信媒體。計算機存儲媒體包括用任何方法或信息存儲技術如計算機可讀指令、數據結構、程序模塊和其它數據可實現的任何易失和非易失媒體,可擦除和不可擦除媒體。計算機存儲媒體包括,但不局限于此,RAM、ROM、EEPROM、快速存儲器或其它存儲技術、CD-ROM、數字通用磁盤(DVD)或其它光盤存儲器、盒式磁帶、磁帶、磁盤存儲器或其它磁性存儲裝置、或者其它可用來存儲所需信息并可用計算機110存取的任何其它媒體。通信媒體通常包括計算機可讀指令、數據結構、程序模塊或其它以調制數據信號如載波或其它運載機制形式表示的數據,并包括任何信息傳送媒體。所謂“經調制的數據信號”,指其一種或多種特性被設置或改變成可在信號中編碼的信號。作為例子,但不局限于此,通信媒體包括有線媒體,例如有線網絡或直接有線網絡連接,和無線媒體,例如聲的、射頻的、紅外的和其它無線媒體。所述的任何結合也應包括在計算機可讀媒體的范圍中。
系統存儲器130包括以易失和/或非易失存儲器方式的計算機存儲媒體,如只讀存儲器(ROM)131和隨機存取存儲器(RAM)132。一基本輸入/輸出系統133(BIOS)包含可幫助在計算機110內部件間如在啟動時傳遞信息的基本例行程序,通常儲存在ROM 131中。RAM 132通常包含可即時對其存取和/或用處理單元120在其上面進行操作的數據模塊和/或程序模塊。作為例子,但不局限于此,圖1用圖說明操作系統134、應用程序135、其它程序模塊136和程序數據137。
計算機110也可包括其它可擦除/不可擦除、易失/非易失的計算機存儲媒體。僅作為例子,圖1示出了可對不可擦除、非易失磁性媒體進行讀寫的硬盤驅動器141、可對可擦除、非易失磁盤152進行讀寫的磁盤驅動器151和可對可擦除、非易失光盤156如CD ROM或其它光存儲媒體進行讀寫的光盤驅動器155。其它可用于所示操作環境的可擦除/不可擦除、易失/非易失的計算機存儲媒體包括,但不局限于此,盒式磁帶、快速存儲卡、數字多用途光盤、數據視頻帶、固態RAM、固態ROM等,或類似的計算機存儲媒體。硬盤驅動器141通常,通過一不可擦除存儲器接口如接口140,與系統總線121相連,磁盤驅動器151和光盤驅動器155通常,通過一可擦除存儲器接口如接口150,與系統總線121相連。
上述討論并示于圖1中的這些驅動器及其相關的計算機存儲媒體,為計算機110提供了計算機可讀指令、數據結構、程序模塊和其它數據的儲存。例如,在圖1中,硬盤驅動器141表示用來存儲操作系統144、應用程序145、其它程序模塊146和程序數據147。請注意,這些組件可以與操作系統134、應用程序135、其它程序模塊136和程序數據137相同,也可以與它們不同。操作系統144、應用程序145、其它程序模塊146和程序數據147在此給予不同的編號,至少說明它們是不同的復制品。
用戶可通過輸入設備如鍵盤162、話筒163和諸如鼠標、軌跡球或觸摸板的指點器161,把指令和信息輸入到計算機110。其它輸入設備(未示出)可包括控制桿、游戲板、衛星盤、掃描器等,或類似的裝置。這些和其它輸入設備通常通過與系統總線相連的用戶輸入接口160,與處理單元120連接,但也可經由其它接口和總線結構,例如并行端口、游戲端口或通用串行總線(USB),進行連接。監示器191或其它類型的顯示器也可通過諸如視頻接口190接口連接到系統總線121。除監視器外,計算機也可包括其它外圍輸出裝置,如擴音器197和打印器196,它們通過輸出外圍接口190相連。
計算機110利用與一個和幾個遠程計算機如遠程計算機180的邏輯連接,可在一網絡環境中運行。遠程計算機180可以是個人計算機、手持裝置、服務器、路由器、網絡PC、同級設備或其它普通網絡節點,一般包括上述與計算機110有關的許多或所有器件。圖1中所所述的邏輯連接包括局域網(LAN)171和廣域網(WAN)173,但也可包括其它網絡。這種網絡工作環境常見于辦公室、全企業的計算機網絡、局內網和國際互聯網。
當應用于LAN網絡環境時,計算機110通過網絡接口或適配器170與LAN171相連。當應用于WAN網絡環境時,計算機110一般包括調制解調器172或可在WAN173如國際互聯網上建立通信的其它裝置。可以是內部的也可以是外部的調制解調器172,通過用戶輸入接口160或其它合適的機制,可與系統總線121相連接。在網絡環境中,與所述計算機110及其構成部分相關的程序模塊,可儲存在遠程存儲器存儲裝置中。作為例子,但不局限于此,圖1說明遠程應用程序185留駐在遠程計算機180上。可以理解成,所示的網絡連接是例示性質的,也可采用可在計算機之間建立通信鏈路的其它裝置。
圖2是作為示例的計算環境的移動設備200的方框圖。移動設備200包括微處理器202、存儲器204、輸入/輸出(I/O)器件206和用來與遠程計算機或其它移動裝置進行通信的通信接口208。在一實施例中,上述器件在一合適總線210互相進行通信相連。
存儲器204可用諸如帶電池后備模塊(未示出)的隨機存取存儲器(RAM)的非易失電子存儲器來實施,使儲存在存儲器204中的信息在移動設備200的總電源關閉時不會丟失。存儲器204的一部分最好配置成程序執行用的可尋址存儲器,而存儲器204的另一部分最好用于儲存,如模擬磁盤驅動器的儲存。
存儲器204包括一操作系統212、應用程序214和目標存儲器216。在操作中,操作系統212最好由處理器202從存儲器204來執行。在一較佳實施例中,操作系統212是來自微軟公司的商用WINDOWSCE牌操作系統。操作系統212最好為移動設備設計的,提供數據庫特點,該特點是通過一組外露應用編程接口和方法由應用程序214來使用。目標存儲器216中目標由應用程序214和操作程序212來維持,至少部分地響應對外露應用編程接口和方法的呼叫。
通信接口208代表可使移動設備200發送和接收信息的許多設備和技術。這些設備包括有線和無線調制解調器、衛星接收器和廣播調諧器等等。移動設備200也能直接和與其交換數據的計算機連接。在這種情況下,通信接口208可以是紅外接收器或串行或并行通信連接,這些都能發送流式信息。
輸入/輸出器件206包括各種輸入設備,如觸敏屏幕、按鈕、滾輪和話筒以及包括聲音發生器、振動裝置和顯示器在內的各種輸出設備。上述設備作為例子,并不需要全部出現在移動設備200上。此外,可附屬在移動設備上或出現在移動設備上的其它輸入/輸出設備,都在本發明的范圍中。
根據本發明的各種情況,提出申請的是可自動檢測用第一語言(如英語)書寫的文件中的搭配錯誤的系統和方法,該文件由其第一語言為非本國語言的用戶(如中國用戶,或更一般的由其本國語言為不同于第一語言的第二語言的用戶)用第一語言書寫的。本發明的一個方面揭示了構筑搭配錯誤的檢測/推薦模式數據庫的一改進方法。本發明的另一方面,使用匹配算法和數據庫來檢測書寫文件中的搭配錯誤,并提供糾正搭配錯誤的建議。
1.構筑一檢測/推薦模式數據庫數據庫的構筑或采集過程是用大型句子調整雙語(本例為中文-英文)資料庫的應用來支持的。對在雙語資料庫中的中文句子進行語法分析,以得到詞間的依賴關系。對資料庫中的中文詞來說,詞調整技術被用來從資料庫中的相應英文句子中確定它們的正確的英文譯文詞。然后,抽取特殊依賴結構的詞對及其相應的譯文。例如,可以從資料庫中抽取具有動-賓依賴關系和形容詞-名詞關系的所有詞對及其相應的英文譯文。一個例子示于表1中。
表1
用這種方法,可得到一描述中文詞組及其正確譯文的大型數據庫。中文詞對和其正確的英文譯文的對應是附帶注釋的。然后,英文詞由該相應中文詞的各種可能的英文譯文來替代。對每個有特定依賴結構的中文詞對來說,英文譯文詞的所有可能的組合,除用句子和詞調整標出的正確譯文的相應組合外,被儲存在錯誤模型數據庫中。上面一般介紹的構筑搭配錯誤模式數據庫的過程,用圖3所示的流程圖300作更詳細的說明。錯誤模式數據庫的構筑方法,不僅從種屬上結合可幫助講第二語言的本國人進行第一語言書寫之用的數據庫構筑,而且更具體地結合可幫助講中文的本國人糾正用英文書寫的搭配錯誤之用的數據庫構筑,在圖3中加以說明。
如在305所示,獲得一句子已調整的雙語資料庫。一般來說,一大型雙語資料庫在產生搭配錯誤模式數據庫方面,比一較小的資料庫更有用。同樣,雙語資料庫應進行句子調整,使兩種語言的每個句子中包含的詞和短語相關聯。該句子調整雙語資料庫既可用現有技術來構筑,也可從其它來源來獲得。
然后,詞調整技術被用來調整第一種語言(如英文)的句子和第二種語言(如中文)的句子之間的詞和短語,如310所示。只要構筑或獲得了句子和詞調整雙語資料庫,步驟305和210就可在各種實施例中結合起來。第一語言(如英語)中句子和第二語言(如漢語)中句子間的詞調整,可使用多種詞調整技術或手法來實現。通常,這些手法使第一語言中句子中的詞或詞組與在雙語資料庫中的第二語言中句子中相應的詞或詞組相互關聯。結合圖4,對詞調整手法的例子進行簡短討論,但是,本發明的方法不是用來對任何特殊的詞調整手法作限制。
現在參考圖4,示出的是一數據流程圖,說明應用于本發明中一些實施例中的詞調整手法。圖4表示在一詞調整過程中,源語言輸入句子350和研究中的例子360輸入到作為雙語辭典調整器362運行的第一調整組件。調整器362說明不同語言中二個詞如何能相互被翻譯。存在著多種不同方法來加以實施。評價這種翻譯的一些尺度包括如在布朗等人在《Computational Linguistics》第19卷第2期第263-311頁(1993年)上發表的“統計機器翻譯的數學參數估計”文章中出現的翻譯概率,如在克爾等人在在《Computational Linguistics》第23卷第2期第313-343頁(1997年)上發表的“詞調整的一種分類為基礎方法”文章中出現的子系數,如在布朗等人在《COULING-88》第1卷第71-76頁(1998年)上發表的“語言翻譯的一種統計方法”文章中出現的交互信息,如在帕斯卡爾等人在《Computational Linguistics》第21卷第4期第226-233頁(1995年)上發表的“從噪聲平行資料庫中尋找名詞和正確名詞譯文的一種模式匹配方法”文章中出現的t-記分。
這樣,雙語辭典調整器362建立了高置信度單詞錨點,它們是從源語言輸入句子350到例子句子360的直接詞翻譯。這些可在以后的詞組調整時使用。
下一步,在例子句子360為非分段語言(如中文)情況時,例子句子360進行詞分段。這可用多種不同的公知方法來進行,本發明不局限于這些特殊的詞分段手法。例子句子360的詞分段在圖4中用方框364表示。
然后,使用一失真模型調整器366。失真模型調整器366說明在源語言句子350中一個位置如何可被調整到目標語言例子句子360中的另一個位置。如同與雙語辭典調整器362一樣,存在著可實施的多種失真模型調整器366。某些這類模型包括絕對失真(如上述的布朗文章中)、相對偏移(如布朗文章中)、以隱式劃線模型(HMM)為基礎的系統和結構約束系統(也在布朗文章中)。
甚至在詞調整和失真模型化后,仍然有可能存在一些輸入句子的非調整部分。因此,訪問一單語辭典,把字符合并成詞,把詞合并成短語。這在圖4中用方框368來表示。換句話說,即使雙語辭典非常大,因為語言的固有的復雜性其覆蓋面仍然非常有限。使用一單語辭典,一些分離的詞(本不應分離,因為它們是短語的一部分)可被標識為短語。因此,可實現短語合并。
同樣,可使用任何已知的統計調整組件,來調整未調整的詞。這用方框370表示。這種統計調整手法是已知的,僅配置一閾值來約束統計調整空間。
考慮所有這些項目,詞調整結果372是詞調整系統的輸出。
雖然在圖4所示的實施例中,詞調整機制包括來自雙語辭典調整器362的翻譯信息、失真調整器模型366、短語合并組件368和統計調整組件370,也可以使用其它信息源。例如,上述的t-記分可用來作為上下文信息。總之,該詞調整結果372可提供錨點,以反映源語言輸入句子350和例子句子360之間的高置信度調整。這些錨點可在短語調整中使用。
現再參考圖3,在獲得或建立了一句子和詞的調整雙語資料庫后,第二語言(如中文)中的句子進行依賴語法分析,以獲得資料庫的句子中詞間依賴結構。這在圖3中用步驟315表示。在資料庫中第二語言(如中文)句子的詞間依賴結構被標識后,從資料庫中第二語言(如中文)句子中抽取具有特殊依賴結構(如動詞-賓語、賓語-名詞等)的詞對。這在圖3中表示為步驟320。對從雙語資料庫中第二語言(如中文)句子中抽取的詞對,從雙語資料庫中第一語言(如英文)句子中抽取相應的翻譯詞。對一特殊的依賴結構,這產生了第一語言詞對的數據庫和它們正確的詞對翻譯。這在圖3中表示在步驟325處。
為了構筑匹配錯誤模式數據庫,對第二語言(如中文)的每個詞對,必須標識一組相應的第一語言(如英文)匹配錯誤詞對。這在圖3中表示為步驟330處。為了實現這個目的,對具有一特殊依賴結構的每個第二語言的詞對,把詞對的每個詞翻譯成所有相應的第一語言的翻譯詞。這不是局限于步驟325中標識的來自正確翻譯詞對的翻譯詞,而應是把第一語言中詞對的每個詞單獨翻譯成其所有可能的翻譯詞。這可用例如一機讀雙語辭典來實現。
如果有第二語言(如中文)的一詞對,相應的第一語言(如英文)的匹配錯誤詞對集合,可通過建立來自該第二語言詞對的詞翻譯組合的一集合來進行標識。例如,如果一中文詞對的第一詞有三個不同的英文翻譯詞,且該中文詞對的第二詞有四個不同的英文翻譯詞,則在該集合中包括十二個獨立的來自該中文詞對的詞的翻譯組合。
下一步,對與第二語言(如中文)中一詞對相對應的第一語言(如英文)中詞組翻譯組合的每個集合,從該集合中去除步驟325中標識的正確的詞對翻譯,來建立該錯誤模式數據庫。這在圖3中在步驟335處表示。該數據庫使中文(或第二語言)詞對、正確的英文(或第一語言)翻譯詞對和匹配錯誤的英文(或第一語言)翻譯詞對相關聯。
本發明也揭示了構筑錯誤模式數據庫的系統。結合例子,圖5所示的系統500說明了上述錯誤模式數據庫的構筑方法。在此例中,該過程是針對動詞-賓語關系來討論的。但是,該過程也能重復用于其它依賴結構。
1.準備一大型中-英雙語資料庫如上結合圖3討論那樣,可獲得一句子調整雙語資料庫502。但是,可獲得一還未進行句子調整的雙語資料庫,句子調整如果需要可在資料庫上進行。
2.在雙語資料庫上進行句子調整和詞調整如果該資料庫已經進行句子調整,則僅需進行詞調整。詞調整組件504使用一調整工具506來調整資料庫502中中文句子和其相應英文句子之間的詞。該詞調整組件可以是任何程序、子程序、模塊等,它們利用如圖4所述的調整工具來進行詞調整。雖然介紹了一特定的調整工具,但可使用任何合適的手法進行詞調整。
對本例來說,假定有雙語句對中文他在教室里開燈。
英文He turned on the light in the classroom.
3.依賴語法分析中文句子利用一中文語法分析器508(或更一般的為第二語言語法分析器),在所示的步驟510處,對資料庫中的中文句子(更一般的為第二語言句子)進行語法分析,以便獲得句子內詞間的依賴結構。在上述例示的句子中,依賴語法分析產生下列詞對。
對中文句子的依賴語法分析(主語-動詞,他,開)(副詞-動詞,在教室里,開)(動詞-賓語,開,燈)4.從中文句子中,抽取具有動詞-賓語關系的詞對在上述的例子中,詞對,他,開,在中文句子中有主語-動詞關系。
他在教室里開燈。
(主語-動詞,他,開)這對任何和所有的所需依賴結構詞對(包括短語和詞對)都能做的。
5.從英語句子中,抽取與主語-動詞中文詞對相對應的主語-動詞的翻譯詞對翻譯抽取器511是一程序、子程序、模塊等,對雙語資料庫中的每個主語-動詞的中文詞對,從經調整的句子中抽取正確的主語-動詞英文翻譯詞對。因此,翻譯抽取器構筑或包括一動詞-名詞中文詞對及其正確的英文詞對翻譯的數據庫。例如,對本例所用的中文句子來說,其相應的英文依賴關系是(主語-動詞,他,開)(主語-動詞,he,turn on)(副詞-動詞,在教室里,開)
(副詞-動詞,in the classroom,turn on)(動詞-賓語,開,燈)(動詞-賓語,turn on,light)因此,在本例中,我們獲得了正確的英文動詞-名詞匹配(動詞-賓語,開,燈)(動詞-賓語,turn on,light)抽取組件511同樣能抽取其它依賴結構詞對的翻譯。
6.對每個動詞-名詞中文詞對,構筑一組錯誤動詞-名詞英文詞對如圖5所示,一英文翻譯替代組件512構筑一組錯誤英文詞對,該組詞對儲存在錯誤模式數據庫514中。此過程可結合圖5所示的步驟330和335來加以說明。下面提供的是以偽代碼格式的這些步驟的說明。對每個動詞-名詞中文詞對,做6.1從一中英文辭典中,得到中文動詞的前M個英文翻譯(Ev1,Ev2,..Evm)和中文名詞前M個英文翻譯(En1,En2,..Enm).本例的英文動詞和名詞翻譯如下所示開 燈open lightdrive lampturn onstart可以看出,如果小于M個翻譯可用,只有可用的翻譯將被找到。
6.2得到中文動詞V翻譯和中文名詞N翻譯的所有組合的集合QQ={(Evi,Enj)|1<=I,j<=n,}然后,我們得到集合Q{(open,light),(drive,light),(turn on,light),(start,light)(open,lamp),(drive,lamp),(turn on,lamp),(start,lamp)}由于在本例中開有四個英文翻譯詞或短語(open,drive,turn on,start),在本例中燈有二個英文翻譯詞或短語(light,lamp),所以有八種可能的組合。
6.3從集合Q中刪除英文動詞或動詞短語和英文名詞或名詞短語的正確組合。正確詞對(Vv,Nn)標識如本例的步驟5和圖3所示步驟325中所討論那樣。
去除正確的詞對(turn on,light),集合Q變成
{(open,light),(drive,light),(start,light),(open,lamp),(drive,lamp),(turn on,lamp),(start,lamp)}6.4對留在Q集合中每個詞對或每個項(Vx,Ny),定義一模式模式種類動詞-名詞匹配錯誤說明(Vx,Ny)正確(Vv,Nn).
然后,我們可得到一系列的模式,例如模式種類動詞-名詞匹配錯誤說明(open,light)正確(turn on,light).
在構筑了搭配錯誤模式數據庫后,用它可在書寫過程中檢測搭配錯誤并利用模式提供建議。結合圖3-5在上述數據庫構筑過程中獲得的模式被很好地分類和組織,使它們被有效地使用。圖6中給出了例示系統,該系統應用錯誤模式或模板數據庫514來糾正書寫英文(或更一般的是第一語言)文件過程中的搭配錯誤。
圖6所示的系統600可以在如圖1和圖2中所示的計算環境中實施。如圖6所示,雖然輸入句子605輸入到該系統。在本例中,該輸入句子605是一個包含搭配錯誤的英文句子。該句子可用任何所需的手段,包括使用示于圖1的鍵盤162或話筒163(和語音-文本轉換程序),輸入到該系統。輸入的句子,也可用其它方法例如從其它系統轉入或從存儲器中檢索句子,輸入到系統中。
如在組件或步驟607處所示,英文語法分析器609被用來分析輸入英文句子,以確定句子內的依賴結構。由于句子太復雜而不能進行整句語法分析時,可采用部分語法分析。英文語法分析器609可以是該領域中已知的多種語法分析器中任何一種。
然后,如在步驟611處所示,把具有在分析時所標識的依賴結構的詞對或短語,與使用上述方法構筑的數據庫514中的錯誤模式作比較。如在組件或步驟613處所示,如果一詞對(包括短語)被發現與數據庫中的搭配錯誤詞對相匹配,被認為搭配錯誤的詞對的區域,可用某種方式在書寫句子中突出出來,同時把與數據庫中的特定錯誤詞對模式相關的正確搭配建議提供給用戶。在一些實施例中,系統不會自動糾正翻譯,但會給寫作者提供供考慮的建議。使用用戶接口615如鍵盤162、指點器161等,用戶確認或接受建議,或拒絕建議并保留原來得體的句子。這示于614處。
對下述作為例子的具有動詞-賓語關系依賴結構的(動詞,名詞)詞對進行搭配錯誤的核對。此過程同樣可用于其它依賴結構。
1.輸入一英文句子;He opened the light in the classroom.
2.英文依賴關系語法分析(主語-動詞,he,open)(副詞-動詞,in the classroom,turn on)(動詞-賓語,open light)3.為具有(動詞-賓語)關系的(動詞,名詞)詞對(open,light)掃描句子例子(open,light)4.為被標識(動詞-名詞)詞對(open,light)1和一錯誤模式集合之間的匹配查找錯誤模式數據庫。如果一模式匹配,則突出英文句子中的(動詞,名詞),且從錯誤模式數據庫中輸出正確建議。
在此特殊的例子中,動詞-名詞搭配(open,light),被發現有以下匹配模式種類動詞-名詞搭配錯誤說明(open,light)正確 (turn on,light)因此,該系統會以某種方式突出搭配錯誤的區域,并建議正確的搭配。
雖然本發明是結合特定的實施例來加以說明的,但是,本行業的熟練技術人員認為,在不脫離本發明的精神和范圍下,可以在形式和細節上進行變化。例如,結合講中文的人進行英文書寫的例子,對其本國語言為不同于第一語言的第二語言的人進行第一語言書寫的情況,在理論上是可行的。同樣,本發明介紹了對第二語言的一詞標識和儲存第一語言的翻譯詞,這種介紹也包括標識和儲存與第二語言中詞相對應的第一語言的短語,和標識和儲存與第二語言中短語相對應的第一語言的詞。
權利要求
1.一種構筑搭配錯誤模式數據庫的方法,所述方法包括獲得一具有第一語言句子和第二語言句子的雙語資料庫;從所述資料庫中的第二語言句子中抽取第二語言詞對;對從所述資料庫中抽取的每個第二語言詞對,從資料庫中相應的第一語言句子中,抽取相應的第一語言詞對,為所述第二語言詞對確定正確的第一語言翻譯;對從所述資料庫中抽取的每個第二語言詞對,建立與第二語言詞對相對應的第一語言翻譯詞組合的一集合;對從所述資料庫中抽取的每個第二語言詞對,從所述第一語言翻譯詞組合的集合中,去除正確的第一語言翻譯,使得所述組合的集合代表與第二語言詞對相對應的搭配錯誤的第一語言詞對的集合。
2.如權利要求1所述的方法,其特征在于,獲得所述雙語資料庫進一步包括獲得具有第一語言句子和第二語言句子的句子和詞已調整的雙語資料庫。
3.如權利要求2所述的方法,其特征在于,獲得一句子和詞已調整的雙語資料庫進一步包括獲得具有第一語言句子和第二語言句子的句子已調整的雙語資料庫;且在所述雙語資料庫上進行詞調整,使第一語言中句子中的詞與第二語言中相應句子中的詞排成一行。
4.如權利要求2所述的方法,其特征在于,從所述資料庫中第二語言句子中抽取第二語言詞對進一步包括對所述資料庫中第二語言句子進行語法分析,獲得詞間的依賴結構;從所述資料庫中第二語言句子中抽取具有一特殊依賴結構的第二語言詞對。
5.如權利要求4所述的方法,其特征在于,建立與每個第二語言詞對相對應的第一語言翻譯詞組合的一集合進一步包括對每個從所述資料庫中抽取的第二語言詞對,單獨把第二語言詞對的每個詞翻譯成相應的第一語言翻譯詞;通過把第二語言詞對的第一個詞的每種翻譯與第二語言詞對的第二個詞的每種翻譯相結合的方法,建立與每個第二語言詞對相對應第一語言翻譯詞的組合的集合。
6.如權利要求4所述的方法,其特征在于,對搭配錯誤第一語言詞對的集合中每個搭配錯誤第一語言詞對,進一步包括定義一模式,使搭配錯誤第一語言詞對與相應的正確第一語言翻譯相關聯。
7.如權利要求6所述的方法,其特征在于,其中,所述模式進一步使搭配錯誤第一語言詞對和相應的正確第一語言翻譯與一模式種類相關聯。
8.如權利要求1所述的方法,其特征在于,其中,第一語言是英語,第二語言是漢語。
9.一種計算機可讀媒體,具有可執行步驟的計算機可執行指令,所述步驟包括從一雙語資料庫中第二語言句子中抽取第二語言詞對;對從所述資料庫中抽取的每個第二語言詞對,從資料庫中相應的第一語言句子中,抽取相應的第一語言詞對,為所述第二語言詞對確定正確的第一語言翻譯;對從所述資料庫中抽取的每個第二語言詞對,建立與第二語言詞對相對應的第一語言翻譯詞組合的一集合;對從所述資料庫中抽取的每個第二語言詞對,從所述第一語言翻譯詞組合的集合中,去除正確的第一語言翻譯,使得所述組合的集合代表與第二語言詞對相對應的搭配錯誤的第一語言詞對的集合。
10.如權利要求9所述的計算機可讀媒體,其特征在于,進一步具有計算機可執行指令,可執行獲得所述雙語資料庫的步驟。
11.如權利要求10所述的計算機可讀媒體,其特征在于,其中,獲得所述雙語資料庫進一步包括獲得一具有第一語言句子和第二語言句子的句子和詞已調整的雙語資料庫。
12.如權利要求11所述的計算機可讀媒體,其特征在于,其中,獲得所述句子和詞已調整的雙語資料庫進一步包括獲得具有第一語言句子和第二語言句子的一句子已調整的雙語資料庫;在所述雙語資料庫上進行詞調整,使第一語言中句子中的詞與第二語言中相應句子中的詞排成一行。
13.如權利要求9所述的計算機可讀媒體,其特征在于,其中,從所述資料庫中第二語言句子中抽取第二語言詞對進一步包括對所述資料庫中第二語言句子進行語法分析,獲得詞間的依賴結構;從所述資料庫中第二語言句子中抽取具有一特殊依賴結構的第二語言詞對。
14.如權利要求13所述的計算機可讀媒體,其特征在于,建立與每個第二語言詞對相對應的第一語言翻譯詞組合的一集合進一步包括對每個從所述資料庫中抽取的第二語言詞對,單獨把第二語言詞對的每個詞翻譯成相應的第一語言翻譯詞;通過把第二語言詞對的第一個詞的每種翻譯與第二語言詞對的第二個詞的每種翻譯相結合的方法,建立與每個第二語言詞對相對應第一語言翻譯詞的組合的集合。
15.如權利要求13所述的計算機可讀媒體,其特征在于,對搭配錯誤第一語言詞對的集合中每個搭配錯誤第一語言詞對,進一步包括定義一模式,使搭配錯誤第一語言詞對與相應的正確第一語言翻譯相關聯。
16.如權利要求9所述的計算機可讀媒體,其特征在于,其中,所述模式進一步使搭配錯誤第一語言詞對和相應的正確第一語言翻譯與一模式種類相關聯。
17.如權利要求13所述的計算機可讀媒體,其特征在于,其中,第一語言是英語,第二語言是漢語。
全文摘要
本發明提供了一種可供應用第一種語言進行寫作、但其本國語言為第二種語言的人使用的語言搭配錯誤模式數據庫的構筑方法和計算機可讀媒體。該方法包括獲得一由第一語言句子和第二語言句子組成的雙語語言資料庫,從該語言資料庫的第二語言句子中提取第二語言詞對。對從語言資料庫中提取的每個第二語言詞對,從語言資料庫中相應第一語言句子中提取相應的第一語言詞對,為第二語言詞對確定一正確的第一語言譯文。同樣,對從語言資料庫中提取的每個第二語言詞對,建立一與第二語言詞對相應的、由第一語言翻譯詞構成的集合。最后,對從語言資料庫中提取的每個第二語言詞對,從由第一語言翻譯詞構成的集合中去除正確的第一語言翻譯,使得該集合代表與第二語言詞對相應的搭配錯誤的第一語言詞對的集合。
文檔編號G06F17/27GK1471029SQ0314523
公開日2004年1月28日 申請日期2003年6月25日 優先權日2002年6月28日
發明者明 周, 周明, 劉挺 申請人:微軟公司