基于本體一致性驗證推理的中文語義校對方法
【專利摘要】一種基于本體一致性驗證推理的中文語義校對方法,包括語義提取,利用本體學習技術,從非結構化的中文自然語言中提取語義內容,進而提取的語義內容轉換成結構化的本體形式;領域本體庫的確立,根據不同的領域使用相應領域的本體庫;建立模型,將上述形成的中文語義校對關鍵技術以插件形式整合到語法校驗工具中,或者以其它的實現形式,如獨立地開發成一個中文語義校正軟件;推理驗證,在語法校驗工具中,利用本體推理語言本身包含的基于描述邏輯的一致性推理驗證機制,把提取得到的語義內容按照預定順序和正確的領域本體庫一起輸入到推理機中逐次進行邏輯一致性驗證推理,將推理結果中邏輯不一致的中文語義內容標示出中文語義錯誤標志。本發明具有既可以實現字詞級和語法級中文校對,也可以實現能夠檢測特定領域語義錯誤的中文語義校對的優點。
【專利說明】基于本體一致性驗證推理的中文語義校對方法
【技術領域】
[0001]本發明涉及一種基于本體一致性驗證推理的中文語義校對方法。通過研究中文語義提取、中文語義查錯和中文語義糾正相關關鍵技術,以實現基于本體一致性驗證推理的中文語義校對方法的功能。
【背景技術】
[0002]隨著計算機技術的不斷發展,報刊、圖書等傳統媒體的文字錄入、編輯、排版、校對和印刷已經電子化了。面對包括全國幾千家報社、幾百家出版社,中央部委、省級機關,以及辦公室和家庭等在內的各種互聯網用戶,中文文字處理及校對軟件需求量非常大。中文校對軟件,例如,黑馬校對系統、金山WPS可以根據中文詞法關系和語法結構,自動分析中文文本中的詞句并將疑問處標紅,可以一次濾掉大量的文字錄入錯誤,包括丟字、多字、錯字和語句不通等,特別適合二、三連校中的二校及終校把關。
[0003]但是,目前中文校對軟件還不能完全替代人工校對,其中一個重要原因在于,雖然其在字詞級和語法級層面取得了較好效果,但是語義級層面中文校對技術相對薄弱。政治敏感信息在報社和出版社等我國傳統媒體的發布是非常普遍。因此,目前亟需一種能夠進行語義級層面中文自動校對處理的技術和軟件,進一步減少校對人員對于類似政治敏感錯誤等信息的校對工作量。
[0004]另一方面,網絡媒體(例如門戶網站、博客、微博等)突破了傳統時空觀念,表現出極大的時效性和開放性。網絡中每一個成員可以平等地共享網上信息,在世界任何地方,只要有計算機,只要與互聯網接通,就可以發布和獲取發生在世界任何一個地方的信息。網絡新聞也不再受傳統新聞發布者的限制,受眾可以發布自己的新聞,并在短時間內獲得更快的傳播,這使得論壇和微博等平臺成為人們最快速、最普遍的信息互動交流平臺。網絡媒體在讓人們享受時效性和開放性的同時,不得不面對其信息正確性和準確性方面的挑戰。網絡媒體也面臨著類似于傳統媒體上語義錯誤導致的政治性錯誤等潛在威脅。對于網絡媒體上的海量實時信息,人們肯定無法采取傳統媒體那樣人工校對方式解決。傳統的敏感詞篩選術和簡單的語法級自動校正技術,亦無法滿足復雜的中文語義校對需求。因此,我們必須探索語義級層面中文自動校對處理的技術,開發相應的校對軟件提供給網絡媒體使用,這也是網絡媒體發展的內在需求。
[0005]總之,無論是傳統媒體還是網絡媒體,都迫切需要中文語義校對技術的支持。中文語義校對將有廣泛的應用前景和巨大的商業價值。
[0006]眾所周知,中文校對系統處理的對象是文本,中文校對類型分為字詞級、語法級和語義級3類。
[0007]目前,中文字詞級和語法級校對技術已較完善,如黑馬校對系統、金山WPS和語法檢查工具(LanguageTool)都能很好地實現中文字詞級和語法級校對。
[0008]相比之下,語義級層面中文校對技術相對薄弱,一直是漢語文本自動校對技術的難點。[0009]目前,對于語義校正,按照研究內容和方向大致可以分為3類:
I)模糊語義對比方法
其主要內容是用句子語義骨架表示句子語義的具體方法和表示形式。模糊語義對比方法在語義校對系統中建立了這種形式的知識庫,每一個知識條代表描述同一個事件的不同句子的共同特征,是用來判斷文本中語句的對錯程度的基準。然后采用模糊匹配方法計算語句的相似程度,即文本中語句是根據與知識庫中相關知識進行模糊匹配,然后計算出該語句的錯誤程度的。此方法在一個面向政治錯誤的特定領域內的語義校對系統(YYJDS)中得到實現。
[0010]另外,有人通過模糊比較目標句子與大型文本庫中相似句子的方法來鑒別文本拼寫、語法甚至語義錯誤的方法。具體來說,是將目標句子轉換成一系列Google搜索請求,根據搜索結果數量進行加權閾值模糊比較,從而判斷是否錯誤以及錯誤等級多少。例如,如果Google中搜索出大多數人寫的是“北京是中國的首都”,那么目標句子“東京是中國的首都”極有可能是包含語義錯誤的。
[0011]以上兩種都屬于模糊語義對比方法,他們的出發點在于認為完全精確的理解句子語義可行性不高,因此采取繞過精確語義理解的思路,通過建立某種模糊語義模型,將知識庫或文本庫中的正確句子與目標句子進行模糊匹配來判斷語義錯誤。這種方法本質上是一種黑箱模型,雖然知道有語義錯誤,也可以計算語義錯誤程度值并選擇性的糾正錯誤,但是其局限性在于不知道具體有什么語義錯誤,語義錯誤類型是什么,為什么是語義錯誤,以及為什么糾錯之后的是正確的語義。
[0012])精確語義匹配方法
精確語義匹配方法是基于HNC (Hierarchical Network of Concepts)的中文文本校對系統模型。HNC是專門針對漢語的特點而提出來的一種用于自然語言理解的理論,該理論由語言概念空間考察自然語言空間,以概念聯想脈絡為主線,建立一種模擬大腦語言感知過程的自然語言表述模式和計算機理解處理模式。有人基于HNC理論構建了一個中文文本校對系統模型,該模型利用傳統查錯系統和HNC句類分析系統相結合的方法,在解決語法層次和語義層次上的錯誤有明顯優勢。但是由于HNC本身并沒有提供自動語義推理機制,需要通過窮舉57種句式語義來判斷語義錯誤,不適合大規模語義校對推廣。
[0013]此類屬于精確語義匹配方法,即使用某種語義知識表示模型提取文本中的語義對象以及語義對象之間的關系,精確判斷文本的語義錯誤類型和錯誤原因。這是基于白箱模型思路的一種徹底解決語義錯誤的根本辦法,是語義校對技術未來發展的必然趨勢。語義知識表示模型有很多種,包括國內學者提出的HNC和知網,外國學者提出的Frame Net框架網,以及OWL (中文意思是網頁本體語言,英文全稱是Web Ontology Language)國際標準等
坐寸o
[0014])語義搭配校對
語義搭配校對是采用統計和規則相結合的綜合校對方法。它綜合使用了基于實例、基于統計和基于規則的搭配關系進行檢查,提出統計和規則相結合的校對方法,既能檢查局部語義限制,也能檢查長句的語義搭配,收到了較好的效果。
[0015]針對語義搭配校對,有人提出了一種基于《知網》語義原搭配的有效的自動查錯方法,主要包括語義知識庫的構建和自動查錯算法。語義知識庫包含大量的動詞與名詞之間的二元搭配組合,利用互信息等因素篩選記錄,和《知網》對詞語義項的義原描述將動詞與名詞的二元搭配組合轉變為義原之間相互制約的多元組合,進而在語義知識庫的基礎上設計相應的自動查錯算法。但是,因為語義搭配校對的語義檢查同傳統的語義分析是兩個完全不同的概念,它并不試圖建立句子的語義框架,只是從成分的搭配關系上加以考察。也就是說此類方法只能檢查單一的語義搭配錯誤,而無法處理其他語義錯誤。
[0016]基于本體推理的技術背景
目前,本體推理技術主要利用基于描述邏輯的知識表示語言進行推理,其中,OWL是該類語言中最具代表性的一種。
[0017]OWL是英文Web Ontology Language的縮寫,為了便于記憶將頭兩個字母的順序顛倒,寫成0WL,其中文意思是網絡本體語言,網絡本體語言旨在提供一種可用于描述網絡文檔和應用之中所固有的那些類及其之間關系的語言。OWL網絡本體語言當前已經獲得萬維網聯盟認可的,用于編纂本體的知識表達語言家族。其功能在于為網絡文檔和應用中固有的類以及其間的邏輯關系提供描述,使得基于此技術的網絡應用更加人性化和智能化,節省用戶自身資源搜索時間并將這些處理交給計算機系統內部處理。基于不同的語義論特性網絡本體語言大致分為兩個系統:基于描述邏輯進而豐富表達和精準計算屬性的OWL DL和OWL Lite,以及以資源描述架構(英文:Resource Description Framwork:RDF)提供兼容敘述的OWL Full。網絡本體語言已經被認為是語義網技術的基礎語言并吸引了包括學術和商業范圍內人士的廣泛興趣。0WL2是OWL第二版國際標準。
[0018]目前,關于這類推理語言仍在發展,0WL2是其中一種,未來仍可能出現新的推理語言,例如0WL3等等,但仍在本專利方法中推理語言所涵蓋的范疇內。
【發明內容】
[0019]為了克服上述問題,本發明提供一種既可以實現字詞級和語法級中文校對,也可以實現能夠檢測特定領域語義錯誤的中文語義校對方法。
[0020]本發明的基本思路是:利用本體學習技術將中文文本中的語義內容提取出來轉換為結構化本體,再與正確的領域背景的本體庫融合,通過描述邏輯推理機來判斷提取的語義內容的邏輯一致性,并將檢測出的邏輯一致性錯誤知識映射為中文語義錯誤,最后通過推理結果解釋與回溯為用戶提供中文語義糾正建議。
[0021]本發明的技術方案是:提供一種基于本體一致性驗證推理的中文語義校對方法,包括:
1)語義提取
利用本體學習技術,從非結構化的中文自然語言中提取語義內容,進而提取的語義內容轉換成結構化的本體形式;
2)領域本體庫的確立
根據不同的領域使用相應領域的本體庫,或者,若無該領域的本體庫,則使用相應領域信息進行語義建模,構建相應的領域本體庫;本體庫的建立可以參照《本體庫的構建方法及應用研究》舒江波著,2008年碩士畢業論文。
[0022]3)建立模型
將上述第I)步和第2)步所形成的中文語義校對關鍵技術以插件形式整合到語法校驗工具中,或者獨立地開發成一個中文語義校正軟件;
4)推理驗證
在語法校驗工具中,利用本體推理語言本身包含的基于描述邏輯的一致性推理驗證機制,把提取得到的語義內容按照預定順序和正確的領域本體庫一起輸入到推理機中逐次進行邏輯一致性驗證推理,將推理結果中邏輯不一致的中文語義內容標示出中文語義錯誤標
O
[0023]作為對本發明的改進,在所述第4)步后,還存在第5)步,通過推理結果解釋與回溯為用戶提供中文語義糾正建議。
[0024]作為對本發明的改進,所述以插件的形式整合到語法校驗工具中,是通過擴展XML規則或Java規則定制這兩個角度進行整合的。
[0025]作為對本發明的改進,所述的技術解決方案也可以不是插件或工具的形式,也可以專門開發此類軟件。
[0026]作為對本發明的改進,建立模型也可以以獨立軟件的形式,專門開發中文語義校對軟件包。
[0027]作為對本發明的改進,建立模型也可以以中文語義服務的形式,專門開發中文語義 Web Service。
[0028]作為對本發明的改進,所述本體學習技術包括基于規則的中文本體學習或基于機器學習的中文本體學習。
[0029]作為對本發明的改 進,所述語法校驗工具是LanguageTool、微軟Office、金山WPS或 Open Office,當然,除了前述 LanguageTool、微軟 Office、金山 WPS 或 Open Office 外,還可以使用其它的類似的語法校驗工具。
[0030]作為對本發明的改進,所述領域本體庫是政治敏感性信息本體庫。
[0031]這里提及的語法校驗工具是指具有中文詞法和語法校驗功能的中文校驗工具,但它不具有語義校驗功能。
[0032]本發明與現有技術相比有如下優點,一是語義查錯的透明性:本發明提出的方法利用本體技術提取文本中的語義對象以及語義對象之間的關系,精確判斷文本的語義錯誤類型、錯誤原因以及如何糾錯,不存在模糊性和不可知性。這種白箱模型的透明性是模糊語義對比方法無法比擬的;二是語義模型的完整性:本發明選擇的0WL2本體,是一個最新旗艦水平的(state-of-art)、體系結構非常完整的語義知識表示和語義推理模型模型。它包含布爾邏輯、全稱/存在命題、個體值、本地自反、基數、空對象/數值、具名類/對象/數值、數據/對象定義域/值域等等幾十種語義定義。0WL2本體能夠描述包含語義搭配校對在內的各種常見語義對象及其關系(語義搭配校對可以使用“對象定義域/值域”建立映射);三是語義推理的智能性:本發明選擇的0WL2本體,它的語義推理基于描述邏輯(DescriptionLogics),它內置一致性邏輯推理機制,其本體推理算法相對成熟,可以直接利用Pellet、Fact++或Racer等描述邏輯推理機進行智能自動語義查錯,無需額外窮舉句式或者建立模糊語義骨架。
[0033]綜上所述,本發明提出的基于本體推理的語義級中文校對技術,本質上是屬于第
2)精確語義匹配方法范疇。由于0WL2本體國際標準制定發布時間在2012年12月,目前國內外尚未有基于0WL2本體推理的語義校對相關研究報道。本發明提出的基于本體的方法,順應了發展的語義校對研究的發展趨勢,與上述國內外研究成果相比,具有語義查錯的透明性、語義模型的完整性、語義推理的智能性等顯著優點。
【專利附圖】
【附圖說明】
[0034]圖1是本發明一種實施例的原理方框不意圖。
[0035]圖2是使用Prot6g6軟件進行中文本體學習的示意圖。
[0036]圖3是使用Prot6g6軟件對政治敏感信息領域0WL2本體庫構建示例的示意圖。
[0037]圖4是語法檢查工具(LanguageTool)提供一種XML框架機構用于編寫語法錯誤規則的示意圖。
[0038]圖5是0WL2-EL的EL++語義模型建立的示意圖。
[0039]圖6是Pix)t6g6中運行推理機進行0WL2本體一致性推理產生的語義錯誤的解釋的示意圖。
【具體實施方式】
[0040]請參見圖1,圖1所示是一種基于本體一致性驗證推理的中文語義校對方法,包括:
I)語義提取
利用本體學習技術,從非結構化的中文自然語言中提取語義內容,進而提取的語義內容轉換成基于RDF的三元組的0WL2本體結構化形式;
基于本體學習的中文語義提取
利用自然語言處理和本體學習(Ontology Learning)技術,從非結構化的中文自然語言中提取語義內容,進而轉換成基于RDF (資源描述框架,Resource DescriptionFramework)三元組(Triple)的0WL2本體結構化形式,提供給下一步語義查錯處理。中文語義內容的提取包括語義對象(類Class和個體Individual)和語義關系(語義屬性Datatype Property 以及語義關聯 Object Property)。
[0041]具體地說,本發明是綜合運用基于規則和基于機器學習這2種本體學習技術實現中文語義提取的。
[0042]I)基于規則的中文本體學習
利用中文本體學習軟件:Prot6g6,將中文文本進行詞法、句法分析,通過總結語義模式XML規則,使用XPath匹配的方法抽取出語義對象和語義關系。其實驗方法如下:第一步,利用中文詞法分析器(ictclas4j API)對中文文本進行中文自動分詞和自動詞性標注。第二步,定義XML模式匹配規則(Mappings)。如圖2所示,每一個匹配規則都包含兩個部分:XPath模式匹配條件(Conditions)和自動創建本體的操作(Operators)。軟件能夠通過XML模式匹配的方式將這些特征詞匯和關聯映射到領域本體庫中的類、個體和屬性等等語義內容;第三步,采取差分算法(ch1-square)將詞頻低而領域相關度高的詞抽取出來、將詞頻高領域相關度高的詞剔除。差分算法實驗的基準詞庫可以選用《人民日報》公開的1998年I月份語料庫。一般來說,詞和某領域的相關度,與它在基本詞庫統計表的詞頻成反比,而與它在軟件的XML模式匹配得到的詞頻成正比。
[0043]2)基于機器學習的中文本體學習 基于規則的本體學習技術在語義對象提取效果較好,而對于語義關系效果一般。本發明采取以下幾種基于機器學習的語義關系抽取方案:KIEV、BOA和NELL。這幾種方法大同小異,其中首選BOA框架,因為它對于英語之外的其他語言提供接口支持,中文擴展靈活。BOA框架基本思路是,利用DBpedia等LOD關聯數據和語料庫作為背景知識庫,對于給定語義關系從LOD中提取實例并從語料庫中抽取中文本特征進行模式學習,再通過模式檢索、排序、篩選等步驟,從語料庫中匹配文本獲得新的語義關系實例,轉而再回饋輸入LOD關聯數據,這樣形成迭代循環機器學習過程。基于機器學習的中文本體學習的具體內容,可以參照中國專利201010120134.9和中國專利201010134535.X所公開的內容。
[0044]2)領域本體庫的確立
根據不同的領域,使用0WL2對相應領域信息進行語義建模,構建相應的0WL2領域本體庫;當然,如果有現成的領域本體庫也可以直接采用;
領域本體庫與專業領域有關,本發明僅以政治敏感性信息本體庫的建立為例加以說明。
[0045]請參見圖3,圖3是使用Prot6g6對政治敏感信息領域0WL2本體庫構建示意圖。
[0046]首先,在領域專家的協助之下,使用0WL2對中文政治敏感信息進行語義建模,構建相應的0WL2領域本體庫。如圖3所示,本發明使用Prot6g6進行政治敏感信息領域本體構建。首先要對對政治敏感信息本體庫語義內容進行調研和歸納總結:如,
I)我國內政相關政治敏感信息。
[0047]2)我國外交相關政治敏感信息。
[0048]3)國共兩黨歷史政治敏感信息。
[0049]4)其他政治敏感信息。
[0050]其次,利用Pix)t6g6對政治敏感信息領域構建以0WL2為基礎的領域本體庫,領域本體庫的建庫方法為現有技術,在這里不再贅述。
[0051]建好的領域本體庫需要進行效果試驗,其試驗的方法可以從傳統媒體或網絡媒體等不同信息來源(例如,掃描來自國內出版社的各種人文社會政治類圖書,利用Spider爬蟲下載國內各大門戶網站的新聞信息)中選取中文文本語料作為測試對象。然后將語法檢查工具(LanguageTool)以插件形式安裝嵌入到微軟Word、金山WPS、Open Office等國內主流文字處理軟件,讓用戶對語法檢查工具(LanguageTool)中文語義校對模塊在政治敏感信息領域應用的效果進行試用,根據反饋意見對此模型進行改進和優化。
[0052]將此案例應用過程中的遇到的問題和解決方法進行總結,為此模型推廣到其他領域提供借鑒。
[0053]本體庫的建立還可以參照《本體庫的構建方法及應用研究》舒江波著。
[0054]3)建立模型
將上述第I)步和第2步所形成的中文語義校對關鍵技術以插件的形式整合到語法校驗工具中或獨立地開發一個中文語義校正軟件;
本發明僅以在語法檢查工具(LanguageTool)上建立中文語義校對模型為例來加以說明。本發明所保護的方法,不依賴于插件或是語法校驗工具,可以是其它的實現形式,例如開發專門的語義校驗軟件等。
[0055]本發明將基于0WL2本體一致性驗證推理的中文語義校對模型以插件的形式整合到語法檢查工具(LanguageTool)語法校驗工具中。具體可以從擴展XML規則或Java規則定制這兩個角度進行整合。
[0056]I)擴展XML規則
語法檢查工具(LanguageTool)提供一種XML框架機構用于編寫語法錯誤規則。如圖4所示,每條規則使用〈rule〉標記,通過〈pattern〉定義規則匹配模式。而每個模式由一組〈token〉組成,可以添加詞性標注postag等屬性。還可以添加regexp支持正則表達式規則匹配。錯誤提不信息由〈message〉定義,而糾正建議在〈example〉或〈suggestion〉中定義。為了讓語法檢查工具(LanguageTool)支持XML語義錯誤規則定義,需要增加相應的標簽和屬性以定義語義內容,例如:
I RDF 三元組:〈triple>
I語義對象
n 類 Class:type/class 屬性 n 個體 Individual:<i>
I語義關系
n 語義屬性 Datatype Property:dp 屬性 n語義關聯Object Property:op屬性
XML語義錯誤規則定義制定之后,需要增加XML語義錯誤規則解析模塊,即在org.語法檢查工具(LanguageTool).rules包中添加類似于針對語法錯誤規則patterns包,包括XML語義錯誤規則數據結構類SemanticRule及其解析匹配算法類PatternRuleHandler。然后需要增加0WL2推理機調用程序模塊、0WL2領域本體庫加載解析模塊,使得語義錯誤在能夠映射到0WL2本體一致性驗證推理,也可建立相應的程序代碼包。
[0057]2) Java規則定制
擴展XML規則方式需要改動語法檢查工具(LanguageTool)部分核心代碼,甚至語法檢查工具(LanguageTool)整體架構也需要調整。這個需要項目組同語法檢查工具(LanguageTool)組織合作研究,語義校對模塊也需要得到對方的認可才能納入正式發布版本中,不一定能夠完全順利實現,也不一定在短期內完成。所以,項目組也可另辟蹊徑,只針對語法檢查工具(LanguageTool)語法校驗工具建立基于Java規則定制的中文語義校對機制。只在語法校驗工具包org.語法檢查工具(LanguageTool) ? rules, zh里面添加相應功能,不影響其他語言校對程序包語法檢查工具(LanguageTool)整體架構。
[0058]具體來說,首先需要研發繼承于org.語法檢查工具(LanguageTool).rules.Rule類的語義校對規則子類,覆蓋其getMatchesO方法。然后同樣需要增加0WL2推理機調用程序模塊、0WL2領域本體庫加載解析模塊,使得語義錯誤在能夠映射到0WL2本體一致性驗證推理。這個過程將用到基于Jena、OffLAPI等0WL`2本體處理引擎工具。
[0059]本發明中,所述語法校驗工具可以是LanguageTool、微軟Word、金山WPS或OpenOffice。
[0060]4)推理驗證
在語法校驗工具中,利用0WL2本身包含的基于描述邏輯的一致性推理驗證機制,把提取得到的語義內容按照預定順序和0WL2正確的領域本體庫一起輸入到推理機中逐次進行邏輯一致性驗證推理,將推理結果中邏輯不一致的中文語義內容標示出中文語義錯誤標o
[0061]具體地說,基于0WL2本體一致性驗證推理的中文語義查錯,可以從中文自然語言中提取的語義內容可能存在語義錯誤,而0WL2本身包含基于描述邏輯的一致性推理驗證機制。把提取得到的語義內容按照預定順序和0WL2正確的領域本體庫一起輸入到推理機中逐次進行一致性驗證推理。最后,推理結果中邏輯不一致的中文語義內容即為檢查出來的中文語義錯誤。這個過程中基本上可以使用0WL2已有的工具和技術來實現。
[0062]0WL2本體包括主語言0WL2-DL及易推理的子語言0WL2-EL、0WL2-QL和0WL2-RL。在0WL2本體標準里,主語言0WL2-DL具有很強的表達能力卻并不具備易推理性,而它的三個子語言是易推理的但只有較弱的表達能力。本發明首先將對0WL2的三個子語言進行實驗,選取本體一致性驗證推理與中文語義查錯最相關的推理規則。如圖5所示,0WL2-EL的語義模型,需要對其中TBox和ABox —致性驗證推理逐個測試并進行篩選,并建立其與常見中文語義錯誤之間的映射關系(參見圖5),對于被檢測的中文文本采取基于段落掃描緩沖區的逐段處理模式來處理,而不是傳統中文語法校正的逐句處理模式。將每個段落中提取的若干RDF三元組與正確的0WL2領域本體庫進行融合,利用選取的本體一致性驗證推理規則在推理機中進行推理,兩者產生一致性邏輯矛盾即為檢測出來的中文語義錯誤。實驗可供選擇的推理機包括Pellet、Fact++或Racer等等。
[0063]針對備選0WL2本體一致性驗證推理規則,可以利用本體修正(OntologyRevision)增量式驗證推理機制,擬采取基于緩沖區和時間窗口的互動式推理排序方法對進行推理性能進行優化。具體來說,為每條推理規則建立影響度(Impact Ratio)關聯機制,在推理緩沖區之內調度語義錯誤所映射的一致性驗證邏輯錯誤,使影響度高的先進性推理運算,影響度低的根據前者運算采取跳過或簡化等方法提高效率,完成一輪排序之后,時間窗口向后移動,最終完成所有的一致性驗證推理。
[0064]
[0065]5)通過推理結果解釋與回溯為用戶提供中文語義糾正建議。
[0066]本發明中,所述以插件的形式整合到語法校驗工具中,是通過擴展XML規則或Java規則定制這兩個角度進行整合的。或者,所述以插件的形式整合到語法校驗工具中,是通過擴展XML規則和Java規則定制兩者結合起來進行整合的。
[0067]0WL2推理機能夠對邏輯不一致的中文語義錯誤提供解釋(Explanation),包括具體有什么語義錯誤,語義錯誤類型是什么,為什么是語義錯誤。一方面向用戶提供這些解釋信息以便用戶自行糾正,另一方面也可根據這些解釋信息對0WL2中相應的正確中文語義內容進行回溯,進而自動形成中文語義糾正建議提供給用戶進行修改。
[0068]請繼續參見圖6,0WL2推理機能夠對邏輯不一致的中文語義錯誤提供解釋(Explanation),包括具體有什么語義錯誤,語義錯誤類型是什么,為什么是語義錯誤。一方面向用戶提供這些解釋信息以便用戶自行糾正,另一方面也可根據這些解釋信息對0WL2中相應的正確中文語義內容進行回溯,進而自動形成中文語義糾正建議提供給用戶選擇。
[0069]本發明使用Prot6g6進行實驗,它可綁定Pellet、Fact++或Racer等常用0WL2推理機,還提供一致性驗證推理解釋功能。國家和地區是語義不相交的(Disjoint With語義約束),只有共和制國家才有總統(Domain語義約束),所以作為地區是不能有總統的(Inconsistency 語義錯誤),,。[0070]中文語義糾正首先需要本體推理回溯,即通過SPARQL語句查詢知識庫中正確語義內容。
[0071]本發明中,所述本體學習技術包括基于規則的中文本體學習或基于機器學習的中文本體學習。所述領域本體庫是政治敏感性信息本體庫。
[0072]本發明主要解決兩個關鍵問題,一是非結構中文自然語言的語義化問題;0WL2本體一致性驗證推理只能夠檢測結構化本體庫中的邏輯錯誤,無法直接處理中文自然語言這樣非結構化的信息。因此,將非結構中文自然語言轉換成結構化0WL2本體是此模型得以實現的前提。針對這個問題, 申請人:提出基于本體學習的中文語義提取研究思路:第一, 申請人:在2006年已提出基于規則的中文本體學習思路,并研發了 OntoLTCn軟件,在中文歷史領域取得了較好的效果;第二,本體學習技術經過若干年的發展,2011和2012年在基于機器學習的方法實現上研究成果已經非常豐富了,特別在語義關系提取這個瓶頸問題上有重大突破。本發明將綜合利用基于規則和基于機器學習的方法來解決這個問題。二是增量式0WL2本體一致性驗證推理優化問題;文本校對一般是按照逐句掃描、逐句查錯的方式來操作。在 申請人:提出的中文語義校對模型中,也是按照迭代循環方式逐句進行語義提取和語義推理,這本質上是增量式(Incremental) 0WL2本體一致性驗證推理問題。在增量式驗證推理過程中,提取的語義內容是實時的,提供給推理機的語義內容也是動態。如果僅僅采取簡單逐次推理來做,那么某些領域本體庫數據量較大情況下,中文語義校對性能將會無法滿足要求。本發明將借用本體修正(Ontology Revision)增量式驗證推理機制,擬采取基于緩沖區和時間窗口的互動式推理排序方法對進行推理性能進行優化。
【權利要求】
1.一種基于本體一致性驗證推理的中文語義校對方法,包括: (1)語義提取 利用本體學習技術,從非結構化的中文自然語言中提取語義內容,進而提取的語義內容轉換成結構化的本體形式; (2)領域本體庫的確立 根據不同的領域,使用相應領域的本體庫,或若無該領域的本體庫,則使用相應領域信息進行語義建模,構建相應的領域本體庫; (3)建立模型 將上述第(I)步和第(2)步所形成的中文語義校對關鍵技術以插件形式整合到語法校驗工具中或者獨立地開發成一個中文語義校正軟件; (4)推理驗證 在語法校驗工具中,利用本體推理語言本身包含的基于描述邏輯的一致性推理驗證機制,把提取得到的語義內容按照預定順序和正確的領域本體庫一起輸入到推理機中逐次進行邏輯一致性驗證推理,將推理結果中邏輯不一致的中文語義內容標示出中文語義錯誤標
O
2.根據權利要求1所述的基于本體一致性驗證推理的中文語義校對方法,其特征在于:在所述第4)步后,還存在第5)步,通過推理結果解釋與回溯為用戶提供中文語義糾正建議。
3.根據權利要求1或2所述的基于本體一致性驗證推理的中文語義校對方法,其特征在于:所述以插件的形式整合到語法校驗工具中,是通過擴展XML規則或Java規則定制這兩個角度進行整合的。
4.根據權利要求1或2所述的基于本體一致性驗證推理的中文語義校對方法,其特征在于:所述本體學習技術包括基于規則的中文本體學習或基于機器學習的中文本體學習。
5.根據權利要求1或2所述的基于本體一致性驗證推理的中文語義校對方法,其特征在于:所述語法校驗工具是LanguageTool、微軟Office、金山WPS或Open Office。
6.根據權利要求1或2所述的基于本體一致性驗證推理的中文語義校對方法,其特征在于:所述領域本體庫是政治敏感性信息本體庫。
【文檔編號】G06F17/27GK103593335SQ201310404701
【公開日】2014年2月19日 申請日期:2013年9月5日 優先權日:2013年9月5日
【發明者】姜贏, 曾杰, 荊銘, 廖文生, 郭穎珊, 林啟紅, 高巾 申請人:姜贏