一種基于結構化文本知識提取的問答系統構建方法
【技術領域】
[0001] 本發明屬于計算機自然語言處理技術領域,具體設及一種基于結構化文本知識提 取的問答系統構建方法。
【背景技術】
[0002] 隨著計算機技術的快速發展,基于自然語言處理的問答系統領域也得到了長足的 發展。目前,問答系統領域主要涵蓋了醫療、教育、旅游等方面,并在各個方面都有不錯的表 現。但現今的問答系統主要還是針對于某個方面而存在例如醫療,或者是基于資源描述框 架而現實,但工程繁瑣。
[0003] 問答系統是信息檢索系統的一種高級形式,它被用于準確地回答用戶用自然語言 提出的問題。隨著人們對快速、準確地獲取信息的需求日益升溫,基于捜索引擎的百度、谷 歌等捜索應用已經無法完全滿足人們的運種需求,運些應用只能給出一些涵蓋關鍵詞的信 息,并且量很多,而運些并不是人們屯、中所期望的答案。為了滿足快速、準確地獲取信息的 需求,伴隨人工智能和自然語言處理領域快速地發展,問答系統成為了其中一個備受關注 的研究方向。
[0004] 目前,最為著名的問答系統要屬IBM的Watson,其采用DeepQA技術讀取百萬頁文本 數據,利用深度自然語言處理技術產生候選答案,其中還設及了 "嵌套分解"等諸多算法,相 當的復雜;同時,與Watson所采用的技術相對應的硬件也是極其昂貴和高端,其主要由90臺 IBM服務器、360個計算機忍片驅動組成,擁有15TB內存W及2880個處理器。總體來說,難W 讓人快速并簡單地構建運樣一個問答系統。除了Watson,目前相當多的問答系統都只是專 業領域問答系統,只提供該領域范圍內的知識問答,例如公開號為CN 101436206A的中國專 利公開了一種基于本體推理的旅游問答系統答案抽取方法,其首先定義領域中的語義規 貝1J,進行人工本體知識庫的構建,并對用戶問句進行分析;然后將基于語義規則推理與信息 檢索相結合進行答案抽取,而不是簡單地進行匹配;最后再根據不同的問句類型設計相應 的答案抽取算法。該方法將本體的思想引入問答系統知識庫的構建,把旅游領域的概念、屬 性和關系用OWL本體描述語言清晰明確地表示出來,更加有效地組織知識;但是該方法只提 供了旅游本體知識庫,只能夠回答旅游范圍內的知識問答,同時本體知識庫構建過程較為 復雜。可W說,至今還未出現一個通用并簡便的問答系統構建方法。
【發明內容】
[0005] 針對現有技術所存在的上述技術問題,本發明提供了一種基于結構化文本知識提 取的問答系統構建方法,可適用于多種不同領域,針對各個領域的問題進行解答,且系統構 建方法比較簡便易于實現。
[0006] -種基于結構化文本知識提取的問答系統構建方法,包括如下步驟:
[0007] (1)對于任一領域,收集關于該領域的所有名詞組成詞庫,同時收集該領域范圍內 的所有文本主題及其對應的結構化文本;
[0008] (2)將詞庫里的所有名詞進行同義詞歸類,將所有具有相同含義的名詞映射為一 個本體;
[0009] (3)對文本主題的結構化文本進行分詞,每個文本主題的結構化文本通過分詞均 對應得到若干個關鍵詞,進而確定每個關鍵詞和每個文本主題各自對應的本體;
[0010] (4)基于結構化文本關鍵詞與文本主題的關聯性,建立一個涵蓋所有結構化文本 關鍵詞本體與文本主題本體關聯的網狀知識模型;
[0011] (5)基于上述網狀知識模型,W關鍵詞本體為特征,W文本主題本體為結果,根據 所有結構化文本的關鍵詞本體和文本主題本體構建該領域的決策樹模型;
[0012] (6)對用戶關于該領域所輸入的問句進行分詞,得到若干個關鍵詞;將該問句各關 鍵詞所對應的本體輸入至該領域的決策樹模型中,得到相關的文本主題本體及其結構化文 本作為輸出呈現給用戶。
[0013] 所述的步驟(1)中通過互聯網收集關于該領域的所有名詞組成詞庫,同時收集該 領域范圍內的所有文本主題及其對應的結構化文本。
[0014] 每個文本主題均對應一組結構化文本。
[0015] 所述的詞庫、所有文本主題及其對應的結構化文本、網狀知識模型W及決策樹模 型均存儲于知識庫中。
[0016] 所述的步驟(2)中通過人工將詞庫里的所有名詞進行同義詞歸類整合。
[0017] 所述的步驟(3)中基于詞庫采用正向減字最大匹配法結合逆向減字最大匹配法對 文本主題的結構化文本進行分詞。
[001引所述的網狀知識模型W表格形式存儲,表格W各文本主題本體對應每行,各關鍵 詞本體對應每列,第i行第j列的數值為0或1,0表示第i行所對應的文本主題本體與第j列所 對應的關鍵詞本體無關,1表示第i行所對應的文本主題本體與第j列所對應的關鍵詞本體 相關,i為行序號,j為列序號。
[0019] 所述的步驟(5)中基于網狀知識模型,將所有結構化文本的關鍵詞本體和文本主 題本體作為數據集通過決策樹算法進行訓練,得到一個W關鍵詞本體為分支,文本主題本 體為葉節點的樹形模型即決策樹模型。
[0020] 對于新增的文本主題及其結構化文本,通過步驟(3)進行分詞,將新增結構化文本 的關鍵詞本體W及文本主題本體納入網狀知識模型中,進而豐富決策樹模型的知識內容。
[0021] 所述的步驟(6)中基于詞庫采用正向減字最大匹配法結合逆向減字最大匹配法對 用戶關于該領域所輸入的問句進行分詞。
[0022] 所述的步驟(6)中將問句各關鍵詞所對應的本體輸入至該領域的決策樹模型中, 通過關鍵詞本體進行分支捜索,直到獲取相關的文本主題本體,最后基于知識庫獲取對應 的結構化文本呈現給用戶。
[0023] 本發明提供了一種通用并簡便的問答系統構建方法,可適用于多種不同領域,針 對各個領域的問題進行解答;本發明中提及的結構化文本W及詞庫易于收集;本發明雖然 需要人工將同義詞映射為本體,但能夠自動化構建網狀知識模型W建立文本主題本體和關 鍵詞本體之間的關聯,同時該模型基于新增的結構化文本能夠自動化地豐富知識內容,相 對于人工構建本體知識庫或人工整理語義網數據而言,構建更為簡便,本體之間的關聯更 為直接;本發明所使用的決策樹方法相對于語義網或本體知識庫,在檢索上更為直觀,容易 理解,有益于使用。
【附圖說明】
[0024] 圖1為本發明問答系統的框架示意圖。
[0025] 圖2為本發明問答系統構建方法的步驟流程示意圖。
[0026] 圖3為本發明基于旅游案例的網狀知識模型示意圖。
[0027] 圖4為本發明基于旅游案例的決策樹模型示意圖。
【具體實施方式】
[0028] 為了更為具體地描述本發明,下面結合附圖及【具體實施方式】對本發明的技術方案 進行詳細說明。
[0029] 圖1為本發明基于問答系統構建流程所對應的問答系統框架圖。圖中主要包含了 知識庫模塊、分詞模塊、決策樹模塊W及一些相關的交互。知識庫模塊對應于知識庫,和分 詞模塊相關聯,為分詞模塊的分詞提供詞庫,并與決策樹模塊相關,提供決策樹構建所需的 網狀知識模型,存儲決策樹W及提供文本內容;分詞模塊對應于分詞方法,與知識庫模塊相 關聯,基于知識庫模塊中的詞庫進行分詞操作,并為豐富知識庫中的網狀知識模型提供本 體數據,與決策樹模塊相關,為決策樹捜索提供關鍵詞本體;決策樹模塊對應于決策樹方 法,與分詞模塊相關聯,基于分詞模塊提供的本體數據進行決策樹捜索,并與知識庫相關 聯,基于網狀知識模型構建決策樹,基于存儲在知識庫中的決策樹模型,通過關鍵詞本體數 據進行分支捜索,直到獲取相關文本主題本體,最后基于知識庫獲取對應文本內容。
[0030] 圖2為本發明問答系統構建方法的流程圖,該方法首先針對某一領域的結構化文 本數據,采用分詞方法提取與文本主題相關的關鍵詞,然后,基于知識庫中的詞庫與本體的 映射關系,根據上述關鍵字W及文本主題,獲取關鍵詞本體數據和文本主題本體,并將其添 加至文本主題本體和關鍵詞本體關聯的網狀知識模型中,同時將結構化文本數據W文本主 題本體為索引存入知識庫中;之后,基于網狀知識模型,W模型中的關鍵詞本體數據為特 征,W模型中的文本主題本體為結果,采用決策樹算法,構建在問答系統中用于決策支持的 決策樹,并將其存入知識庫中。當用戶進行查詢時,首先將用戶輸入語句進行分詞,提取查 詢關鍵詞;然后,基于知識庫中的詞庫,將查詢關鍵詞與相應本體進行關聯,從而獲取查詢 關鍵詞本體;最后,基于運些關鍵詞本體,通過上述構建的決策樹,可捜索至相關文本主題 本體,同時可基于文本主題本體和知識庫獲取對應結構化文本數據。
[0031] 接下來,本實施方式將W在旅游領域的應用為案例對本發明問答系統構建方法的 流程進行詳細說明,具體步驟包括:
[0032] (1)結構化文本的構建。基于旅游領域,此處W西湖為一文本案例,將文本命名為 西湖,即西湖就為該文本的主題,同時在文本中填充有關于西湖描述的內容,包含地域,最 佳旅游時節等信息。
[0033] (2)知識庫中的詞庫與相應本體的構建。基于旅游領域,此處詞庫主要W旅游領域 的名詞為主,例如,臨安、武林、杭州、杭州市、蘇州、北京等地域名,春季、夏季、秋季等季節 名。對于本體構建而言,實