則為將同義詞合并為一詞,例如本體為杭州,對應詞庫中的詞為 臨安、武林、杭州、杭州市。對應于圖1中知識庫模塊的同義詞與本體的映射詞庫和圖帥知 識庫的詞庫。
[0034] (3)對結構化文本進行分詞。基于知識庫中的詞庫提取文中的描述或屬性名詞。基 于旅游領域,此處W西湖為一文本案例,文本內容為"位于浙江省杭州市西面,湖泊面積 為……"。對文本內容先采用正向減字最大匹配法,首先W標點符號為分割符,將文本分割, 之后一句一句分別處理。第一句為"位于浙江省杭州市西面",和詞庫中的詞進行匹配,因為 此處沒有匹配的詞,于是右邊省去一個字得"位于浙江省杭州市西",緊接著再進行匹配,不 匹配則右邊再省去一個字,運樣一直循環進行,此處最后只剩一個"位"字,由于不匹配,舍 去后得下一步需要匹配的內容為"于浙江省杭州市西面",基于上述方法,接著舍去"于"得 "浙江省杭州市西面",最后匹配成功的詞為"浙江省"、"杭州市"兩詞,緊接著使用逆向減字 最大匹配法,與正向減字最大匹配法類似,不再敘述,針對之后的句子也同樣處理。對應于 圖2中結構化文本被基于詞庫的分詞算法分詞的過程。
[0035] (4)基于詞庫與本體的映射關系,根據文本主題W及上述獲取的關鍵詞獲取文本 主題本體和關鍵詞本體,將其添加至文本主題本體和關鍵詞本體關聯的網狀知識模型中, 同時W文本主題本體為索引,將文本所有內容存儲至知識庫中。基于旅游領域,此處W西湖 為一文本案例,"西湖"的本體為"西湖",上述舉例的提取出的關鍵詞為"浙江省"和"杭州 市",它們的本體分別為"浙江"和"杭州",將"西湖"、"浙江"和"杭州"添加至網狀知識模型 中(對應于圖2中主題本體和關鍵詞本體進入知識庫中網狀知識模型的過程),同時W "西 湖"作為索引,將文本內容進行存儲(對應于圖1中知識庫模塊的W文本主題本體為索引的 結構化文本和圖2中知識庫的帶索引的結構化文本)。
[0036] (5)基于網狀知識模型,構建決策樹。基于旅游領域,上述W西湖為一文本案例,可 獲取文本主題本體為"西湖",關鍵詞本體集合為"浙江"、"杭州"、"春天"等。同樣的,針對W 鼓浪蝸為例,可獲取文本主題本體為"鼓浪崎',關鍵詞本體集合為"福匙'、"廈口"、"春天" 等,針對西溪濕地,也可獲取文本主題本體為"西溪濕地",關鍵詞本體集合為"浙江"、"杭 少If、"春天"等。基于運些數據所形成的網狀知識模型(如圖3所示),W模型中的文本主題本 體為結果,模型中的關鍵詞本體集合為特征,進行決策樹的構建,可能的決策樹結果如圖4 所示,具體步驟如下:
[0037] 5.1計算當前基本數據集的賭值;
[0038] 5.2根據不同特征(本體)分類,分別計算所對應數據集的賭值;
[0039] 5.3通過比較當前基本數據集和運些分類間的賭值差,選取最大的最為分類特征 (賭值差越大,類別區分越明顯);
[0040] 5.4刪除特征集中對應特征,同時根據該特征對應的不同值獲取剩余數據集;
[0041 ] 5.5基于剩余數據集和剩余特征集重復操作a至d,直至構建完成。
[0042] 賭值的計算公式如下:
[0044] 其中,S為數據集,Pi為不同文本主題出現的頻率,C為本體的種類。
[0045] 信息增益的計算公式如下(即基本數據集和各特征分類間的賭值差):
[0047] 其中,Sv是S中屬性A的值為V的子集,第一項就是原集合S的賭,第二項是用A分類S 后的賭的期望值。
[0048] (6)將用戶輸入語句進行分詞,基于知識庫中的詞庫提取描述或屬性名詞并轉化 為本體名詞。基于旅游領域,用戶輸入"臨安春季去哪玩",對用戶輸入內容先采用正向減字 最大匹配法,首先W標點符號為分割符,將文本分割,之后一句一句分別處理。運里只有一 句"臨安春季去哪玩",和詞庫中的詞進行匹配,因為此處沒有匹配的詞,于是右邊省去一個 字得"臨安春季去哪",緊接著再進行匹配,不匹配則右邊再省去一個字,運樣一直循環進 行,此處最后當剩下"臨安"兩字時,根據詞庫匹配成功,獲取"臨安",同時舍去"臨安",對 "春季去哪玩"進行分詞,按照上述步驟,最后匹配成功的詞為"臨安"、"春季"兩詞,緊接著 使用逆向減字最大匹配法,與正向減字最大匹配法類似,不再敘述,最后將運兩詞和詞庫中 的本體對應,獲取"杭州"和"春天"兩本體名詞,針對之后的句子也同樣處理。對應于圖2中 用戶輸入內容被基于詞庫的分詞算法分詞W及提取本體的過程。
[0049] (7)根據所構建的決策樹捜索相關景點,并基于知識庫給出景點描述。W上述的 "杭州"、"春天"為例,結合圖4,可W捜索到西湖、西溪濕地等,選擇其中一個即可查看相應 詳細的景點描述。
[0050] 上述的對實施例的描述是為便于本技術領域的普通技術人員能理解和應用本發 明。熟悉本領域技術的人員顯然可W容易地對上述實施例做出各種修改,并把在此說明的 一般原理應用到其他實施例中而不必經過創造性的勞動。因此,本發明不限于上述實施例, 本領域技術人員根據本發明的掲示,對于本發明做出的改進和修改都應該在本發明的保護 范圍之內。
【主權項】
1. 一種基于結構化文本知識提取的問答系統構建方法,包括如下步驟: (1) 對于任一領域,收集關于該領域的所有名詞組成詞庫,同時收集該領域范圍內的所 有文本主題及其對應的結構化文本; (2) 將詞庫里的所有名詞進行同義詞歸類,將所有具有相同含義的名詞映射為一個本 體; (3) 對文本主題的結構化文本進行分詞,每個文本主題的結構化文本通過分詞均對應 得到若干個關鍵詞,進而確定每個關鍵詞和每個文本主題各自對應的本體; (4) 基于結構化文本關鍵詞與文本主題的關聯性,建立一個涵蓋所有結構化文本關鍵 詞本體與文本主題本體關聯的網狀知識模型; (5) 基于上述網狀知識模型,以關鍵詞本體為特征,以文本主題本體為結果,根據所有 結構化文本的關鍵詞本體和文本主題本體構建該領域的決策樹模型; (6) 對用戶關于該領域所輸入的問句進行分詞,得到若干個關鍵詞;將該問句各關鍵詞 所對應的本體輸入至該領域的決策樹模型中,得到相關的文本主題本體及其結構化文本作 為輸出呈現給用戶。2. 根據權利要求1所述的問答系統構建方法,其特征在于:所述的步驟(1)中通過互聯 網收集關于該領域的所有名詞組成詞庫,同時收集該領域范圍內的所有文本主題及其對應 的結構化文本。3. 根據權利要求1所述的問答系統構建方法,其特征在于:每個文本主題均對應一組結 構化文本。4. 根據權利要求1所述的問答系統構建方法,其特征在于:所述的詞庫、所有文本主題 及其對應的結構化文本、網狀知識模型以及決策樹模型均存儲于知識庫中。5. 根據權利要求1所述的問答系統構建方法,其特征在于:所述的步驟(2)中通過人工 將詞庫里的所有名詞進行同義詞歸類整合。6. 根據權利要求1所述的問答系統構建方法,其特征在于:所述的步驟(3)中基于詞庫 采用正向減字最大匹配法結合逆向減字最大匹配法對文本主題的結構化文本進行分詞。7. 根據權利要求4所述的問答系統構建方法,其特征在于:所述的網狀知識模型以表格 形式存儲,表格以各文本主題本體對應每行,各關鍵詞本體對應每列,第i行第j列的數值為 0或1,〇表示第i行所對應的文本主題本體與第j列所對應的關鍵詞本體無關,1表示第i行所 對應的文本主題本體與第j列所對應的關鍵詞本體相關,i為行序號,j為列序號。8. 根據權利要求1所述的問答系統構建方法,其特征在于:所述的步驟(5)中基于網狀 知識模型,將所有結構化文本的關鍵詞本體和文本主題本體作為數據集通過決策樹算法進 行訓練,得到一個以關鍵詞本體為分支,文本主題本體為葉節點的樹形模型即決策樹模型。9. 根據權利要求1所述的問答系統構建方法,其特征在于:對于新增的文本主題及其結 構化文本,通過步驟(3)進行分詞,將新增結構化文本的關鍵詞本體以及文本主題本體納入 網狀知識模型中,進而豐富決策樹模型的知識內容。10. 根據權利要求8所述的問答系統構建方法,其特征在于:所述的步驟(6)中將問句各 關鍵詞所對應的本體輸入至該領域的決策樹模型中,通過關鍵詞本體進行分支搜索,直到 獲取相關的文本主題本體,最后基于知識庫獲取對應的結構化文本呈現給用戶。
【專利摘要】本發明公開了一種基于結構化文本知識提取的問答系統構建方法,該方法需要基于知識庫、分詞方法、決策樹方法進行實現。知識庫分為四部分,一是詞庫以及相應本體,基于本體方法,將詞庫中名詞與相應本體關聯;二是以文本主題本體為索引的結構化文本;三是文本主題本體和關鍵詞本體關聯的網狀知識模型;四是基于決策樹方法構建的決策樹模型。決策樹模型以網狀知識模型的關鍵詞本體數據為特征,以網狀知識模型的文本主題本體為結果,將關鍵詞本體和文本主題本體相關聯,在問答系統中用于決策支持。本發明可適用于多種不同領域,針對各個領域的問題進行解答,且系統構建方法比較簡便易于實現。
【IPC分類】G06F17/30
【公開號】CN105528437
【申請號】CN201510960519
【發明人】李石堅, 朱余旭, 石龍翔, 陶海, 潘綱
【申請人】浙江大學
【公開日】2016年4月27日
【申請日】2015年12月17日