一種基于對話機器人的招生自動問答方法及系統的制作方法
【技術領域】
[0001] 本發明屬于中文自然語言信息處理技術領域,具體涉及一種基于對話機器人的招 生自動問答方法及系統。
【背景技術】
[0002] 自動問答系統的研究已有50多年的歷史,并成為自然語言處理和信息檢索的一個 重要分支和研究熱點,自動問答系統已經在各個領域得到了廣泛的應用。例如,隨著高校生 源的不斷增加,考生通常利用高校的招生咨詢平臺來更全面的了解學校的資源配置,招生 計劃,報考要求等信息。高校亦可以全方位的展示學校實力與水平,讓考生、家長和社會更 多的了解學校,從而爭取到更多更好的生源。然而傳統的招生咨詢工作面臨著許多問題,例 如大部分考生或家長咨詢的問題都類似,客服人員重復性的工作浪費了許多人力、財力和 時間資源。隨著自然語言處理技術的深入發展與研究,招生問答領域的自動問答機器人應 運而生。
[0003] 目前用于招生問答的對話機器人,其處理問題的基本流程是:獲取用戶問題、對用 戶問題進行分析并獲取用戶意圖、從語料庫中選擇相應的問題答案。然而當前的問答機器 人的模式是一問一答,結構單一;而且通常由于語料規模的限制以及對用戶查詢意圖的推 測不準確等問題,并不能對所有的問題給出回答結果,也沒有給出相關聯的推薦內容。
[0004] ALICE(Artificial Linguistic Internet Computer Entity)是由美國賓西法尼 亞州Lehigh大學的Richard S.Wallace博士開發的一個基于經驗的人工智能聊天機器人。 最初版本的ALICE支持英語、德語、法語等語言,卻不支持中文。在對ALICE源碼進行分析時 發現,其預處理時的篩選機制把漢字排除在外。
【發明內容】
[0005] 針對上述現有技術中存在的問題,本發明的目的在于提供一種可避免出現上述技 術缺陷的基于對話機器人的招生自動問答方法及系統。
[0006] 為了實現上述發明目的,本發明提供的技術方案如下:
[0007] -種基于對話機器人的招生自動問答方法,包括以下步驟:
[0008] 步驟1)獲取用戶輸入的文字;
[0009] 步驟2)對所述用戶輸入的文字進行文字處理;
[0010] 步驟3)根據進行文字處理后的文字,利用模糊匹配方法和內部推理機制從知識庫 中選擇最佳答案;
[0011]步驟4)將所述最佳答案發送給用戶。
[0012] 進一步地,所述知識庫為對問答領域的知識內容進行組織并按照AML語言的規范 構建的知識庫。
[0013] 進一步地,所述步驟2)具體為:利用中文分詞解析器對用戶輸入的文字進行中文 分詞處理,并利用哈工大停用詞表去除用戶輸入的文字中的停用詞,然后對處理后的文字 進行有效詞提取,得到有效詞列表。
[0014] 進一步地,所述中文分詞解析器為ICTCLAS分詞器。
[0015] 進一步地,所述步驟3)替換為:根據進行中文分詞處理和去除停用詞后的文字,利 用模糊匹配的方法以及內部推理機制從所述知識庫中選擇最佳答案,同時進行本體查詢, 從附加知識庫中獲取所述有效詞的上下位信息,其中,所述附加知識庫為利用領域本體構 建的領域本體庫。
[0016]進一步地,所述步驟4)替換為:將所述最佳答案和所述上下位信息發送給用戶。
[0017] 進一步地,進行本體查詢,從所述領域本體庫中獲取所述有效詞的上下位信息,該 步驟具體為:將有效詞按照權重值從大到小排列,作為本體查詢的候選詞,從所述領域本體 庫中獲取所述有效詞的上下位信息;其中,所述有效詞的所述權重值的計算公式為
[0018]
[0019]公式中,η表示用戶輸入的文字中的名詞,v表示用戶輸入的文字中的動詞,〇表示 用戶輸入的文字中的其他詞,i表示用戶輸入的文字中詞的數目,系數α = 0.5,β = 0.3, γ = 0·2〇
[0020] -種基于對話機器人的招生自動問答系統,包括:
[0021] 用于對用戶輸入的文字進行分詞的中文分詞處理模塊;
[0022] 對問答領域的知識內容進行組織并按照AB1L語言的規范構建的知識庫;
[0023] 用于進行本體查詢、從中獲取所述有效詞的上下位信息的領域本體庫;
[0024] 用于利用模糊匹配的方法以及內部推理機制從知識庫中選擇最佳答案的答案獲 取模塊;
[0025] 用于獲取用戶輸入的文字以及將所述最佳答案發送給用戶的用戶交互模塊。
[0026]本發明提供的基于對話機器人的招生自動問答方法及系統,將ALICE開源聊天機 器人進行二次開發,將領域本體庫作為問答系統的附加知識庫,利用構建的領域本體的上 下位關系對用戶所提問題進行用戶意圖挖掘,在實現基本問答的基礎上,利用領域本體的 上下位信息對用戶給出相關內容推薦,使得考生在沒有獲取到相關問題答案時也能得到一 些相關聯內容的推薦結果,從而提高了問答系統的滿意度,可以很好地滿足實際應用的需 要。
【附圖說明】
[0027]圖1為利用Prot6g6構建的部分領域本體示意圖;
[0028]圖2為本發明的基于對話機器人的招生自動問答方法的流程圖。
【具體實施方式】
[0029]為了使本發明的目的、技術方案及優點更加清楚明白,下面結合附圖和具體實施 例對本發明做進一步說明。應當理解,此處所描述的具體實施例僅用以解釋本發明,并不用 于限定本發明。
[0030]本發明利用開源的ALICE智能聊天機器人(也叫對話機器人),對其進行修改以適 應在招生領域的應用。本發明對原始ALICE聊天機器人進行了進一步開發,在ALICE源碼中 加入了中文文字支持的代碼,使其支持中文字符處理,并加入了中文分詞模塊和AIML知識 庫構建模塊,最終實現了中文的自動問答。ALICE在本發明中也叫對話機器人。
[0031 ] ALICE內部包含推理及模式匹配機制,采用AIML(Artif icial Intel 1 igence Markup Language)作為知識庫描述語言。它目前利用一種類似于XML的標簽型語言結構來 對知識庫內容進行組織。
[0032] 1)AIML語法構成要素:
[0033] AML是利用XML標準定義的一種服務于人工智能領域需要的特定語言,它描述了 被稱為A頂L對象的一組數據對象,并且描述了處理這些數據對象的程序的行為。在A頂L中, 基本的知識單元是由分類(category)構成的,而每一個分類又是由用戶輸入的問題、ALICE 輸出的答案和可選上下文環境(Optional Context)所組成。一個簡單的分類如下所示:
[0034] 〈category〉
[0035] <pattern>WHAT IS YOUR NAME</pattern>
[0036] <template>My name is alice!〈/template〉
[0037] </category)
[0038]其中,模式〈pattern〉部分代表用戶輸入的問話,模板〈template〉部分則代表用戶 輸入這一問句后,系統應該給出的答案。
[0039] 2)AIML 知識樹:
[0040] AML知識庫是以樹的形式存儲在計算機內存中,樹的每個節點代表模式中的一個 詞組或通配符,根據它在模板中出現的位置前后相連,每個葉子節點包含一個模板屬性,當 該模式匹配成功后將返回葉子節點的模板信息。許多包含不同領域知識的AML文件可以合 并成一個知識庫,提高系統的擴展性和兼容性。
[0041 ] 3)AIML 推理過程:
[0042] AB1L的推理機制是根據用戶輸入的內容從分類中查詢并找到匹配的模板內容。
[0043] ALICE聊天機器人不能直接應用于招生問答,因而需要將其進行修改以適應招生 問答領域。
[0044] 本發明的基于ALICE的招生自動問答系統包括:中文分詞處理模塊、知識庫、答案 獲取模塊、用戶交互模塊,其中各部分的作用和功能如下:
[0045] (1)中文分詞處理模塊
[0046]由于ALICE原始內容沒有包含中文處理模塊,需要加入中文分詞解析器,本發明采 用中科院ICTCLAS分詞器,其具有分詞準確度高、速度快等優點且可以加入自定義詞典,比 如"分數線"、"考研復試流程"等等。綜上,招生自動問答系統在獲取到用戶輸入的文字時, 調用中文處理模塊進行分詞和去除無關詞操作。招生自動問答系統調用ICTCLAS分詞器對 通過用戶交互模塊獲取的用戶輸入的文字進行分詞、去除停用詞操作并將處理后的文字提 交給答案獲取模塊。
[0047] (2)知識庫
[0048] ALICE需要AML知識庫做支撐,因而需要對招生問答領域的問題和答案構建成知 識庫,即AIML知識庫,在本實施例中,通過事先獲取的某學校招生網站的內容,將招生的內 容進行組織并按照A頂L語言的規范構建知識庫。
[0049] 例如:
[0050] ?貴校今年招生人數是多少?
[0051 ] ?請問計算機專業自主招生嗎?
[0052] 那么這兩個問題的構建的匹配模板分別為:
[0053] #〈pattern>* 招生 * 人數 *〈/pattern>
[0054] #〈pattern>* 計算機專業* 自主* 招生*〈/pattern>
[0055] 本實施例對相關的招生內容進行組織并構建了1000條相關的匹配模板。
[0056] (3)答案獲取模塊
[0057]答案獲取模塊對招生自動問答系統獲取的用戶輸入的文字進行處理,答案獲取模 塊根據進行過處理后的句子,利用模糊匹配的方法以及內部推理機制從A頂L知識庫中選擇 最佳答案。
[0058] (4)用戶交互模塊
[0059]用戶交互模塊主要負責用戶與對話機器人之間的交互,用于對話機器人獲取用戶 輸入的文字以及對話機器人將答案信息發送給用戶。中文信息處理模塊對用戶輸入的文字 進行中文分詞和去除停用詞處理,將處理后的結果交給答案獲取模塊,答案獲取模塊進行 分析推理后,從模板中尋找匹配的最佳答案并最終通過用戶交互模塊將最佳答案呈現給用 戶。
[0060]基于ALICE的招生問答機器人由于語料規模的限制以及對用戶查詢意圖的推測不 準確等問題,并不能對所有的問題給出回答結果,使得用戶對問答系統的滿意度下降。本發 明進一步將領域本體作為問答機器人的附加知識庫,根據用戶的問題內容,給出相關內容 推薦,從而提高問答系統整體