中文問答系統知識標記語言的表示方法及中文問答系統的制作方法
【技術領域】
[0001]本發明涉及自然語言處理領域,尤其是一種中文問答系統知識標記語言的表示方法及中文問答系統。
【背景技術】
[0002]近年來,隨著移動互聯網的迅猛發展和人工智能技術的持續創新,國內外IT公司紛紛推出各種智能機器人產品,如以蘋果Siri,GOOGLE Now,微軟小冰,百度語音助手為代表的聊天機器人,可以滿足人們日常生活和聊天情感方面的需要;以中科匯聯微喂和愛客服為代表的客服機器人,可以滿足政府、企業為用戶提供準確、便捷、低成本的專業服務的需要。智能機器人的紛紛涌現和廣泛應用,使得智能機器人技術,與基因工程,納米科學一起被并稱為21世紀三大尖端技術,成為基礎性、戰略性的技術,能夠對生產生活方式產生革命性的影響。智能機器人技術的基礎核心為自然語言處理領域中的問答系統相關技術。通用的問答系統有四個主要組成部分:知識庫,問題理解,知識檢索和答案生成。知識庫存放了問答系統的所有知識,是問答系統的中樞;問題理解實現對用戶提問的語義層次的解析和表示;知識檢索實現從知識庫中檢索與用戶提問語義相關的候選知識;答案生成基于候選知識,經過分析、推理生成最終的答案。這四個部分都與問答系統的知識表示息息相關。然而,科研界和企業界尚未提出一種針對中文領域問答系統的知識表示方法。這種現狀,制約了中文問答系統技術的深入研究與廣泛應用。
[0003]因此,有必要提出一種新的技術方案。
【發明內容】
[0004]針對上述問題,本發明提出一種中文問答系統知識標記語言的表示方法,用于中文問答系統的知識表示,以推動中文問答系統在科研界和企業界的進一步研究和應用。
[0005]本發明提供一種中文問答系統知識標記語言的表示方法,所述中文問答系統知識標記語言的表示方法包括:知識的基本表示方法,知識的語義表示方法,知識模板的表示和實例化方法,知識的引用與關聯方法,知識中命名實體的表示和消歧方法,知識中表情、數學、超文本符號和時間的表不方法。
[0006]進一步的,所述知識的基本表示方法包括:知識主要由ID、參數和知識體構成,知識的ID使用實例名_屬性名〉”表示,ID后面的“{}”內部為知識體定義,所述知識體包括問題域和答案域,問題域在先,以“<#q>”開頭,答案域在后,以“<#a>”開頭,所述知識中的注釋以“//”開頭到本行行尾,如果是多行注釋,每行都要以“//”開頭。
[0007]進一步的,所述知識的語義表示方法包括:是將知識組織成一排有序的語義表達式詞塊,詞塊之間以單個空格分隔;簡單詞塊是句子的分詞,復雜詞塊是通過在分詞上添加語義表達式標記構成,所述復雜詞塊包括關鍵詞、同義詞和語序相關;
[0008]關鍵詞使用“[]”表示;
[0009]如果關鍵詞語序與語句的語義強相關,則使用“{}”將這些語序相關的關鍵詞包括起來;
[0010]在答案內部,使用答案變量來表示變化的內容,答案變量的表示方法是“${變量名},,;
[0011 ]在問題域和答案域中,多個問題或答案之間用“〈I >”隔開;
[0012]如果問題域中有多個問題,則第一個問題為標準問題,后續問題為擴展問題,所述擴展問題即標準問題的其它問法;
[0013]如果答案域中多個答案,則第一個答案為標準答案,后續答案為擴展答案,每個答案都正確,在無特定條件限制時問答系統隨機給出答案;
[0014]同一個問題,在特定條件限制下,有特定的答案,對于這類答案,通過“□”表示特定條件,通過表示條件及其答案之間的分隔符;當無法確定提問滿足的條件時,問答系統支持反問或者枚舉。
[0015]進一步的,所述知識模板的表不和實例化方法包括:知識模板的表不方法是在知識的表示方法的基礎上增加了對模板參數的表示,知識模板的ID使用“〈O實例名_屬性名模板參數I,模板參數2,...>”表示,多個模板參數之間使用英文半角“,”隔開,在實例名、屬性名和知識體中,使用模板參數名表示對模板參數的引用;
[0016]實例化方法包括:在ID和知識體之間,用“()”括起來的部分表示對模板的繼承和對模板參數的實例化,如果新的知識沒有將模板中所有的參數都實例化,或者又引入了新的模板參數,則新的知識依然為模板,并在ID中列出需要實例化的模板參數,從模板派生的知識,繼承了原模板的問答域和答案域,并能進行改寫,在改寫時,能通過“${super.q}”和“$ {super.a}”分別引用原問題和答案。
[0017]進一步的,知識的引用與關聯方法包括:在答案域中,通過“%{知識ID}”能引用其它的知識的答案,如果用戶提問的知識中引用了其它知識,則在生成答案時,結合上下文嵌入所引知識的答案;
[0018]在答案域中,通過標簽:知識ID}”能鏈接其它知識的問題;問答系統在顯示答案時,如果答案中包含鏈接,則將鏈接的標簽展示給用戶,用戶點擊鏈接,問答系統給所鏈接知識的答案。
[0019]進一步的,知識中命名實體的表示和消歧方法包括:對于存在歧義的命名實體,通過“#命名實體@本體類#”的方式進行消歧,“##”中間表示命名實體,所述命名實體包括人名,地名,機構名,品牌名,產品型號,上下位詞;
[0020]在本體資源描述文件和實例資源描述文件中對表示的命名實體進行進一步的描述,所述命名實體包括實體的具體類別、本體的屬性、實例的屬性值。
[0021]進一步的,知識中表情、數學、超文本符號和時間的表示方法包括:
[0022]使用表情的拼音首字母縮寫)”表示表情;
[0023]對時間的表示方法如下:
[0024]年月日:YYYY年MM月DD日;
[0025]時分秒:HH時MM分SS秒;
[0026]星期:周一,周二,周三,周四,周五,周六,周日;
[0027]其它:今日,明日,昨日。
[0028]本發明還提供一種中文問答系統,所述系統使用上述的知識標記語言的表示方法,
[0029]所述系統包括:
[0030]問題輸入模塊,用于輸入用戶提出的問題;
[0031 ]問題提交模塊,用于提交用戶輸入的問題;
[0032]問題歸一化處理模塊,用于對提交的問題進行問題歸一化處理;
[0033]搜索模塊,用于搜索知識并進行問題匹配,獲得與問題相匹配的答案;
[0034]處理答案模塊,用于處理答案中的語義表達式,生成答案,并將結果返回至問答系統界面,若不存在與問題相匹配的答案,則直接將結果返回至問答系統界面;
[0035]查找鏈接模塊,用于在問答系統界面顯示的結果中查找鏈接,若返回的結果中不存在鏈接,則將結果顯示在問答系統界面;
[0036]答案轉換模塊,用于將結果中的鏈接轉換為HTML組件。
[0037]進一步的,采用問題歸一化處理模塊對問題歸一化處理的步驟如下:
[0038]SI 1、刪除問句中的HTML標簽;
[0039]S12、將emoli表情符號轉換為所述標記語言的表情;