非事實類提問應答系統以及方法
【技術領域】
[0001] 本發明涉及利用了計算機以及網絡的提問應答系統,特別涉及針對詢問某件事情 的理由等的所謂的為什么型提問等被稱作非事實(non-factoid)類提問的提問的應答系 統。
【背景技術】
[0002] 關于針對某些事實的提問應答(QA)的研究最近取得大的進步。當前,IBM公司的 Watson、Apple公司的Siri等提問應答系統的改善特別突出,一部分已經開始商用利用。另 外,這些以外的企業也在推進同樣的開發。對于與事實相關的提問據說其精度為85%程度。
[0003] 另一方面,在不是與事實相關的提問,而是從大量的文檔提取針對像「為什么會得 癌癥?」那樣詢問發生某些事態的理由的提問的回答即為什么型提問應答的情況下,則被 認識為是非常困難的任務。上述的IBM公司以及Apple公司的產品也未應對為什么型提問。
[0004] 關于該問題,例如后述的非專利文獻1公開了如下技法:在所謂的信息檢索的技 法中,特別在信息檢索的查詢中加進「理由」這樣的單詞,來從大量的文檔中檢索包含針對 給出的為什么型提問的回答的一段。非專利文獻2公開了如下技術:將人工制作的表征原 因和結果的單詞對的數據庫、或表征理由的句法型式的數據庫中出現的單詞對以及型式用 作屬性,通過有指導學習來確定回答。
[0005] 另一方面,和這些不同,在非專利文獻3中公開了如下技術:將文本的結構性特 征、即局部句法樹、單詞的意義上的歸類、評價表現等的意義上的特征用作屬性,通過有指 導學習來確定回答。
[0006] 現有技術文獻
[0007] 非專利文獻
[0008] 非專利文獻 1:MasakiMurata,SachiyoTsukawaki,ToshiyukiKanamaru, QingMa,andHitoshiIsahara.Asystemforansweringnon-factoidJapanesequestions byusingpassageretrievalweightedbasedontypeofanswer.InProceedingsof NTCIR-6,2007.
[0009] 非專利文獻 2:RyuichiroHigashinakaandHidekiIsozaki.Corpus-based questionansweringforwhy-questions.InProceedingsofIJCNLP,pages418_425., 2008.
[0010] 非專利文獻3 :Jong_HoonOh,KentaroTorisawa,ChikaraHashimoto,Takuya Kawada,StijnDeSaeger?Jun^ichiKazamaandYiouWang.WhyQuestionAnswering usingSentimentAnalysisandWordClasses,InProceedingsofEMNLP-CoNLL2012, pp. 368-378.
[0011] 發明的概要
[0012] 發明要解決的課題
[0013] 上述任意的現有技術雖然都有用,但在使任務的性質充分反映在所利用的屬性以 及其他信息中的意義上,認為依然有改善的余地。特別在使該任務的性質得到反映的手法 中,更有效率地利用因果關系的重要的。因果關系是重要的這樣的問題在本技術領域得到 廣泛的認識,但在現有技術中,有作為因果關系僅關注名詞短語間的因果關系這樣的問題。 并且由于認為名詞短語間的因果關系原則上出現在1句中,因此僅利用在同一句內的名詞 短語間的因果關系。
[0014] 然而,實際上因果關系并非僅有名詞短語間的因果關系。有時在名詞短語間以及 名詞短語與動詞短語間都存在因果關系。進而,有跨2句出現因果關系的情況,這一點在過 去一直置之不理。總而言之,出現在文檔數據內的因果關系的形式是多樣的,在為什么型提 問應答系統中,需要在認識這樣的多樣的形式的因果關系的基礎上再將其信息用在回答提 取中。然而,過去對這樣的多樣性一直沒有關注。
[0015] 進而,在要基于這樣的多樣的形式的因果關系來得到提問的回答的情況下,有如 何處置與如此的因果關系相關的信息尚不明確這樣的問題。
【發明內容】
[0016] 為此本發明的目的在于,提供能通過合適地處置出現在文檔內的因果關系的多樣 的表現,來對非事實類提問給出合適的回答的非事實類提問應答系統。
[0017] 用于解決課題的手段
[0018] 本發明的第1局面所涉及的非事實類的提問應答系統是接受非事實類的提問的 輸入、生成針對該提問的回答的系統,與存儲計算機可讀的多個文檔的文檔存儲單元連接 而使用。該系統包括:候補檢索單元,其響應于接受到提問的輸入,從文檔存儲單元取出 針對該提問的回答候補;屬性生成單元,其響應于由候補檢索單元檢索到回答候補,對提 問、和由候補檢索單元檢索到的各個回答候補的組合生成給定的屬性的集合;和回答選擇 單元,其在被給予由屬性生成單元生成的屬性的集合時,對成為生成該屬性的集合的基礎 的提問和回答候補算出表示該回答候補是針對該提問的正確的回答的程度的評分,將評分 最高的回答候補作為針對提問的回答輸出。屬性生成單元包括:第1屬性算出單元,其對 提問以及各回答候補算出根據各自的詞素信息(morphemeinformation)以及語法信息 (syntacticinformation)求取的第1屬性的組;和第2屬性算出單元,其選擇各回答候補 中的因果關系表現中作為給出針對提問的回答相應的因果關系表現,算出從該因果關系表 現得到的第2屬性的組。屬性的集合包含第1屬性的組和第2屬性的組。
[0019] 根據該非事實類的提問應答系統,能將回答候補中的因果關系表現作為給出針對 提問的回答的因果關系表現是否相應用作第2組的屬性。通過在選擇回答候補的基礎上對 該因果關系表現進行考慮,能使提問的表現和因果關系的表現的含意關系反映在回答的選 擇中。其結果,能提供通過合適地處置出現在文檔內中的因果關系的多樣的表現來對非事 實類提問給出合適的回答的非事實類提問應答系統。
[0020] 優選地,候補檢索單元包括:分類單元,其響應于接受到提問的輸入,將該提問分 類為給定的多個類型的任意者;句分割單元,其響應于接受到提問的輸入,將存儲于文檔存 儲單元的各文檔分割為由連續的1個或多個句構成的句的組,并輸出;和對由句分割單元 輸出的各句的組根據遵循分類單元的分類結果確定的基準來算出評分、將該評分上位的句 的組作為回答候補而輸出的單元。
[0021] 更優選地,第2屬性算出單元包括:線索表現確定單元,其在各回答候補中確定成 為用于因果關系表現的確定的線索的表現;因果關系表現確定單元,其確定通過在各回答 候補中線索表現確定單元所確定的線索表現連接起來的由因果關系的原因部分和結果部 分給出的因果關系表現;一致判定單元,其判定包含于確定的因果關系表現的結果部分中 的名詞和修飾該名詞的謂語的極性的組合、以及包含于提問中的名詞的意義和修飾該名詞 的謂語的極性的組合是否一致;相應性判定單元,其使用一致判定單元的判定結果、和各回 答候補與提問間的單詞匹配以及修飾被修飾樹的子樹匹配來判定在各回答候補中由因果 關系表現確定單元確定的因果關系表現作為針對提問的回答是否相應;和將表示相應性判 定單元的判定結果的信息作為第2屬性的組的屬性輸出的單元。
[0022] 也可以讓第2屬性算出單元還包括:將由因果關系表現確定單元確定的因果關 系表現的單詞的n-gram、該因果關系表現中的修飾被修飾樹的子樹的n-gram、或者包含于 該因果關系表現中的謂語的極性、或它們的任意的組合作為第2屬性的組的屬性輸出的單 JL·〇
[0023] 也可以讓第2屬性算出單元還包括:將由因果關系表現確定單元確定的因果關系 表現當中的結果部分和提問共有的單詞、修飾被修飾樹的子樹、活性的謂語的數量、或者非 活性的謂語的數量、或它們的任意的組合作為第2屬性的組的屬性輸出的單元。
[0024] 本發明的第2方面所涉及的計算機程序使計算機作為上述任意的非事實類的提 問應答系統的全部單元發揮功能。
[0025] 本發明的另一方面所涉及的非事實類的提問應答方法接受非事實類的提問的輸 入,生成針對該提問的回答。該方法使用存儲計算機可讀的多個文檔的文檔存儲單元執行。 該方法包括:候補檢索步驟,響應于接受到提問的輸入,從文檔存儲單元取出針對該提問的 回答候補;屬性生成步驟,響應于在候補檢索步驟檢索到回答候補,對提問、和在候補檢索 步驟檢索到的各個回答候補的組合生成給定的屬性的集合;和回答選擇步驟,響應于被給 予在屬性生成步驟生成的屬性的集合,對成為生成該屬性的集合的基礎的提問和回答候補 算出表示該回答候補是針對該提問的正確的回答的程度的評分,將評分最高的回答候補作 為針對提問的回答輸出。屬性生成步驟包括:第1屬性算出步驟,對提問以及各回答候補算 出根據各自的詞素信息以及語法信息求取的第1屬性的組;和第2屬性算出步驟,選擇各回 答候補中的因果關系表現中作為給出針對提問的回答相應的因果關系表現,算出從該因果 關系表現得到的第2屬性的組。屬性的集合包含第1屬性的組和第2屬性的組。
【附圖說明】
[0026] 圖1是本發明的1個實施方式所涉及的非事實類提問應答系統的概略框圖。
[0027] 圖2是用于說明從修飾被修飾樹中的子樹得到的n-gram的圖。
[0028] 圖3是用于說明因果關系的形式的圖。
[0029] 圖4是用于說明針對提問的回答的相應性的圖。
[0030] 圖5是用于說明在圖1所示的系統中選擇回答候補的方法的示意圖。
[0031] 圖6是表不回答候補的列表例的圖。
[0032] 圖7是表示從回答候補中確定表示因果關系的線索的單詞的方法的圖。
[0033] 圖8是說明謂語的活性/非活性的圖。
[0034] 圖9是表示圖1所示的系統當中因果關系認識部的構成的框圖。
[0035] 圖10是表示圖1所示的因果關系相應性判定部的構成的框圖。
[0036] 圖11是表示圖1所示的回答候補排序部的構成的框圖。
[0037] 圖12是表示本發明的1個實施方式所使用的屬性當中、和現有技術所使用的屬性 相同的屬性的圖。
[0038] 圖13是用于說明本發明的實施方式帶來的效果的圖表。
[0039] 圖14是表示用于實現本發明的1個實施方式所涉及的提問應答系統的計算機的 外觀的示意圖。
[0040] 圖