專利名稱::一種自動問答方法和系統的制作方法
技術領域:
:本發明涉及知識工程領域、自然語言處理領域、以及計算機網絡信息
技術領域:
,特別是涉及一種基于文檔的自動問答方法和系統。
背景技術:
:目前的網絡包含了數量越來越大的信息,人們可以從網絡中得到大量問題的答案,通常地,網絡由大量超文本(網頁)組成。但是,在網絡中用戶快速定位所需要的信息非常困難。現有技術中解決這一問題的一種重要方法是利用搜索引擎,通過關鍵字匹配搜索到所需的問題答案。但是,這種方法通常會得到大量包含搜索關鍵字但內容與答案無關的網頁,用戶通常還需要在搜索結果中手動或者進一步搜索到相關的網頁,進而獲取想要的信息,實踐證明,現有基于關鍵字的搜索引擎的信息定位效率是比較低的。隨著計算機技術的發展,人們通過自動問答(QA)系統試圖解決這一問題。自動問答(QA)系統,也叫問題回答系統,是基于一個大語料庫(如維基百科,或整個國際互聯網),自動查找并回答用戶用自由文本方式的提問的計算機處理系統。現有的自動問答系統通常利用一個大的文檔集作為知識源,從文檔集中查找用戶問題的答案。其中,國際互聯網是一個理想的自動問答系統的知識源,與靜態的文檔集相比,國際互聯網有兩方面的優勢,一方面國際互聯網上的信息更新迅速,這能夠保證系統能找到比較精確的答案,特別是對于一些時效性較強的問題;另一方面,國際互聯網上的信息的冗余性,可以用來進行自動問答系統的答案驗證,以判斷答案的有效性,返回更加確切的答案。專利申請號為200510130778.5的中國專利公開了一種網上用戶交互問答方法及其系統,其中,所述的系統,包括一模板數據庫,用于存儲供選擇使用的問題模板和/或答案模板;一提問模塊,用于供用戶選擇問題模板進行提問;一回答模塊,用于供用戶使用答案模板進行回答;所述答案模板為用戶手動選擇或手動創建的、或為由所述回答模塊根據當前問題,從所述模板數據庫中自動査找出的與所述問題模板相對應的答案模板。該發明的方法及其系統可提高用戶提問和回答的效率,同時提高計算機處理問題和答案的準確性并積累知識。然而,現有系統還存在很大的缺陷,往往難以回答一些問題,特別是動態的和時間敏感性的問題。
發明內容本發明的目的在于提供一種自動問答方法和系統,以提高答案的準確性,提高返回正確結果的精確度。為實現本發明目的而提供的一種自動問答方法,包括下列步驟步驟A,通過問題分析獲取問題的信息;歩驟B,根據問題分析的結果,生成查詢條件,在知識源中以搜索引擎進行檢索,檢索出與査詢條件相關的文檔集,并將文檔集劃分為段落集;步驟C,根據文檔檢索的結果,以段落檢索方法從段落集中檢索出與査詢條件相關的段落集合,并從段落集合中返回問題的答案。所述步驟C中,從段落集合中返回問題的答案,具體包括下列步驟從段落集合中抽取答案段落,作為問題的答案返回。所述步驟C中,從段落集合中返回問題的答案,也可以具體包括下列步驟從所獲取段落集合中抽取作為答案的句子或詞,作為問題的精確答案返回。所述信息為結構信息,包括詞匯特征和句法特征。所述信息為語義信息,包括問題目標、問題類型、問題內的約束關系。所述獲取問題的語義信息,包括下列步驟應用語義模板來描述問題,使用語義模板匹配的方法來分析問題,獲取問題的語義信息。所述語義模板匹配的方法,包括如下步驟步驟A1,用詞性標注器和命名實體識別器對問題做預處理,產生一個初步的詞匯-句法模板;步驟A2,從模板庫搜索與問題滿足初步條件的問題模板;步驟A3,把詞匯-句法模板和問題模板進行匹配;步驟A4,如果匹配成功,則獲得問題類型、問題目標以及問題內的約束關系;否則,返回步驟A2重新進行搜索。所述步驟B還包括下列步驟判斷段落集是否滿足設定的條件,如果沒有滿足,則重寫査詢條件,重新進行檢索。所述步驟B具體包括下列步驟步驟B1,根據問題分析的結果,從問題中去掉所有停用詞,生成一個初始査詢條件;步驟B2,用所獲得的查詢條件遞交到搜索引擎,從知識源中檢索與問題相關的文檔,然后返回文檔集;步驟B3,將文檔集劃分形成段落集;步驟B4,判斷段落集的數量和質量,以及循環次數是否符合要求,如果段落的數量和質量不符合要求并且循環次數少于設定的值,則轉到步驟B5;否則返回結果,結束檢索過程;步驟B5,根據初始查詢條件的一些關鍵字,用該關鍵字的上義詞或下義詞、同義詞代替得到新的關鍵字,利用新的關鍵字組成新的査詢條件,返回步驟B2,重新進行搜索引擎檢索。所述知識源為國際互聯網;所述文檔為Web文檔。所述步驟B1中,生成初始査詢條件,具體包括如下步驟用啟發式方法和局部文本分析方法來做查詢擴展,生成査詢條件。所述步驟B3中,將web文檔集劃分形成段落集,具體包括如下步驟用HTML文檔解析器解析返回的Web文檔,抽取文檔中的明文;對明文文檔進行提取詞干,去停用詞處理后,把文檔集劃分為段落集。所述步驟B5中,所述利用新的關鍵字組成新的査詢條件,包括下列步驟:利用新的關鍵字,以具有匹配關系和約束關系的詞匯單元為基礎,結合詞匯之間的關系,計算段落與問題的相關度,得到新的査詢條件。所述步驟B5中,關鍵字的上義詞或下義詞、同義詞,是利用WordNet或其他同義詞林根據關鍵字獲取的。所述步驟C中,所述段落是由相鄰的句子構成,且句子數目不大于一特定數值或總長度不大于一特定比特字節。所述步驟C中,所述段落檢索方法包括下列步驟結合tf-idf的統計詞頻特征以及査詢和段落之間的語義相關性,計算段落的得分,然后根據各個段落的得分以降序排序,如果大于一特定閾值,則該段落被列為候選答案段落。所述tf-idf詞頻分數如下式所示—(1—相其中,p表示段落;q表示查詢;tf(t,p)表示詞t在段落p中出現的頻率;S表示用來平衡段落長度的參數;lpl表示段落p的長度;N表示查詢q的候選段落的數目;df(t)表示包含詞t的段落的數目;avgpl表示段落的平均長度。所述語義相關性用下式計算5W表示如果詞t在査詢q里有一個語義相關詞,值為l,否則為0。所述段落的得分用下式計算a表示score1和score2的平衡因子。所述步驟C還包括下列步驟采用基于重疊的窗口的方法去劃分段落,使得描述同一主題的相鄰句子不會被劃分到不同的段落中去。所述步驟C中,抽取作為答案的句子或詞,可以是采用模板匹配方法和/或實體識別方法進行抽取作為答案的句子或詞。所述步驟c中,抽取作為答案的句子或詞,也可以是采用語義模板進行匹配來獲取作為答案的句子。所述步驟c中,抽取作為答案的句子或詞,還可以是采用語義模板進行匹配來獲得答案的實體類型,再利用答案的實體類型在答案的句子中匹配到具體的詞,把該詞作為精確答案。為實現本發明的目的還提供一種自動問答系統,包括問題分析模塊,文檔檢索模塊,段落檢索模塊,其中所述問題分析模塊,用于通過問題分析獲取問題的信息;所述文檔檢索模塊,用于根據問題分析模塊對問題分析的結果,生成査詢條件,在知識源中,以搜索引擎進行檢索,檢索出與查詢條件相關的文檔集,并將文檔集劃分為段落集;所述段落檢索模塊,用于根據文檔檢索模塊檢索的結果,以段落檢索方法從段落集中檢索出與査詢條件相關的段落集合,從段落集合中返回問題的答案。所述的自動問答系統,還包括答案抽取模塊,用于根據段落檢索獲得的與査詢條件相關的段落集合,從所獲取段落集合中抽取作為答案的句子或詞返回。所述信息為結構信息,包括詞匯特征和句法特征。所述信息為語義信息,包括問題目標、問題類型、問題內的約束關系。所述獲取問題的語義信息,為應用語義模板來描述問題,使用語義模板匹配的方法來分析問題,獲取問題的語義信息。所述文檔檢索模塊還用于判斷段落集是否滿足設定的條件,如果沒有滿足,則重寫查詢條件,重新進行檢索。所述知識源為國際互聯網;所述文檔為Web文檔。所述段落是由相鄰的句子構成,且句子數目不大于一特定數值或總長度不大于一特定比特字節。所述段落檢索方法為結合tf-idf的統計詞頻特征以及査詢和段落之間的語義相關性,計算段落的得分,然后根據各個段落的得分以降序排序,如果大于一特定閾值,則該段落被列為候選答案段落。所述tf-idf詞頻分數如下式所示<image>imageseeoriginaldocumentpage13</image>其中,p表示段落;q表示查詢;tf(t,p)表示詞t在段落p中出現的頻率;s表示用來平衡段落長度的參數;lpl表示段落p的長度;N表示査詢q的候選段落的數目;df(t)表示包含詞t的段落的數目;avgpl表示段落的平均長度。所述語義相關性用下式計算,印W)表示如果詞t在査詢q里有一個語義相關詞,值為l,否則為O。所述段落的得分用下式計算<image>imageseeoriginaldocumentpage13</image>a表示scorel禾口score2的平衡因子。所述抽取作為答案的句子或詞,是采用模板匹配方法和/或實體識別方法進行抽取作為答案的句子或詞。所述抽取作為答案的句子或詞,也可以是采用語義模板進行匹配來獲取作為答案的句子。所述步驟C中,抽取作為答案的句子或詞,還可以是采用語義模板進行匹配來獲得答案的實體類型,再利用答案的實體類型在答案的句子中匹配到具體的詞,把該詞作為精確答案。本發明的有益效果是本發明的自動問答方法和系統,在現有的自動問答系統中,增加段落(Passage)檢索,減少待處理的文檔大小,使得系統更有效率,提高答案的準確性,提高返回正確答案的精確度;同時,通過利用語義模板等來分析問題,從而獲得更多的信息,并利用這些信息來輔助檢索,在段落中更加精確地定位到包含精確答案的句子,甚至精確答案的詞或短語,從而進一步提高自動答案的質量和準確性。圖1是本發明自動問答方法流程圖;圖2是本發明實施例中語義模板匹配方法流程圖;圖3是本發明實施例中文檔檢索過程流程圖;圖4是本發明自動問答系統示意圖。具體實施例方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明的一種自動問答方法和系統進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。本發明實施例以國際互聯網為知識源,用Google搜索引擎系統從互聯網上搜索相關Web文檔為例,說明本發明的一種自動問答方法和系統,但應當說明的是,這并不是對本發明應用范圍的限定,本發明同樣可以適用于其他知識源(如維基百科或一些本地語料庫等),通過其他搜索方法(或系統,如百度,雅虎或一些本地搜索引擎等)從文檔中檢索出問題的答案的自動問答方法和系統。本發明實施例的一種基于Web文檔的自動問答方法和系統,采用基于語義模板等的問題分析技術分析問題,然后用Google搜索引擎系統從國際互聯網上檢索相關Web文檔,利用問題中的關鍵字之間的關系來生成高質量的査詢關鍵字,通過查詢關鍵字,利用段落(Passage)檢索的方法,從相關文檔中快速檢索,返回高質量的答案段落,進一步從答案段落中得到問題的精確答案。下面詳細說明本發明的一種自動問答方法,如圖1所示,包括下列步驟步驟S100,問題分析。通過問題分析獲取問題的信息,包括結構和語義信息。其中,結構信息包括詞匯特征和句法特征,語義信息包括問題目標、問題類型、問題內的約束關系等。較佳地,在本發明實施例中,應用語義模板(Pattern)來描述問題,使得能夠為用戶提供接口來提交問題。同時,使用語義模板匹配的方法來分析問題,獲取問題的語義信息。所述語義模板匹配的方法,如圖2所示,具體包括如下步驟步驟S110,用詞性標注器(Part-of-SpeechTagger,POSTagger)和命名實體識別器(NameEntityRecognizer)對問題做預處理,產生一個初步的詞匯-句法模板(SLP);步驟S120,從現有的模板庫搜索與問題滿足初步條件(如包含相同問題類型及關鍵字)的問題模板(QP);所述步驟S120中,模板庫即存儲問題模板的數據庫,其一實施例與專利申請號為200510130778.5的中國專利公開的一種網上用戶交互問答方法及其系統中的模板數據庫相同。其中,所述問題模板由問題類型、和/或關鍵字、和/或可填充部分組成。例如,問題"去英國留學需要哪些條件?",其對應問題模板為"[描述/行為]需要〈Q〉哪些〈/Q〉條件"其中,"哪些"即問題類型,"需要"、"條件"即關鍵字,"[描述/行為]"即可填充部分,"〈Q〉、〈/Q〉"即問題類型標識符。問題模板也可以有其他的定義形式,如只包含結構的而不包含語義的模板,或可填充部分的語義標簽可以包含多層次的,用戶可選的概念分類。步驟S130,把詞匯-句法模板和問題模板進行匹配;步驟S140,如果匹配成功,則獲得問題類型、問題目標以及問題內的約束關系;否則,返回步驟S120重新進行搜索。步驟S200,文檔檢索。根據問題分析的結果,生成初始的査詢條件,在國際互聯網等知識源中,以搜索引擎進行檢索,檢索出與查詢條件相關的文檔集,并將文檔集劃分為段落集;并在判斷沒有段落集滿足設定的條件時,重寫査詢條件,重新進行檢索。作為本發明可實施的一種方式,本發明實施例利用Google搜索引擎作為文檔的搜索引擎,從Google搜索引擎中搜索與問題相關的Web文檔,組成文檔集,然后對返回的Web文檔集進行處理,以獲得文檔中的明文。所述檢索過程是一個循環過程,如圖3所示,包括以下步驟步驟S210,根據問題分析的結果,從問題中去掉所有停用詞,生成一個初始查詢條件;查詢條件由多個關鍵字構成,査詢條件的生成基于問題分析的結果。但是,如何生成最適合的査詢條件仍然是一個困難的問題。原因在于1)査詢往往包含不足夠的,同時在査詢關鍵字和段落里出現的詞,導致無法返回最相關的段落;2)—些包含足夠共同出現的詞的査詢,詞語之間缺乏關系,因此會返回一些不相關的段落。例如,給定一個問題"WhereisBeijing",生成的査詢是"Beijing",用這個査詢去檢索回相關的段落(passage):A)BeijingCityisanindependentlyadministeredmunicipaldistrict.TheclimateinBeijingisofthecontinentaltype,withcoldanddrywintersandhotsummers.B)BeijingisoneoftheFourGreatAncientCapitalsofChina.Itwillhostthe2008SummerOlympics.C)ThepopulationofBeijingMunicipality,definedasthetotalnumberofpeoplewhoresideinBeijingformoreperyear,was15.38millionin2005.不難看出,上述的幾個段落沒一個是和給定的問題相關的。對于這種査詢,需要用一些相關的詞做查詢擴展。作為一種可實施的方式,較佳地,本發明用啟發式方法和經典的局部文本分析(localcontextanalysis,LCA)方法來做查詢擴展,生成査詢條件。步驟S220,將獲得的查詢條件遞交到Google搜索引擎,從國際互聯網中檢索與問題相關的Web文檔,然后返回Web文檔集。步驟S230,將Web文檔集劃分形成段落(Passage)集。作為一種可實施的方式,本發明用HTML文檔解析器解析返回的Web文檔,抽取文檔中的明文。對明文文檔進行提取詞干,去停用詞等處理后,把文檔集劃分為段落集。作為一種可實施的方式,采用基于重疊的窗口的方法。該方法在文獻"CallanJP.Passage-levelEvidenceinDocumentRetrieval[C].Proc.ofthe17thACM-SIGIRconference(SIGIR1994),NewYork,USA:ACMPress,1994:302-310."中已闡述,這里不做詳細說明。窗口大小實際上就是段落(Passage)的長度。為了不包括過多的冗余信息,設置窗口大小為250byte,且移動步長為50byte。例如給定某一段落,其第一個窗口即前250byte,第二個窗口為51300byte,依此類推。也可以按照句子數目設置窗口大小,假設每3個句子為一個窗口。例如某一段落由N個句子組成sl...sn,其第一個窗口即sls2s3,第二個窗口為s2s3s4,依此類推。步驟S240,判斷段落集的數量和質量,以及循環次數是否符合要求,如果段落的數量和質量不符合要求并且循環次數少于設定的值(如循環5次),則轉到步驟S250;否則返回結果,結束檢索過程。步驟S250,重寫查詢條件。根據初始査詢條件的一些關鍵字,用該關鍵字的上義詞或下義詞、同義詞代替得到新的關鍵字,利用新的關鍵字組成新的査詢條件,返回步驟S220,重新進行Google搜索引擎檢索。作為一種可實施的方式,利用新的關鍵字,以具有匹配關系和約束關系的詞匯單元為基礎,結合詞匯之間的關系,計算段落與問題的相關度,得到新的査詢條件。作為一種可實施方式,利用WordNet或其他同義詞林獲取關鍵字的上義詞、下義詞或同義詞。為了減少關鍵字之間的錯誤匹配,語義相關的詞作為一個整體來考慮,用啟發式方法來重寫查詢條件,如A)當關鍵詞是名詞時,它的直接修飾詞和它一起作為一個關鍵字。例如,問題"whatisthelongestriverinchina","longestriver"被作為一個關鍵字考慮。B)當關鍵字是形容詞或者副詞時,并且跟在疑問詞"how"后面時,此關鍵字和"how"—起被轉換成與問題語義分類相關的詞。例如,對于問題"howfarisitfromEarthtoMars",其問題類型是Distance,所以把"howfar"轉換成"distance"。C)當關鍵字是名詞時,并且跟在疑問詞"what"之后,此關鍵字會在査詢中刪掉。以問題"WhatcountryisAswanHighDamlocatedin"為例,詞"country"從查詢中去掉。D)對于一些固定搭配中的詞,其與構成搭配的詞作為整體構成一個關鍵字。例如問題"Whatarepenniesmadeof","madeof'作為一^^關鍵字加到查詢中。一些關鍵字以多形態存在,例如名詞單復數、動詞時態等;可以用詞干分析器(如Porter'sstemmer)把這些詞轉換成其詞根形式。通過新的關鍵字,組成新的查詢條件,重新進行查詢,返回步驟S220,重新進行Google搜索引擎檢索和段落檢索。步驟S300,段落檢索。根據文檔檢索的結果,以段落檢索方法從段落集中檢索出與查詢條件相關的段落集合,并從段落集合中抽取答案段落返回。段落檢索將從返回的Web文檔集中找出若干個最相關的段落(Passage)。段落是長度有限的、由一個或幾個句子組成的一段文本。較佳地,因為過長的段落會包含過多的冗余信息,增加分析的難度和返回錯誤信息的概率,本發明實施例的段落(Passage),由相鄰的句子構成,并且長度不大于250比特字節(byte)。段落檢索將從返回的文檔集中找出若干個最相關的段落。把待處理的文檔集的大小減少為有限數目的段落(Passage)集。段落檢索的基本方法是比較查詢條件和候選段落以決定哪個段落與査詢條件相關,典型的査詢是一個詞向量,詞之間的關系是布爾關系,不管是基于詞頻還是基于語言模型的檢索都極大的依賴于査詢的質量。較佳地,為克服現有基于詞頻和語言模型的段落檢索中,經常會返回一些不相關的段落的缺陷,因此,本發明實施例的段落檢索,結合tf-idf的統計詞頻特征以及査詢和段落之間的語義相關性,計算段落的得分,包括兩部分:tf-idf詞頻分數、與段落的語義相關度,然后根據各個段落的得分對它們排序(如降序排序),若大于一定閾值(例如0.3),則作為候選答案段落(passage)。在本發明實施例中,段落與査詢的相關度由其與查詢的匹配程度決定。即對于一個査詢,其最后得分包括兩部分第一個是tf-idf詞頻分數;第二個是與段落(passage)的語義相關度。tf-idf詞頻分數正如公式(l)所示,是一個向量空間模型,同時考慮關鍵字在査詢和段落(passage)中出現的頻率。語義相關性用公式(2)計算,統計查詢和段落(passage)里的語義相關詞的數目。段落(passage)的最終得分用公式(3)計算<formula>formulaseeoriginaldocumentpage19</formula>(1)<formula>formulaseeoriginaldocumentpage19</formula>(3)式中符號含義如下p:段落(passage);q:査詢;tf(t,p):詞t在段落p中出現的頻率;s:用來平衡段落長度的參數;lpl:段落p的長度;N:查詢q的候選段落的數目;df(t):包含詞t的段落的數目;avgpl:段落的平均長度;SW:如果詞t在査詢q里有一個語義相關詞,值為l,否則為0;a:score1和score2的平衡因子。其中,語義相關的定義為,對詞wl和詞w2,如果wl在WordNet或其他同義詞林中是w2的上義詞、下義詞或同義詞,則兩者語義相關。同時,為了保持語義信息的完整性,作為本發明的一種可實施方式,采用基于重疊的窗口的方法去劃分段落(Passage),使得描述同一主題的相鄰句子不會被劃分到不同的段落中去。從所獲得的段落集中選取作為答案的段落(答案段落),當作答案返回。答案段落可以作為答案直接返回給用戶。步驟S400,精確答案抽取。從所獲取答案段落中抽取作為答案的句子或詞,作為問題的精確答案返回。自動問答系統中的精確答案(ExactAnswer)抽取一般有兩種方法利用模板匹配方法或者實體識別方法進行抽取作為答案的句子或詞。1)模板匹配方法對于問題,其答案形式往往是一種或者是幾種固定的模式,這些模式可以用來幫助系統査找描述答案的小段落。如WhenwasBborn它的答案模式往往是Bwasbornin<ANSWER>.In<ANSWER>,BwasborninShanghai.這里<ANSWER>表示精確答案所在的位置。如果它的答案段落是"Bisgoodatmath.In1981,BwasbominShanghai.HegraduatedfromtheShanghaiNo.1primaryschool."這個段落的第二句與上面的第二個模板匹配,可以作為答案句子返回,甚至,其中的"1981"與模板里的〈ANSWER〉相對應,因此可以作為精確答案返回。作為另一種可實施的方式,也可以用正則表達式來實現模板匹配。例如判斷一個字符串是不是整數,或者判斷它是不是一個電話號碼,判斷是不是一個email地址等。2)實體識別方法實體識別的方法是在答案段落中,找出與問題目標(questiontarget)對應的實體詞作為答案返回。如WhenwasBbom它的問題目標是TIME。它的答案段落(AnswerPassage)是"In1981,BwasborninShanghai."這個段落里"1981"是一個TIME實體,因此直接把它作為精確答案返回。較佳地,考慮到模板匹配的方法只考慮答案的位置,而沒考慮所返回的答案的類型是否匹配。而實體識別方法只考慮類型匹配,而沒有考慮答案的位置的缺陷,在本發明實施例中,作為一種可實施的方式,采用一種更加靈活實用的模板匹配方法,采用語義模板進行匹配,其中的可變化部分的語義標注是一種實體標簽,進行實體類型匹配,同時考慮答案的位置,又考慮所返回的答案的類型是否匹配,抽取作為答案的句子或詞。本發明實施例中采用語義模板,以語義標注進行實體類型匹配的模板匹配方法,在本申請人申請的申請號為200510130778.5,名稱為一種網上用戶交互問答方法及其系統,的發明專利申請中予以詳細的說明,本發明實施例中全文引用,不再一一詳細描述。對應于本發明的一種自動問答方法,本發明還提供一種自動問答系統,如圖4所示,其包括四個模塊問題分析模塊51,文檔檢索模塊52,段落檢索模塊55,以及答案抽取模塊56。所述問題分析模塊51,用于通過問題分析獲取問題的信息,包括結構和語乂"f曰息;所述文檔檢索模塊52,用于根據問題分析模塊51對問題分析的結果,生成初始的査詢條件,在國際互聯網等知識源中,以搜索引擎進行檢索,檢索出與查詢條件相關的文檔集53,并將文檔集53劃分為段落集54;并在判斷段落集54不滿足設定的條件時,重寫査詢條件,重新進行檢索;所述段落檢索模塊55,用于根據文檔檢索模^^52檢索的結果,以段落檢索方法從段落集54中檢索出與査詢條件相關的段落集合,并從段落集合中選取最相關的段落作為答案段落返回。所述答案抽取模塊56,用于根據段落檢索獲得的與查詢條件相關的段落集合,從所獲取段落集合中抽取作為答案的句子或詞返回。首先,問題分析模塊51對用戶問題進行分析,以獲得問題的信息,包括句法結構和語義信息;然后,文檔檢索模塊52,根據問題的信息,生成初始査詢條件,在國際互聯網等知識源中,以Google搜索引擎進行搜索,檢索出與査詢條件相關的Web文檔集53,并將文檔集53劃分為段落集54;并在判斷段落集54不滿足設定的條件時,重寫査詢條件,重新進行檢索;其后,段落檢索模塊55從段落集中檢索出與查詢條件相關的段落,并從段落集合中選取最相關的段落作為答案段落返回;最后,答案抽取模塊56從檢索出的與査詢條件相關的答案段落集合中抽取作為答案的句子或詞。本發明的自動問答系統以與自動問答方法相應的過程進行工作,本領域技術人員根據本發明實施例的描述,可以實現本發明的自動問答系統,因此,在本發明實施例中,不再一~^詳細描述。下面通過實驗來描述本發明自動問答方法和系統對問題返回正確結果的精確度。選擇TREC-12(2003)的事實性的(factoid)問題作為測試集。根據問題類型,把問題分為四類。如本發明實施例所提到的,用Google搜索引擎系統作為文檔的搜索引擎,每個問題返回不多于40篇文檔,每篇文檔被劃分為段落(passage)。每個問題的候選段落(passage)由文檔數和文檔長度決定,本實驗中,每個問題平均有400個候選段落(passage),所有的候選段落(passage)被打分并且排序,最后,每個問題返回五個得分最高的段落(passage)。為了比較,在Google搜索引擎上也做了同樣的實驗,測試集的問題被直接遞交到Google返回相關文檔,搜索結果包括URL、標題和摘要。通過人工去檢査返回的前五個結果,然后評估并記錄下結果。為了評估結果,利用平均倒排序(MeanReciprocalrank,MRR)計算出沒有答案段落的問題比例進行評估。答案段落是包含了問題精確答案的段落。對每個問題,系統最多返回五個答案段落。每個段落被獨立評估成正確(correct),相關(relevant),禾口不正確(incorrect)。如果段落中包含了明確的正確的答案,它被評估成正確(correct);如果段落中不包含明確的正確的答案,但是包含了正確答案的重要信息,它被評估成相關(relevant);否則,其被評估成不正確(incorrect)。問題q的倒排序(ReciprocalRank,RR)被定義成公式(4),<formula>formulaseeoriginaldocumentpage23</formula>其中<formula>formulaseeoriginaldocumentpage23</formula>表示第一個正確(correct)段落在返回的段落列表中排的次序。利用MRR評估如公式(5)所示。MRR是所有問題的倒排序的平均值。<formula>formulaseeoriginaldocumentpage23</formula>(5)沒有返回答案段落的問題的比例用公式(6)計算<formula>formulaseeoriginaldocumentpage23</formula>(6)式中符號含義如下e」"問題集;n1有至少一個正確(correct)或者相關(relevant)段落的問題的數目;N:所有問題的數目。另外,對于每個問題,如果其返回的結果中至少有一個正確(correct)段落或者相關(relevant)段落,最好的段落在結果中的排序位置(Rank)將被記錄下來。對于一些問題,其結果中不存在正確(correct)段落或者相關(relevant)段落,則結果記錄為ML。本發明自動問答方法和系統實驗結果如表1所示本發明的自動問答方法和系統為59'what,類型(what-type)的問題返回正確(correct)或者相關(relevant)段落,對其余的65what-type問題則返回NIL。表l.返回答案段落(passage)的問題數目和排序以及MRR<table>tableseeoriginaldocumentpage24</column></row><table>what-type問題的MRR值是0.314。what-type問題的MRR值比how-type('how,類型)和when-type('when'類型)問題要高,兩者的MRR值分別是0.283和0.242。31.5%(即(rankl+rank2)/total=(28+11)/(59+65))的what-type問題至少有一個正確(correct)或相關(relevant)段落排在結果的top-2位置。對于how-type和when-type問題,這個百分比則分別是14.3%((表1:rankl+rank2)/total=(5+3)/56)和20%((表1:rankl+rank2)/total=(2+2)/20)。對這三種類型問題,返回結果中不含正確(correct)段落或者相關(relevant)段落的比例分別是52.4%(即RankNIL(65)/total(124))、21.4%(即RankNIL(12)/total(56))、和50%匸即RankNIL(10)/totai(2(t))。結果表明,本發明的自動問答系統對于what-type問題,結果優于其他兩種類型的問題。原因在于,跟另兩種問題相比,what-type問題目標明確、陳述清晰,搜索引擎能夠為該類問題返回更加準確的文檔。所有問題的總體MRR值是29.8%,沒有返回答案段落(passage)的問題比例則是43.5%。表2顯示的是在Google上手工實驗的實驗結果。when-type問題的MRR值是0.225。how-type和when-type問題的MRR值分別是0.298和0.254。表2.返回答案段落(passage)的問題數目和排序以及MRR<table>tableseeoriginaldocumentpage24</column></row><table>對于所有的問題,Google的MRR值是24.8%。結果表明,本發明的自動問答方法和系統優于Google。在表2中,105個問題返回NIL,而在表1中這個數字是87。實驗結果表明,本發明的自動問答方法和系統可以從排序較低的文檔里找到正確的答案段落(passage)并提升它的排序。通過以上結合附圖對本發明具體實施例的描述,本發明的其它方面及特征對本領域的技術人員而言是顯而易見的。以上對本發明的具體實施例進行了描述和說明,這些實施例應被認為其只是示例性的,并不用于對本發明進行限制,本發明應根據所附的權利要求進行解釋。權利要求1、一種自動問答方法,其特征在于,包括下列步驟步驟A,通過問題分析獲取問題的信息;步驟B,根據問題分析的結果,生成查詢條件,在知識源中以搜索引擎進行檢索,檢索出與查詢條件相關的文檔集,并將文檔集劃分為段落集;步驟C,根據文檔檢索的結果,以段落檢索方法從段落集中檢索出與查詢條件相關的段落集合,并從段落集合中返回問題的答案。2、根據權利要求l所述自動問答方法,其特征在于,所述步驟C中,從段落集合中返回問題的答案,具體包括下列步驟從段落集合中抽取答案段落,作為問題的答案返回。3、根據權利要求l所述的自動問答方法,其特征在于,所述步驟C中,從段落集合中返回問題的答案,具體包括下列步驟從所獲取段落集合中抽取作為答案的句子或詞,作為問題的精確答案返冋。4、根據權利要求1至3任一項所述的自動問答方法,其特征在于,所述信息為結構信息,包括詞匯特征和句法特征。5、根據權利要求1至3任一項所述的自動問答方法,其特征在于,所述信息為語義信息,包括問題目標、問題類型、問題內的約束關系。6、根據權利要求5所述的自動問答方法,其特征在于,所述獲取問題的語義信息,包括下列步驟應用語義模板來描述問題,使用語義模板匹配的方法來分析問題,獲取問題的語義信息。7、根據權利要求6所述的自動問答方法,其特征在于,所述語義模板匹配的方法,包括如下步驟步驟A1,用詞性標注器和命名實體識別器對問題做預處理,產生一個初步的詞匯-句法模板;步驟A2,從模板庫搜索與問題滿足初歩條件的問題模板;步驟A3,把詞匯-句法模板和問題模板進行匹配;步驟A4,如果匹配成功,則獲得問題類型、問題目標以及問題內的約束關系;否則,返回步驟A2重新進行搜索。8、根據權利要求1至3任一項所述的自動問答方法,其特征在于,所述步驟B還包括下列步驟判斷段落集是否滿足設定的條件,如果沒有滿足,則重寫查詢條件,重新進行檢索。9、根據權利要求8所述的自動問答方法,其特征在于,所述步驟B包括下列步驟步驟Bl,根據問題分析的結果,從問題中去掉所有停用詞,生成一個初始査詢條件;步驟B2,用所獲得的查詢條件遞交到搜索引擎,從知識源中檢索與問題相關的文檔,然后返回文檔集;步驟B3,將文檔集劃分形成段落集;步驟B4,判斷段落集的數量和質量,以及循環次數是否符合要求,如果段落的數量和質量不符合要求并且循環次數少于設定的值,則轉到歩驟B5;否則返回結果,結束檢索過程;步驟B5,根據初始査詢條件的一些關鍵字,用該關鍵字的上義詞或下義詞、同義詞代替得到新的關鍵字,利用新的關鍵字組成新的査詢條件,返回步驟B2,重新進行搜索引擎檢索。10、根據權利要求9所述的自動問答方法,其特征在于,所述知識源為國際互聯網;所述文檔為Web文檔。11、根據權利要求9所述的自動問答方法,其特征在于,所述步驟B1中,生成初始査詢條件,具體包括如下步驟用啟發式方法和局部文本分析方法來做査詢擴展,生成査詢條件。12、根據權利要求10所述的自動問答方法,其特征在于,所述步驟B3中,將web文檔集劃分形成段落集,具體包括如下步驟用HTML文檔解析器解析返回的Web文檔,抽取文檔中的明文;對明文文檔進行提取詞干,去停用詞處理后,把文檔集劃分為段落集。13、根據權利要求9所述的自動問答方法,其特征在于,所述步驟B5中,所述利用新的關鍵字組成新的査詢條件,包括下列歩驟利用新的關鍵字,以具有匹配關系和約束關系的詞匯單元為基礎,結合詞匯之間的關系,計算段落與問題的相關度,得到新的査詢條件。14、根據權利要求9所述的自動問答方法,其特征在于,所述步驟B5中,關鍵字的上義詞或下義詞、同義詞,是利用WordNet根據關鍵字獲取的。15、根據權利要求1至3任一項所述的自動問答方法,其特征在于,所述步驟C中,所述段落是由相鄰的句子構成,且句子數目不大于一特定數值或總長度不大于一特定比特字節。16、根據權利要求1至3任一項所述的自動問答方法,其特征在于,所述步驟C中,所述段落檢索方法包括下列步驟結合tf-idf的統計詞頻特征以及查詢和段落之間的語義相關性,計算段落的得分,然后根據各個段落的得分以降序排序,如果大于一特定閾值,則該段落被列為候選答案段落。17、根據權利要求16所述的自動問答方法,其特征在于,所述tf-idf詞頻分數如下式所示<formula>formulaseeoriginaldocumentpage4</formula>其中,p表示段落;q表示査詢;tf(t,p)表示詞t在段落p中出現的頻率;S表示用來平衡段落長度的參數;lpl表示段落p的長度;N表示査詢q的候選段落的數目;df(t)表示包含詞t的段落的數目;avgpl表示段落的平均長度;所述語義相關性用下式計算,印SW表示如果詞t在査詢q里有一個語義相關詞,值為l,否則為0;所述段落的得分用下式計算scwe(p,《)二scw^(p,《)+axscore2(/),g)a表示score1禾卩score2的平衡因子。18、根據權利要求16所述的自動問答方法,其特征在于,所述步驟C還包括下列步驟采用基于重疊的窗口的方法去劃分段落,使得描述同一主題的相鄰句子不會被劃分到不同的段落中去。19、根據權利要求3所述的自動問答方法,其特征在于,所述步驟C中,抽取作為答案的句子或詞,是采用模板匹配方法和/或實體識別方法進行抽取作為答案的句子。20、根據權利要求3所述的自動問答方法,其特征在于,所述步驟C中,抽取作為答案的句子或詞,是采用語義模板進行匹配來獲取作為答案的句子。21、根據權利要求3所述的自動問答方法,其特征在于,所述步驟C中,抽取作為答案的句子或詞,是采用語義模板進行匹配來獲得答案的實體類型,再利用答案的實體類型在答案的句子中匹配到具體的詞,把該詞作為精確答案。22、一種自動問答系統,其特征在于,包括問題分析模塊,文檔檢索模塊,段落檢索模塊,其中所述問題分析模塊,用于通過問題分析獲取問題的信息;所述文檔檢索模塊,用于根據問題分析模塊對問題分析的結果,生成査詢條件,在知識源中,以搜索引擎進行檢索,檢索出與査詢條件相關的文檔集,并將文檔集劃分為段落集;所述段落檢索模塊,用于根據文檔檢索模塊檢索的結果,以段落檢索方法從段落集中檢索出與査詢條件相關的段落集合,從段落集合中返回問題的答案。23、根據權利要求22所述的自動問答系統,其特征在于,還包括答案抽取模塊,用于根據段落檢索獲得的與査詢條件相關的段落集合,從所獲取段落集合中抽取作為答案的句子或詞返回。24、根據權利要求22或23所述的自動問答系統,其特征在于,所述信息為結構信息,包括詞匯特征和句法特征。25、根據權利要求22或23所述的自動問答系統,其特征在于,所述信息為語義信息,包括問題目標、問題類型、問題內的約束關系。26、根據權利要求22或23所述的自動問答系統,其特征在于,所述獲取問題的語義信息,為應用語義模板來描述問題,使用語義模板匹配的方法來分析問題,獲取問題的語義信息。27、根據權利要求22或23所述的自動問答系統,其特征在于,所述文檔檢索模塊還用于判斷段落集是否滿足設定的條件,如果沒有滿足,則重寫查詢條件,重新進行檢索。28、根據權利要求27所述的自動問答系統,其特征在于,所述知識源為國際互聯網;所述文檔為Web文檔。29、根據權利要求22或23所述的自動問答系統,其特征在于,所述段落是由相鄰的句子構成,且句子數目不大于一特定數值或總長度不大于一特定比30、根據權利要求22或23所述的自動問答系統,其特征在于,所述段落檢索方法為結合tf-idf的統計詞頻特征以及査詢和段落之間的語義相關性,計算段落的得分,然后根據各個段落的得分以降序排序,如果大于一特定閾值,則該段落被列為候選答案段落。31、根據權利要求30所述的自動問答系統,其特征在于,所述tf-idf詞頻分數如下式所示其中,p表示段落;q表示査詢;tf(t,p)表示詞t在段落p中出現的頻率;s表示用來平衡段落長度的參數;lpl表示段落p的長度;N表示査詢q的候選段落的數目;df(t)表示包含詞t的段落的數目;avgpl表示段落的平均長度;所述語義相關性用下式計算,印W)表示如果詞t在査詢q里有一個語義相關詞,值為l,否則為0;所述段落的得分用下式計算a表示score1禾卩score2的平衡因子。32、根據權利要求23所述的自動問答系統,其特征在于,所述抽取作為答案的句子或詞,是采用模板匹配方法和/或實體識別方法進行抽取作為答案的句子。33、根據權利要求23所述的自動問答系統,其特征在于,所述抽取作為答案的句子或詞,是采用語義模板進行匹配來獲取作為答案的句子。34、根據權利要求23所述的自動問答方法,其特征在于,所述步驟C中,抽取作為答案的句子或詞,是采用語義模板進行匹配來獲得答案的實體類型,再利用答案的實體類型在答案的句子中匹配到具體的詞,把該詞作為精確答案。全文摘要本發明公開了一種自動問答方法和系統。該方法包括下列步驟步驟A,通過問題分析獲取問題的信息;步驟B,根據問題分析的結果,生成查詢條件,在知識源中以搜索引擎進行檢索,檢索出與查詢條件相關的文檔集,并將文檔集劃分為段落集;步驟C,根據文檔檢索的結果,以段落檢索方法從段落集中檢索出與查詢條件相關的段落集合,并從段落集合中返回問題的答案。其提高答案的準確性,提高返回正確結果的精確度。文檔編號G06F17/27GK101377777SQ20071012130公開日2009年3月4日申請日期2007年9月3日優先權日2007年9月3日發明者劉文印申請人:北京百問百答網絡技術有限公司