專利名稱:一種智能互動式問答系統的制作方法
技術領域:
本發明涉及計算機網絡技術,特別是一種利用計算機互聯網,將不同用戶的問題需求提 交到問答系統中,由系統和用戶進行互動式的交流,最終為用戶提供滿意的答案。
背景技術:
隨著互聯網在近幾年的高速發展,上網人數高速增長,網絡已經成為最大最快捷的信 息載體,也成為越來越多人尋求問題答案的第一選擇。
現在在網絡上獲得答案的途徑主要有下面幾種可以瀏覽相關的專業網站,可以在相 關論壇發貼求助,也可以通過各種大型搜索引擎搜索相關結果,還可以通過現有的一些基于 搜索引擎技術的知識聚合類網站進行提問尋找答案。
但是現有的這些途徑都有各自很大的局限性和不足
一、 瀏覽相關的專業網站需要花費大量的時間,能否找到自己需要的答案還要取決于網 站內容是否全面,而且對于很多用戶來說并不知道自己的問題需要到哪個網站去尋找答案。
二、 在論壇發貼求助需要等待別的用戶的回答,在問題解決時間上具有不確定性,另外 在論壇上提問大大局限了對問題進行解答的人群范圍從而降低了找到答案的概率。
三、 各種大型搜索引擎實際上只是對用戶的提問中的一些關鍵字進行搜索,并不是對問 題進行真正有效的分析和處理,因此搜索的結果往往包含大量無效的信息,達不到解答也就 是理解并回答的效果。
四、 一些基于搜索引擎技術的知識聚合類網站實質上就是應用了搜索引擎技術的論壇, 因此二和三中提到的弊端,它都同樣存在,比如問題解決的時間性,比如不能對問題進行有 效的分析。例如, 一個人想知道從圓明園到故宮該怎么走,那么提問可能是以下很多種形式 :"圓明園到故宮怎么走?"、"從圓明園到故宮怎么坐車?"、"圓明園到故宮的交通方 式有哪些?"等等,某一種提問形式也許可以尋找到答案,但換了一種提問形式也許就沒答 案了,而提問者并不清楚該用何種形式進行提問,同樣的一個問題通過不同的語句表達出來 ,基于現有的搜索引擎技術是無法進行有效的分析和處理的。
發明內容
本發明的目的在于提供一種智能互動式的問答系統,包括兩個部分,問題分析系統和 答案尋找系統。問題分析系統指的是可以對用戶不同形式的提問進行智能化交互式的有效分 析和理解,最終形成結構化模塊化的可以被答案尋找系統大量程序化處理的問題格式(在本 說明書中稱其為問題的格式化)。答案尋找系統指的是對問題分析系統產生的結構化模塊化 的問題進行程序化的智能處理,尋找答案并反饋給用戶。用戶通過網絡完成提問和交互過程 ,在缺少網絡的情況下也可以在本地完成。
為了達到上述的發明目的,本發明提供如下技術方案
通過計算機互聯網絡,利用設置在服務器上的軟件系統實現本發明,即用戶通過系統的 輸入界面將問題提交給系統,系統對提交的問題進行分析和理解,如果缺少理解所需的信息 則和用戶進行交互索取所需信息直到對問題正確理解,理解完畢形成格式化問題,并由答案 尋找系統自動搜索問題答案,搜索到答案后將答案反饋給用戶。系統包括問題分析部分和答 案尋找部分。
問題分析部分
用戶登錄服務器,通過輸入界面將問題提交給系統,問題可以通過漢語、英語等各種人 類語言文字也可以通過計算機語言或者其它行業專用符號進行表示,對于通過聲音、圖片、 視頻等多媒體表達的問題則先處理轉化為文字形式再進行后續分析處理
系統對用戶提交的問題進行分析,首先判斷是用何種語言表達(可以多種并存),判斷 完成后轉入相關語言處理子系統進行處理
相關語言子系統對問題進行處理,如果需要分詞則進行分詞處理(比如漢語需要進行分 詞而英語則不需要,如用戶輸入的"少林寺好看么?"需要分詞為"少林寺好看么?" ,漢語的分詞處理需要專用的分詞軟件或自己實現的軟件模塊,北京大學計算語言所等都開 發有相應的軟件模塊)。
分詞處理完畢后使用本系統自帶的句式處理模塊進行句式處理,確定用戶問句的句式和 句子的相關要素如主謂賓從等。
確定句式以后,形成可被答案尋找系統處理的格式化問題,由句式、句子各要素組成, 如用戶輸入的"少林寺好看么?"處理后形成的格式化問題為(句式是非問句;主語 :少林寺;判斷要點好看)
形成格式化問題后,對有可能產生歧義的要素進行反饋處理,實現真正理解用戶的本意 ,形成最終的格式化問題。如例子中的少林寺,經過歧義分析后,發現存在(電影)少林 寺以及(旅游景點)少林寺,而這兩者都具備和(判斷要點好看)匹配的特性,這就需
要反饋給用戶,由用戶確認,假如用戶問的是電影少林寺,則最終形成格式化問題(句式 是非問句;主語電影少林寺;判斷要點好看)。
答案尋找部分
對問題分析系統提供的格式化問題進行處理,給出答案,答案可以是系統答案庫中的答 案,也可以給用戶返回一個外部網站的鏈接,直接指導用戶到系統推薦的相關專業網站進行 査詢。
(1) 對問題分析系統提供的格式化問題(由句式、句子各要素構成)進行句式分析,確定 該句式對應的分析處理方法
(2) 應用對應的句式分析處理方法,從句子各要素中找出所有關鍵詞和他們各自的參數
(3) 按照每個關鍵詞的處理方法,對各個關鍵詞及它們所帶的參數進行處理
(4) 匯總全部的關鍵詞處理結果,形成初步答案
(5) 答案可以有多條,可以是直接的文字或者聲音、圖片、視頻等解釋,也可以是其它 相關網站的鏈接(可以有參數)
(6) 如果沒有找到答案,則反饋給用戶系統推薦的其它答案尋找系統或者請求用戶修改 提問形式。
(7) 對準備返回給用戶的初步答案進行處理,形成用戶可以理解的最終答案(即輸出答 案和輸入問題保持同語言)反饋用戶。
圖l是本發明系統總流程圖 圖2是問題分析系統流程圖 圖3是答案尋找系統流程圖
具體實施例方式
本發明是一種智能互動式的問答系統。給出以下的描述以使任何本領域的技術人員都 能夠實施并使用本發明。給出的特定實施例子的描述和應用僅提供作為實例,進行各種修改 對本領域的技術人員是很容易實現的,因此可以在不脫離本發明精神范圍的條件下,將本文 中所限定的原理應用于其它實施例子和應用。本發明符合包括文中所披露的原理和特征相一 致的許多替換、修改和等效物的最寬范圍。為了簡潔和避免不必要的混淆,不再詳細描述與
本發明相關的技術領域中的已知技術。
下面介紹一個本系統的實施例。 一個用戶想知道從故宮到頤和園應該采用什么樣的交 通方式,于是通過本系統進行問答。
一、 問題分析
用戶通過提問界面輸入問題從故宮到頤和園怎么走
系統處理步驟如下
語言判斷,判斷為中文;
進行分詞處理,處理結果為從故宮到頤和園怎么走,如果碰到不能確定分詞結 果的問題則和用戶進行交互確定(在遇到有歧義的情況下需要);
進行句式判斷(從故宮到頤和園)+怎么+走判斷結果為(定語)+怎么+(行為 動詞)的疑問句;
要素處理關鍵詞為走,定語為(從故宮到頤和園) 走(從a到b)對應為交通(a,b)
問題的格式化產生可以為答案尋找系統所理解處理的格式化問題
生成結果為(句式 一般問句,主語交通;判斷要點故宮,頤和園)
需要說明的是,不管用戶輸入的問題是(從故宮到頤和園怎么走)、(故宮到頤和園如 何走)、(故宮到頤和園該坐什么車)等等,最終經過問題格式化處理后提交給答案尋找系 統的都是同一個格式化問題,也就是(句式 一般問句;主語交通;判斷要點故宮,頤 和園)。
問題格式化的目的是在確保系統處理效率的前提下盡可能的解決用戶輸入問題的個性化 行為。
二、 答案尋找
對(句式 一般問句,主語交通;判斷要點故宮,頤和園)進行處理,給出答案 系統處理步驟如下
取得系統對一般問句的分析處理方法;
找到關鍵詞一個交通,確定它的參數為(故宮,頤和園);
取得關鍵詞交通的處理方法,交通(a, b) = {公交線路(a, b),自駕車線路(a, b),網絡地 圖(a, b),…h
匯總全部關鍵詞處理結果,形成初步答案,由于本問題只有一個關鍵詞,所以無需匯總 答案如下
1、 公交線路(故宮到頤和園)乘814在故宮站上車,經26站,行程17. 53公里,在圓 明園東門站下車,行程預計耗時1小時10分鐘
2、 自駕車線路(故宮到頤和園)故宮北門西行300米,右轉,北行1500米,上北四 環,西行7.5公里,成府路西口右轉,北行500米,左轉,西行5公里,頤和園東門,行程預 計耗時30分鐘
3、 網路地圖(故宮到頤和園)其它專業交通地圖網站鏈接,并將用戶輸入的起點 故宮,終點頤和園作為參數直接傳遞過去,這樣顧客就可以直接進行圖形化的交通路線査 詢了。
權利要求
1.一種智能互動式的問答系統,該系統通過內含的兩個部分,問題分析系統和答案尋找系統,執行對提問的解答。其特征在于通過問題分析系統對用戶不同形式的提問進行智能化交互式的有效分析和理解,最終形成結構化模塊化的可以被答案尋找系統大量程序化處理的問題格式,再通過答案尋找系統對結構化模塊化的問題進行程序化的智能處理,尋找答案并反饋給用戶。
2. 根據權利要求l所述的問題分析系統,其特征在于可以處理各種 表達方式的問題,問題的表達方式可以是各種人類語言,也可以是各種其它行業約定的通用 符號構成的語言,問題的表達方式還可以是聲音、圖片、視頻等多媒體方式。
3. 根據權利要求l所述的答案尋找系統,其特征在于可以對需要分 詞的語言(比如漢語等)進行分詞處理。
4. 根據權利要求2所述的問題格式化,其特征在于可以對問題進行 格式化處理即按照系統設定的格式對提問進行句式處理,確定用戶問句的句式和句子的相 關要素如主謂賓從等,確定句式以后,形成可被答案尋找系統處理的格式化問題,由句式、 句子各要素組成,如用戶輸入的"少林寺好看么?"處理后形成的格式化問題為(句式 :是非問句;主語少林寺;判斷要點好看)。
5. 根據權利要求2所述的問題的智能化交互,其特征在于可以和用 戶進行智能化交互形成格式化問題后,對有可能產生歧義的要素反饋給用戶,由用戶進行 確認,從而實現真正理解用戶的本意。如例子中的少林寺,經過歧義分析后,發現存在( 電影)少林寺以及(旅游景點)少林寺,而這兩者都具備和(判斷要點好看)匹配的特 性,這就需要反饋給用戶,由用戶確認,假如用戶問的是電影少林寺,則最終形成格式化問 題(句式是非問句,主語電影少林寺,判斷要點好看)
6. 根據權利要求l所述的答案尋找系統,其特征在于處理結果可以有多條。
7. 根據權利要求l所述的答案尋找系統,其特征在于處理結果可以 是直接的文字或、聲音、圖片、視頻等,也可以是系統推薦的對解決用戶提問有幫助的外部 網站的鏈接。
8. 根據權利要求4所述的對問題進行格式化處理,其特征在于所遵 循的格式,是靈活可變的,可以由系統管理員進行設定。
9. 根據權利要求4所述的對問題進行格式化處理,其特征在于對通 過不同方式表達出的相同意思的問題,都會形成同一個格式化問題。
10. 根據權利要求5所述的問題的智能化交互,其特征在于對于有 歧義的要素會反饋給用戶所有可能的歧義選項,由用戶進行確認。
全文摘要
本發明涉及計算機網絡技術,利用互聯網為用戶提供問題解答。系統包括問題分析和答案尋找兩部分。問題分析系統可以和用戶進行交互以解決歧義從而實現對問題的正確理解,并處理問題形成可以被程序化處理的格式化問題,意思相同但表達方式不同的問題將形成同一格式化問題。答案尋找系統可對格式化的問題進行處理,尋找答案并反饋用戶,答案可以是系統答案庫中的文字、聲音、圖片、視頻等,也可以是系統推薦的其它相關網站的鏈接。通過本系統,用戶的問題將得到真正的理解,對問題的格式化處理則在確保系統效率的前提下滿足了用戶提問的個性化要求,而答案的動態和多樣性將最大可能的滿足用戶的提問。
文檔編號G06F17/27GK101174259SQ20071020173
公開日2008年5月7日 申請日期2007年9月17日 優先權日2007年9月17日
發明者張琰亮 申請人:張琰亮