專利名稱:一種基于移動終端的智能問答交互系統及方法
技術領域:
本發明涉及信息檢索與查詢領域,尤其涉及一種基于移動終端的智能問答交互系統及方法。
背景技術:
在移動互聯網時代,手機、平板電腦等移動終端,已成為人們重要的信息獲取工具。利用手機等移動終端查詢信息主要通過兩種方式:一是通過在搜索引擎中輸入關鍵字的方式,得到網頁搜索結果,然后從網址結果列表里篩選自己想要的信息;二是通過垂直領域查詢方式,即通過登錄相關網站,或通過安裝不同的應用軟件,來查詢相應的信息。在實際應用中,上述兩種傳統信息查詢方式,各有不足:搜索引擎:1、搜索引擎對網頁信息進行定期檢索,實時性較差;2、搜索結果為網頁地址,需對信息進行篩選,耗費時間;3、關鍵字內容主要靠鍵盤等外設逐字輸入,輸入方
式單一。垂直領域查詢:1、信息面狹窄,網站及軟件所提供的信息單一,不能進行綜合查詢;2、輸入方式以文本為主,部分使用群體受限。隨著人們對快速、準確地獲取信息的需求不斷增加,基于人工智能和自然語言處理領域的問答系統,逐漸興起。問答系統(Question answering)是信息檢索系統的一種高級形式。它能讓用戶用自然語言提問(完整而口語化的問句),并為用戶返回一個簡潔、準確的答案。使用戶不需要依靠關鍵字匹配的搜索引擎,通過一一篩選搜索結果,來獲取所需信息;同時通過自設知識庫或提供外部數據接口,來進行綜合信息查詢,具有方便、快捷、高效等特點。目前,問答系統在手機等移動終端的應用方面,主要有語音助手(如蟲洞語音助手)和聊天機器人,其雖然與傳統的查詢方式相比具有突出的優點,但在識別的準確度、回答的正確性和內容的個性化方面還存在不足;在實時數據、結果展示、模態輸入、信息支持等實用性方面也還有很大的改進空間。有鑒于此,有必要對現有的問答系統予以改進,以解決上述問題。
發明內容
本發明的目的在于針對現有技術的不足,提供一種基于移動終端的智能問答交互系統及方法,提高其識別的準確度和回答的正確性,并增強其內容的個性化和系統的實用性。為實現上述目的,本發明提供了一種基于移動終端的智能問答交互系統,包括:輸入模塊,用于輸入用戶語音、文本及操作指令提問信息,采集用戶參數信息,并將用戶提問信息及用戶參數信息全部轉換為標準的文本格式信息;去噪模塊,用于對文本格式信息,進行去噪和模塊結構化處理;語義解析模塊,用于對去噪和模塊化處理的用戶提問信息進行語義解析;
信息處理模塊,用于對解析信息進行驗證、初步封裝以及數據處理,生成原始結果數據;輸出模塊,用于把該信息處理模塊傳過來的原始結果數據,進行二次封裝和格式化,并將處理完的結果分發給調用服務器,輸出檢索結果。進一步,該輸入模塊,包括:語音輸入模塊,用于用戶語音信息輸入;文本輸入模塊,用于用戶文本信息輸入;操作輸入模塊,用于用戶操作指令輸入;參數采集模塊,用于采集用戶的各種參數信息;文本轉換模塊,用于將用戶提問信息及用戶參數信息轉換為文本格式信息。進一步,該語義解析模塊,包括:分詞模塊,用于建立一套基于現代漢語的語句、句法的分詞算法模型,利用大量基礎詞匯數據,采用最小顆粒分詞算法對用戶輸入的自然語言和指令進行分詞;權重分配模塊,用于分詞之后,對用戶的語境、上下文、偏好及各項參數,進行關鍵字和意圖的初次組合和權重分配,解析出關鍵字;結構化組合模塊,用于對解析出的關鍵字進行結構化組合,得到解析結果。進一步,該信息處理模塊,包括:驗證模塊,用于判斷該語義解析模塊的domain信息是否全面,如果不全面,建立本次上下文模型,保存本次對話記錄,轉入對應的處理平臺;如果全面,直接轉入對應的處理平臺;處理平臺,用于對驗證的domain信息進行處理,生成原始結果數據,并轉發到輸出模塊。進一步,該處理平臺,包括:domain處理模塊,用于與domainType和domainName傳入的domain信息對接,如果domain信息完整,對獲取對應的完整信息進行封裝,并提交給系統知識庫進行數據檢索和處理;如果domain信息不完整,根據缺少信息字段和本domain上下文提示模型進行處理;最后將信息處理的原始結果數據轉發到輸出模塊;系統知識庫,用于存儲各類知識數據和經過用戶調教、編輯以及個性化配置的用戶知識數據;應用接口模塊,用于與外部的應用程序或數據系統對接,進行實時信息查詢。一種基于移動終端的智能問答交互方法,包括以下步驟:步驟1,輸入用戶語音、文本及操作指令提問信息,采集用戶參數信息;步驟2,將用戶提問信息及用戶參數信息轉換為標準的文本格式信息;步驟3,對文本格式信息,進行去噪和模塊結構化處理;步驟4,對去噪和模塊化處理的用戶提問信息進行語義解析;步驟5,對解析信息進行驗證、初次封裝以及數據處理,生成原始結果數據;步驟6,把該步驟5中的原始結果數據,根據用戶參數信息和個性化配置,進行二次封裝和格式化,并將處理完的結果分發給調用服務器,輸出檢索結果。進一步,該步驟4包括以下子步驟:
1、采用分詞算法對用戶輸入的自然語言和指令進行分詞;2、對用戶的語境、上下文、偏好及各項參數,進行關鍵字和意圖的初次組合和權重分配,解析出關鍵字;3、對解析出的關鍵字進行結構化組合,得到解析結果。進一步,該步驟5具體過程為:驗證domain信息是否全面,如果不全面,建立本次上下文模型,保存本次對話記錄,根據缺少信息字段和本domain上下文提示模型進行處理;如果全面,對信息進行封裝,并提交給系統知識庫進行數據檢索和處理;與現有技術相比,本發明的有益效果是:1、采用智能問答交互系統,給用戶提供了一種簡單、快捷地獲取信息的新方式;2、以一問一答的語音方式進行信息查詢,降低了使用門檻,讓用戶輕松愉快的獲取信息;3、提高了問答系統識別的準確度和回答的正確性;并增強其內容的個性化;4、增強了系統的實用性。
圖1為本發明一種基于移動終端的智能問答交互系統及方法的系統結構圖;圖2為本發明一種基于移動終端的智能問答交互系統及方法的方法流程圖。
具體實施例方式下面結合附圖所示的各實施方式對本發明進行詳細說明,但應當說明的是,這些實施方式并非對本發明的限制,本領域普通技術人員根據這些實施方式所作的功能、方法、或者結構上的等效變換或替代,均屬于本發明的保護范圍之內。參圖1所示,圖1為本發明的系統結構圖。在本實施方式中,一種基于移動終端的智能問答交互系統,包括:輸入模塊10,用于輸入用戶語音、文本及操作指令提問信息,采集用戶參數信息(包括用戶當前的動態數據,如:時間、地點、速度、輸入模態、終端類型、網絡類型,及部分用戶在客戶端設置的偏好數據,如:顯示模式、翻譯模式),并將用戶提問信息、及用戶參數信息全部轉換為標準的文本格式信息。本問答系統支持文本、語音及操作輸入方式,尤其語音輸入方式極大地降低了用戶使用的門檻。去噪模塊20,用于對文本格式信息,進行去噪和模塊結構化處理;語義解析模塊30,用于對去噪和模塊化處理的用戶提問信息進行語義解析;信息處理模塊40,用于對解析信息進行驗證、初步封裝以及數據處理,生成原始結果數據;輸出模塊50,用于把該信息處理模塊40傳過來的原始結果數據,根據該輸入模塊10所采集的參數信息(如所用終端類型、型號、分辨率、情景模式、網絡狀況)和個性化配置(如用戶的歷史問答數據、出行偏好、使用習慣、歷史位置、渠道信息等等),進行二次封裝和格式化,并將處理完的結果分發給調用服務器,輸出檢索結果。本問答系統支持多種不同的結果展示形式,包括文字、聲音、圖片、URL(統一資源定位符,Uniform ResourceLocator的縮寫)等,可以根據用戶的不同情況,如時間、地點、網絡方式、終端類型和型號等給予最優的展現方式,簡潔、生動的地展示給用戶最優的答案。該輸入模塊10,包括:語音輸入模塊101,用于用戶語音信息輸入;文本輸入模塊102,用于用戶文本信息輸入;操作輸入模塊103,用于用戶操作指令輸入;參數采集模塊104,用于采集用戶的各種參數信息,如時間、用地地點、終端設備種類和型號、網絡情況、設備方向、速度、加速度等等;文本轉換模塊105,用于將用戶提問信息及用戶參數信息轉換為文本格式信息。該語義解析模塊30,包括:分詞模塊301,用于建立一套基于現代漢語的語句、句法的分詞算法模型,利用大量基礎詞匯數據,采用最小顆粒分詞算法對用戶輸入的自然語言和指令進行分詞。這樣既可以完成普通語句的分詞,又可以有針對性的修改算法配置和添加個性化及偏重詞匯數據,很好地完成分詞任務;權重分配模塊302,用于分詞之后,對用戶的語境、上下文、偏好及各項參數,進行關鍵字和意圖的初次組合和權重分配,解析出關鍵字。其具體實現方式為:對語境、上下文、用戶偏好及各項參數,進行意圖組合和權重因子分配;對意圖關鍵字進行基于類馬爾可夫模型的統計模型進行打分,把排序和意圖進行反驗證,比如通過用戶的使用記錄、習慣或其他規則,如果沒有通過反驗證則給予一定的減分;根據意圖進行排序和權重分配,確定排名第一的意圖模型。結構化組合模塊303,用于對解析出的關鍵字進行結構化組合,得到解析結果。比如用戶查詢輸入“你幫我查查明天去上海的飛機”,根據以上模塊,可以解析出:1交通出行2坐飛機3目的城市是上海4時間是明天;但是我們可以根據從用戶的參數采集或個人數據庫中得到用戶的位置是北京,一般對經濟艙感興趣,打折尤佳,經常乘坐東方航空的航班,根據這些信息解析的結果類似為:< xml version="!.0" encoding= ,,ut/-S,, >
<parseModule xmlns:Chongdong=^http://www.uzo0.cn/xmlw> <stateCode>l</stateCode>
<domainType>51</domainType>
<domainName>fIigth_station_to_station</domainName>
<flight_station_to_station>
< st art > 北京"start >
<dest>±i$</dest>
<date>2013-01-01</date>
<priority>
<seatlevel>2</seatlevel>
<f lightCorp〉東方航空 </flightCorp>
〈/priority〉
</flight_station_to_station>
</parseModule>該信息處理模塊40,包括 :驗證模塊401,用于判斷該語義解析模塊的domain信息是否全面,如果不全面,建立本次上下文模型,保存本次對話記錄,轉入對應的處理平臺;如果全面,直接轉入對應的處理平臺。“domain信息”是問答系統定義的功能分類,每一個大的功能分類都屬于一個單獨的domain, —個完整的domain包括所對應的功能的所有信息。如:航班domain需要如下必選信息:日期(格式為:yyyy-MM_dd)、出發城市或機場、目的城市或機場;除此之外,還有一些可選信息,如坐席類別、打折信息、航空公司信息、時間區間段(00:00-24:00)等等。“domain信息”驗證主要是對該domain進行必選信息的驗證,看必選信息是否已經全部按要求具備,如果全部按要求具備,則把驗證通過的domain信息直接轉入對應的處理平臺進行數據處理。如果不具備,則查驗出缺哪幾項信息,根據所缺少的信息項的domain信息添加上下文標識并把對應信息字段項添加標識,統一交給處理和輸出模塊。處理平臺402,用于對驗證的domain信息進行處理,生成原始結果數據,并轉發到輸出模塊。該處理平臺包括:
domain處理模塊,用于與domainType和domainName傳入的domain信息對接,如果domain信息完整,對獲取對應的完整信息進行封裝,并提交給系統知識庫進行數據檢索和處理;如果domain信息不完整,根據缺少信息字段和本domain上下文提示模型進行處理;最后將信息處理的原始結果數據轉發到輸出模塊。“domainType”為問答系統內部定義的功能分類的唯一數字標識,主要用于機器檢索和識別。如航班查詢出發城市到目的城市功能的domainType為51。“domainName”為問答系統內部定義的功能分類的唯一文字解釋標識,主要用于開發、測試和維護人員進行辨別之用。系統知識庫,用于存儲各類知識數據和經過用戶調教、編輯以及個性化配置的用戶知識數據。比如張三用戶特別喜歡電子產品,如果問答系統提供的答案無法讓他滿意,其可以自己進行編輯,然后提交系統,下次如果他提出類似的問題,問答系統可以優先使用他自己調教的答案;其他用戶問到類似的問題,如果張三愿意分享并且答案質量不錯,他的答案就有可能被問答系統直接推薦給該提問用戶。通過這種用戶間不斷貢獻問題和答案的方式,讓問答系統不擅長的調侃,通過大量活躍用戶的智囊支持,得到非常快速、高效和高質量地補充和更新,讓整個問答變得更有趣味性。應用接口模塊,用于與外部的應用程序或數據系統對接,進行實時信息查詢。如果用戶的問題可以使用系統知識庫,該問答系統會根據用戶當前的情況,快速給予用戶答案數據;如果是需要其他CP(內容提供商,Content Provider)的數據支持,該問答系統則會使用CP提供的合作接口 API (應用程序編程接口,Application ProgrammingInterface)進行實時查詢或使用蟲洞的數據系統進行請求抓取,從而獲取最新的實時數據,保證不會像搜索引擎獲取的是檢索緩存的數據。另外,本問答系統支持近百個大類,數千小類的各種信息類型。用戶只需要本系統的一個終端接口(如Android、Web、Wap、AP1、微信等),就可以方便、快捷地使用這些功能和服務,而不是要安裝上百個專門的軟件,或者收藏上百個專門查詢的網址。參圖2所示,圖2為本發明的方法流程圖。在本實施方式中,一種基于移動終端的智能問答交互方法,包括以下步驟:步驟SI,輸入用戶語音、文本及操作指令提問信息,采集用戶參數信息;步驟S2,將用戶提問信息及用戶參數信息轉換為標準的文本格式信息;步驟S3,對文本格式信息,進行去噪和模塊結構化處理。步驟S4,對去噪和模塊化處理的用戶提問信息進行語義解析;步驟S5,對解析信息進行驗證、初次封裝以及數據處理,生成原始結果數據;步驟S6,把該步驟S5中的原始結果數據,根據用戶參數信息和個性化配置,進行二次封裝和格式化,并將處理完的結果分發給調用服務器,輸出檢索結果。上述步驟S4包括以下子步驟:1、采用分詞算法對用戶輸入的自然語言和指令進行分詞;2、對用戶的語境、上下文、偏好及各項參數,進行關鍵字和意圖的初次組合和權重分配,解析出關鍵字;3、對解析出的關鍵字進行結構化組合,得到解析結果。上述步驟S5具體過程為:
驗證domain信息是否全面,如果不全面,建立本次上下文模型,保存本次對話記錄,根據缺少信息字段和本domain上下文提示模型進行處理;如果全面,對信息進行封裝,并提交給系統知識庫進行數據檢索和處理;本發明提供了一種基于移動終端的智能問答交互系統及方法,其通過輸入模塊10,輸入用戶提問信息;通過去噪模塊20,進行去噪和結構化處理;通過分詞模塊301、權重分配模塊302及結構化組合模塊303對用戶提問信息進行語義解析;通過驗證模塊401及處理平臺402對解析信息進行處理;通過輸出模塊50,生成最優檢索結果。其不僅克服了傳統查詢方式的不足,還對現有問答系統做了實質性的改進,達到了以下技術效果:1、采用智能問答交互系統,給用戶提供了一種簡單、快捷地獲取信息的新方式;2、以一問一答的語音方式進行信息查詢,降低了使用門檻,讓用戶輕松愉快的獲取信息;3、提高了問答系統識別的準確度和回答的正確性;并增強其內容的個性化;4、增強了系統的實用性,具體為:(I)通過系統知識庫和外部應用程序或系統互補提供實時數據;(2)結合不同用戶的實際情況展示個性化最優答案;(3)適用多種模態輸入(文本、語音、操作);(4)支持多種信息類型。對于本領域技術人員而言,顯然本發明不限于上述示范性實施例的細節,而且在不背離本發明的精神或基本特征的情況下,能夠以其他的具體形式實現本發明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發明的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化囊括在本發明內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此外,應當理解,雖然本說明書按照實施方式加以描述,但并非每個實施方式僅包含一個獨立的技術方案,說明書的這種敘述方式僅僅是為清楚起見,本領域技術人員應當將說明書作為一個整體,各實施例中的技術方案也可以經適當組合,形成本領域技術人員可以理解的其他實施方式。
權利要求
1.一種基于移動終端的智能問答交互系統,其特征在于,包括: 輸入模塊,用于輸入用戶語音、文本及操作指令提問信息,采集用戶參數信息,并將用戶提問信息及用戶參數信息全部轉換為標準的文本格式信息; 去噪模塊,用于對文本格式信息,進行去噪和模塊結構化處理; 語義解析模塊,用于對去噪和模塊化處理的用戶提問信息進行語義解析; 信息處理模塊,用于對解析信息進行驗證、初步封裝以及數據處理,生成原始結果數據; 輸出模塊,用于把所述信息處理模塊傳過來的原始結果數據,進行二次封裝和格式化,并將處理完的結果分發給調用服務器,輸出檢索結果。
2.根據權利要求1所述的一種基于移動終端的智能問答交互系統,其特征在于,所述輸入模塊,包括: 語音輸入模塊,用于用戶語音信息輸入; 文本輸入模塊,用于用戶文本信息輸入; 操作輸入模塊,用于用戶操作指令輸入; 參數采集模塊,用于采集用戶的各種參數信息; 文本轉換模塊,用于將用戶提問信息及用戶參數信息轉換為文本格式信息。
3.根據權利要求1所述的一種基于移動終端的智能問答交互系統,其特征在于,所述語義解析模塊,包括: 分詞模塊,用于建立一套基于現代漢語的語句、句法的分詞算法模型,利用大量基礎詞匯數據,采用最小顆粒分詞算法對用戶輸入的自然語言和指令進行分詞; 權重分配模塊,用于分詞之后,對用戶的語境、上下文、偏好及各項參數,進行關鍵字和意圖的初次組合和權重分配,解析出關鍵字; 結構化組合模塊,用于對解析出的關鍵字進行結構化組合,得到解析結果。
4.根據權利要求1所述的一種基于移動終端的智能問答交互系統,其特征在于,所述信息處理模塊,包括: 驗證模塊,用于判斷該語義解析模塊的domain信息是否全面,如果不全面,建立本次上下文模型,保存本次對話記錄,轉入對應的處理平臺;如果全面,直接轉入對應的處理平臺; 處理平臺,用于對驗證的domain信息進行處理,生成原始結果數據,并轉發到輸出模塊。
5.根據權利要求4所述的一種基于移動終端的智能問答交互系統,其特征在于,所述處理平臺,包括: domain處理模塊,用于與domainType和domainName傳入的domain信息對接,如果domain信息完整,對獲取對應的完整信息進行封裝,并提交給系統知識庫進行數據檢索和處理;如果domain信息不完整,根據缺少信息字段和本domain上下文提示模型進行處理;最后將信息處理的原始結果數據轉發到輸出模塊; 系統知識庫,用于存儲各類知識數據和經過用戶調教、編輯以及個性化配置的用戶知識數據; 應用接口模塊,用于與外部的應用程序或數據系統對接,進行實時信息查詢。
6.一種基于移動終端的智能問答交互方法,其特征在于,包括以下步驟: 步驟1:輸入用戶語音、文本及操作指令提問信息,采集用戶參數信息; 步驟2:將用戶提問信息及用戶參數信息轉換為標準的文本格式信息; 步驟3:對文本格式信息,進行去噪和模塊結構化處理; 步驟4:對去噪和模塊化處理的用戶提問信息進行語義解析; 步驟5:對解析信息進行驗證、初次封裝以及數據處理,生成原始結果數據; 步驟6:把所述步驟5中的原始結果數據,根據用戶參數信息和個性化配置,進行二次封裝和格式化,并將處理完的結果分發給調用服務器,輸出檢索結果。
7.根據權利要求6所述的一種基于移動終端的智能問答交互方法,其特征在于,所述步驟4包括以下子步驟: (1)采用分詞算法對用戶輸入的自然語言和指令進行分詞; (2)對用戶的語境、上下文、偏好及各項參數,進行關鍵字和意圖的初次組合和權重分配,解析出關鍵字; (3)對解析出的關鍵字進行結構化組合,得到解析結果。
8.根據權利要求6 所述的一種基于移動終端的智能問答交互方法,其特征在于,所述步驟5具體過程為: 驗證domain信息是否全面,如果不全面,建立本次上下文模型,保存本次對話記錄,根據缺少信息字段和本domain上下文提示模型進行處理; 如果全面,對信息進行封裝,并提交給系統知識庫進行數據檢索和處理。
全文摘要
本發明提供了一種基于移動終端的智能問答交互系統,包括輸入模塊、去噪模塊、語義解析模塊、信息處理模塊及輸出模塊。本發明還提供了一種基于移動終端的智能問答交互方法,包括以下步驟輸入用戶提問信息,采集用戶參數信息;將用戶提問信息及用戶參數信息轉換為標準的文本格式信息;對文本格式信息,進行去噪和模塊結構化處理;對用戶提問信息進行語義解析;對解析信息進行驗證、初次封裝以及數據處理,生成原始結果數據;把原始結果數據,進行二次封裝和格式化,并將處理完的結果分發給調用服務器,輸出檢索結果。其提高了識別的準確度和回答的正確性,增強了內容的個性化和系統的實用性。
文檔編號G06F17/30GK103198155SQ20131015114
公開日2013年7月10日 申請日期2013年4月27日 優先權日2013年4月27日
發明者俞志晨 申請人:俞志晨