本申請涉及計算機領域,尤其涉及一種用于提供知識信息的技術。
背景技術:
隨著大數據的發展,智能應用逐步普及,為了方便用戶獲得幫助,實現問題快速定位或更快獲得相應的解決方案,現有軟件和平臺服務逐步采用智能問答系統。然而,現有的智能問答系統根據用戶的請求內容,利用客戶服務系統的智能搜索引擎在知識庫中搜索數據,并根據置信度或者信心分輸出結果給用戶,過多依賴于搜索引擎的準確性,問題的解決方案的覆蓋率不高,問答的準確性也有限。
技術實現要素:
本申請的目的是提供一種用于提供知識信息的方法與設備,用以解決智能問答系統依賴搜索引擎導致的知識信息提供準確率受限的問題。
為實現上述目的,本申請提供了一種用于提供知識信息的方法,該方法解決了智能問答系統依賴搜索引擎導致的知識信息提供準確率受限的問題,該方法包括:
在參考問題庫中識別與用戶提交的原始問題相對應的目標參考問題;
根據所述目標參考問題及問答映射模型確定對應的知識信息;
將所述知識信息提供至所述用戶。
為實現上述目的,本申請提供了一種用于提供知識信息的設備,該設備解決了智能問答系統依賴搜索引擎導致的知識信息提供準確率受限的問題,該設備包括:
目標參考問題識別裝置,用于在參考問題庫中識別與用戶提交的原始問題相對應的目標參考問題;
問答映射裝置,用于根據所述目標參考問題及問答映射模型確定對應的知識信息;
知識提供管理裝置,用于將所述知識信息提供至所述用戶。
與現有技術相比,本申請在參考問題庫中識別與用戶提交的原始問題相對應的目標參考問題,根據問答映射模型確定目標參考問題對應的知識信息,并將所述知識信息提供至所述用戶,從而使得智能問答不依賴搜索引擎或相關技術即可準確的獲得所需要的解決方案或知識點,提升智能問答的解決方案覆蓋率和準確性,進一步地,本方案通過對智能問答中提問方進行語義辨析和補全也進一步地提高了方案或知識點匹配的準確性。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本申請的其它特征、目的和優點將會變得更明顯:
圖1示出根據本申請一個方面的一種用于提供知識信息的方法流程圖;
圖2示出根據本申請一個優選實施例的步驟s1的方法流程圖;
圖3示出根據本申請另一個方面的一種用于提供知識信息的方法流程圖;
圖4示出根據本申請另一個方面的一種用于提供知識信息的設備示意圖;
圖5示出根據本申請另一個優選實施例的目標參考問題識別裝置的設備示意圖;
圖6示出根據本申請另一個方面的一種用于提供知識信息的設備示意圖;
圖7示出根據本申請另一個優選實施例的提供知識信息的示意圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
下面結合附圖對本申請作進一步詳細描述。
在本申請一個典型的配置中,終端、服務網絡的設備和可信方均包括一個或多個處理器(cpu)、輸入/輸出接口、網絡接口和內存。
內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(ram)和/或非易失性內存等形式,如只讀存儲器(rom)或閃存(flashram)。內存是計算機可讀介質的示例。
計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存(pram)、靜態隨機存取存儲器(sram)、動態隨機存取存儲器(dram)、其他類型的隨機存取存儲器(ram)、只讀存儲器(rom)、電可擦除可編程只讀存儲器(eeprom)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(cd-rom)、數字多功能光盤(dvd)或其他光學存儲、磁盒式磁帶,磁帶磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括非暫存電腦可讀媒體(transitorymedia),如調制的數據信號和載波。
圖1示出根據本申請一個方面的一種用于提供知識信息的方法流程圖。所述方法包括步驟s1、步驟s2、步驟s3。
其中,在步驟s1中所述設備1在參考問題庫中識別與用戶提交的原始問題相對應的目標參考問題;在步驟s2中所述設備1根據所述目標參考問題及問答映射模型確定對應的知識信息;在步驟s3中所述設備1將所述知識信息提供至所述用戶。
具體地,在步驟s1中所述設備1在參考問題庫中識別與用戶提交的原始問題相對應的目標參考問題。所述用戶提交的原始問題即在例如在線客服機器人等一類智能問答系統中用戶所輸入的問題,例如,在阿里巴巴的淘寶購物平臺進行提問:“余額寶轉出何時到賬?”,“如何獲取淘金幣?”等問題。所述參考問題庫即為對應一類用戶問題的一個標準問題庫,例如“余額寶轉出何時到賬?”,“余額寶轉出的到賬時間?”,“余額寶轉出到儲蓄卡什么時候可以到賬?”,上述舉例均能歸并為一個標準問題,即“余額寶轉出到賬時間”。在此標準問題庫與標準問題即為此處參考問題庫以及參考問題的一個舉例說法,所述參考問題庫可以對用戶提交的原 始問題的歷史數據進過篩選或去掉噪聲數據后采用聚類算法進行聚類,從而將若干相似問題聚類為一個標準問題庫。此外,還可以采用人工建立標準問題庫的方法,并不限于這幾種,其它可以對直接采用歷史問題服務數據所建立的標準問題庫均應包含在本申請的保護范圍內。
其中,在獲取到用戶提交的問題后可以通過識別關鍵詞或歸類問題中的有效特征等方法以及隨機森林、循環神經網絡等算法將用戶問題與標準問題進行匹配,從而將標準問題庫中與用戶所提交的原始問題對應的標準問題識別出來,這樣具有識別功能的處理過程可以是如圖7中的標準問題識別模型。識別出的標準問題可以是一個或多個,這些識別出來的與用戶原始問題對應的標準問題即為所述目標參考問題。多個標準問題可以是一個中心問題的擴展問題,或是相似的候選標準問題,可以根據需要匹配唯一還是多個的具體要求通過對歷史數據分析將置信度最高或用戶評價的信心分最高的標準問題優選出來。
本領域技術人員應能理解上述建立參考問題庫以及從參考問題庫中識別目標參考問題的方式僅為舉例,其他現有的或今后可能出現的建立參考問題庫以及從參考問題庫中識別目標參考問題的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,在步驟s2中所述設備1根據所述目標參考問題及問答映射模型確定對應的知識信息。所述知識信息即為與所述目標參考問題相對應的一個或多個知識點或相應的解決方案,例如文章或者自助工具,自助工具可以是是一個產品開通、關閉、賬單查看等功能的直達鏈接,這些知識信息在實施例中可以使用知識/文章管理模塊進行承載,文章管理模塊實現文章或知識點的增刪改查等操作。將每個所述目標參考問題均匹配對應的知識信息以提供給用戶進行參閱即為所述問答映射模型的功能,例如文章通過問答映射模塊掛載在某一個標準問題下,根據若用戶原始問題與該標準問題即可通過問答映射模塊找到該文章。
本領域技術人員應能理解上述對應知識信息的管理和被問答映射模塊的映射的方式僅為舉例,其他現有的或今后可能出現的對應知識信息的管理和被問答映射模塊的映射的方式如可適用于本申請,也應包含在本申 請保護范圍以內,并在此以引用方式包含于此。
接著,在步驟s3中所述設備1將所述知識信息提供至所述用戶。即通過智能問答系統,例如在線客服機器人將對應的文章、知識點、自助工具的信息通過用戶可見的方式提供給客戶,使得用戶獲得對應所提出的原始問題的解答。優選地,用戶獲得所述知識信息后可以根據自身要求對所提供所述知識信息進行評價,又或者智能問答系統通過基于用戶評價反饋,例如通過用戶點擊知識點的行為判斷輸出是否準確,進行優化,補充問答映射模塊的映射關系,從而將所反饋的知識點調整的更適用于用戶的當前所提出的問題。
優選地,在步驟s2中所述設備1根據所述目標參考問題及所述用戶的用戶狀態信息在所述問答映射模型中確定對應的知識信息。所述用戶狀態信息是指用戶的賬戶狀態、登陸狀態等個體差異信息,例如在阿里巴巴的淘寶商品服務平臺中賬戶就有個人賬戶和商家賬戶兩種,這兩種賬戶狀態即為一種用戶狀態信息。因為目標參考問題對應的知識信息不止一個,所以需要參考用戶狀態信息來確定最適合提出用戶原始問題的當前用戶所需的知識信息即常見的問答映射是一一對應的關系,但是針對復雜的業務是一對多的關系。例如重置支付密碼,針對個人用戶和商家用戶是不同的解決方案,因此要區分開。而重置支付密碼這是一個標準問題,因此在問答映射的時候可以有兩種方案,一種是配置兩條策略規則:rule1:賬戶類型=個人,輸出知識點id1,對應個人用戶重置支付密碼的操作方法;rule2:賬戶類型=商家,輸出知識點id2,對應商家用戶重置支付密碼的操作方法。還有一種就是通過樹的形式進行展現,一棵樹兩個葉子,分別加載知識點id1和id2,每個葉子對應的條件就是賬戶類型=個人,賬戶類型=商家。通過以上方式使得所呈獻給用戶的知識信息更加貼合用戶的個人特點,使得智能問答系統的問答準確率提升,同時也提升用戶體驗。
本領域技術人員應能理解上述針對目標參考問題結合用戶狀態信息在問答映射模型中確定知識信息的方式僅為舉例,其他現有的或今后可能出現的對應知識信息的管理和被問答映射模塊的映射針對目標參考問題結合用戶狀態信息在問答映射模型中確定知識信息的方式如可適用于本 申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
更優選地,所述用戶狀態信息包括以下至少任一項:所述用戶的應用訪問行為;所述用戶的賬戶類型信息;所述用戶的賬戶狀態信息。其中,所述用戶的應用訪問行為是指用戶在系統中所記錄的歷史訪問行為數據,例如訪問時間或用戶所在的軟件使用生命周期階段,又例如用戶日常對商品的類型訪問偏好等。所述用戶的賬戶類型信息是指用戶賬戶特點,例如上文所舉例的用戶和商家的賬戶類型;所述用戶狀態信息是指其它未盡的所有能用于判斷用戶問題需求差別的個體差異信息。
優選地,所述方法還包括步驟s4(未示出),在步驟s4中所述設備1通過對多條問題記錄進行聚類處理建立所述參考問題庫,其中,所述參考問題庫中包括多個問題聚類,每個問題聚類包括多條所述問題記錄及對應的參考問題。所述問題記錄是指歷史客戶人員與用戶交互過程中的服務記錄,或者是之前的問答系統所記錄的歷史記錄。所述聚類處理是指通過聚類算法的處理將若干問題記錄所代表的一類問題處理形成參考問題。所述問題聚類即為若干問題所代表的問題類型及與此問題類型所對應的參考問題,即一個問題聚類解決一種類型的問題。
其中,通過聚類處理建立所述參考問題庫的方法包括使用層次聚類方法對給定的問題記錄數據集進行層次的分解,直到某種條件滿足為止。即采用自底向上的策略,首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有的對象都在一個簇中,或者某個終結條件被滿足,絕大多數層次聚類方法屬于這一類,它們只是在簇間相似度的定義上有所不同,因此本申請中的聚類處理方法不限于所列舉的方式。具體地,給出要聚類的n個問題記錄對象以及n*n的距離矩陣,或者是相似性矩陣亦可,在此,n的數值動態的,根據用戶對問題的提出頻次以及問題的數量等決定,例如可以在10-100之間進行設置。此處舉例的層次式聚類方法的基本步驟如下:首先,將每個問題記錄對象歸為一類,共得到n類,每類僅包含一個對象。接著計算類與類之間的距離,也就是它們所包含的對象之間的距離,在此,距離就是相似度,兩個用戶問題之間的相似度,可使用文本匹配算法計算。接著,找到相似度的分值最近的兩個類進行合 并,于是總的類數少了一個。接著重新計算新的類與所有舊類之間的距離。重復進行距離計算與合并直到最后初始的n問題記錄所代表的n各類合并成一個類為止,即這里的一個類中包含了n個對象。進一步地,參考問題庫的生成還結合聚類處理優化為如下舉例步驟:根據線上數據挖掘客戶原始問題或問題記錄并聚類處理;算法輸出聚類數據提供給知識信息存儲管理模塊例如知識庫;知識庫平臺對參考問題庫進行審核操作,例如基于相似度的閾值舍棄部分原始的用戶問題,設置閾值可在在0.1-0.9之間,或是輔助人工進行審核;知識庫記錄了所有的審核入庫、忽略沒通過審核的問題記錄數據等操作數據,并反饋給聚類處理算法;聚類處理算法進行優化,優化后的算法再進行數據挖掘和聚類處理。如此所形成的參考問題庫覆蓋了所有的用戶問法,彌補了傳統通過人工形成優化問題列表的轉換時間慢、效率低的缺點,將用戶問法聚類到一個標準問題上,從而提升效率。
本領域技術人員應能理解上述聚類處理以及反饋優化的方式僅為舉例,其他現有的或今后可能出現的聚類處理以及反饋優化的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
更優選地,所述問題記錄滿足預定的記錄篩選條件。因為所述問題記錄是歷史客戶人員與用戶交互過程中的服務記錄,或者是之前的問答系統所記錄的歷史記錄,因此會有不準確的記錄或者用戶評價較差的記錄,可以設置例如評價星級超過四星或者被評為準確率高于百分之八十,又或評價高、沒有差評詞的服務記錄進行處理。在此,所述記錄篩選條件即為對歷史問答服務記錄所設置的準確率或置信率的條件,從而使得用于形成參考問題庫的數據減少質量低不適于用于用戶反饋的數據,提升準確率。
本領域技術人員應能理解上述設置預定的記錄篩選條件的方式僅為舉例,其他現有的或今后可能出現的設置預定的記錄篩選條件的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
圖2示出根據本申請一個優選實施例的步驟s1的方法流程圖。所述步驟s1包括步驟s11、步驟s12、步驟s13、步驟s14。
其中,在步驟s11中所述設備1確定與用戶提交的原始問題相對應的問題特征信息;在步驟s12中所述設備1根據所述問題特征信息在參考問題庫中識別與所述原始問題相對應的目標參考問題;在步驟s13中所述設備1在參考問題庫中識別與用戶提交的原始問題相對應的一個或多個候選目標參考問題;在步驟s14中所述設備1根據所述候選目標參考問題對應的置信度信息從所述一個或多個候選目標參考問題中優選目標參考問題。
具體地,在步驟s11中所述設備1確定與用戶提交的原始問題相對應的問題特征信息。所述用戶提交的原始問題即在例如在線客服機器人等一類智能問答系統中用戶所輸入的問題,例如,在阿里巴巴的淘寶購物平臺進行提問:“余額寶轉出何時到賬?”。所述相對應的問題特征信息即為例如關鍵詞或其它根據用戶提問或狀態等數據提取的代表用戶的特征類標識。例如,用戶的原始問題為“1月8日下午15:00轉出的余額寶合適到達綁定的儲蓄賬戶?”,這樣的問題提取關鍵詞“余額寶”“轉出”“到賬時間”“儲蓄卡”等信息即為對應的問題特征信息。提取所述問題特征信息使得目標參考問題的匹配更加準確,從而獲得準確的對應知識信息使得智能問答的準確率提升。
優選地,在步驟s11中所述設備1根據用戶提交的原始問題及所述用戶的用戶狀態信息確定對應的問題特征信息。所述用戶狀態信息如所述用戶狀態信息是指用戶的賬戶狀態、登陸狀態等個體差異信息,因此可以用來提取相應的特征從而確定對應的問題特征信息,例如,用戶的問題是的問題是“會員權益有哪些?”根據用戶的狀態中的會員身份而歸屬而確定用戶的提問是那個服務領域的會員,例如是淘寶會員或天貓會員權益,從而定位問題的特征是屬于淘寶還是天貓。
本領域技術人員應能理解上述確定問題特征信息的方式僅為舉例,其他現有的或今后可能出現的確定問題特征信息的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,在步驟s12中所述設備1根據所述問題特征信息在參考問題庫中識別與所述原始問題相對應的目標參考問題。所述識別與所述原始問題相對應的目標參考問題,即為問題識別,是一種用戶問題分類的問題,分 類是依據實時采集的用戶行為或賬戶等數據以及用戶求助提問的數據來刻畫用戶特征的類標識,進而可以預測未來數據的歸類情況。在實施例中可這一功能可由問題識別模塊進行,即是將用戶提問的問題映射到標準問題庫中的一個。具體地,問題識別算法包括隨機森林算法或rnn(recurrentneuralnetwork、循環神經網絡),這是一種節點定向連接成環的人工神經網絡。這種網絡的內部狀態可以展示動態時序行為。rnn可以利用它內部的記憶來處理任意時序的輸入序列,這讓它可以更容易處理如不分段的手寫識別、語音識別等。如接上文舉例,獲取關鍵詞特征后定位到“余額寶轉出到賬標準問題”,再由后面的問答映射模塊,提取“15:00”的知識信息,找出標準問題對應的兩小時,給出“17:00”點前到賬的用戶反饋。
本領域技術人員應能理解上述識別與所述原始問題相對應的目標參考問題的方式僅為舉例,其他現有的或今后可能出現的識別與所述原始問題相對應的目標參考問題的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,在步驟s13中所述設備1在參考問題庫中識別與用戶提交的原始問題相對應的一個或多個候選目標參考問題。即通過相應的問題識別算法所得出的目標參考問題會是一個或一個以上,因為最終反饋給用戶的知識信息最優是基于一個唯一的目標參考問題才會使得相應的知識信息準確和具有針對性。因此,所述候選目標參考問題即為前述所得出的一個或一個以上的目標參考問題在優選唯一前的狀態。例如,將用戶的描述通過聚類算法生成一個標準問題以及很多擴展問題,如在支付寶的服務平臺中用戶提問:“為何使用不了花唄?”,“花唄怎么開通不了?”“花唄無法激活?”,“開通花唄有什么條件?”這幾個用戶問題都屬于一個標準問題:開通花唄的條件,這些問題都是作為這個標準問題的擴展問題,這些擴展問題在識別的過程中即可能成為候選目標參考問題。
接著,在步驟s14中所述設備1根據所述候選目標參考問題對應的置信度信息從所述一個或多個候選目標參考問題中優選目標參考問題。所述置信度即通過歷史數據中用戶對候選目標參考問題的評價或分數,可用于候選目標參考問題的優選。例如,對用戶的提問進行問題識別,需要匹配 到一個唯一的標準問題,如果匹配到多個標準問題,則輸出信心分最高的一個,其中,信心分是問題識別模塊內部算法的一個分值,分值越大表明信心分越高。基于此,使得給用戶選擇的目標參考問題的正確率提升。
本領域技術人員應能理解上述優選目標參考問題的方式僅為舉例,其他現有的或今后可能出現的優選目標參考問題的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
圖3示出根據本申請另一個方面的一種用于提供知識信息的方法流程圖。所述方法包括步驟s5、步驟s1、步驟s2、步驟s3。
其中,在步驟s5中所述設備1檢測用戶提交的原始問題是否語義完整;在步驟s1中所述設備1若所述原始問題語義完整,在參考問題庫中識別所述原始問題對應的目標參考問題;在步驟s2中所述設備1根據所述目標參考問題及問答映射模型確定對應的知識信息;在步驟s3中所述設備1將所述知識信息提供至所述用戶。
在此,圖1中所述步驟s2、步驟s3與圖3中步驟s2、步驟s3相同或相似,在此不再贅述。
具體地,在步驟s5中所述設備1檢測用戶提交的原始問題是否語義完整。判斷用戶語義是否完整也就是問題是否完整,和業務場景密切相關,例如,“余額寶轉出什么時候到賬?”這一用戶提問就缺少轉賬時間、金額、轉入銀行等信息。因此需要定義各種業務場景,初期可通過運營人員對各種業務場景的語義進行初始定義,后期可通過數據反饋進行優化,例如對用戶評價高的問答中的語義關鍵詞進行提取進而綜合后將某一個標準問題對應的原始問題中的詞匯進行計算,將占比較高且不是助詞或語氣詞的詞匯進行反饋。
優選地,在步驟s5中所述設備1獲取用戶基于語義補充提示信息增加的關于所述原始問題的問題信息,并更新所述原始問題,直至更新后的所述原始問題語義完整。即若用戶提問語義不完整,則反問用戶,直到上下文語義補全為止,如上文中舉例,將用戶提問所缺少的轉賬時間、金額、轉入銀行等信息進行提示補全,直至相關的關鍵詞均補全再進行后面的目標參考問題的相關工作。經過反復的提示和補全使得用戶的原始提問更加 具有針對性,并能夠收集到一定的用戶狀態信息,從而有利于對對應的相關知識信息進行判斷。
本領域技術人員應能理解上述語義檢測的方式僅為舉例,其他現有的或今后可能出現的語義檢測的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,在步驟s1中所述設備1若所述原始問題語義完整,在參考問題庫中識別所述原始問題對應的目標參考問題。即在所述用戶所提的原始問題語義完整的基礎上,系統可用于提取特征或采用其他匹配方式對參考問題庫中的參考問題進行匹配,識別的方法與前文所述相同。基于完整的語義使得系統所可以提取的特征或參考的信息更加準確和全面,從而避免因為用戶問題語義或關鍵詞的缺失所導致目標參考問題匹配不準確,進而提升智能問答的準確性。
圖4示出根據本申請另一個方面的一種用于提供知識信息的設備示意圖。所述設備1包括目標參考問題識別裝置11、問答映射裝置12、知識提供管理裝置13。
其中,目標參考問題識別裝置11在參考問題庫中識別與用戶提交的原始問題相對應的目標參考問題;問答映射裝置12根據所述目標參考問題及問答映射模型確定對應的知識信息;知識提供管理裝置13將所述知識信息提供至所述用戶。
具體地,目標參考問題識別裝置11在參考問題庫中識別與用戶提交的原始問題相對應的目標參考問題。所述用戶提交的原始問題即在例如在線客服機器人等一類智能問答系統中用戶所輸入的問題,例如,在阿里巴巴的淘寶購物平臺進行提問:“余額寶轉出何時到賬?”,“如何獲取淘金幣?”等問題。所述參考問題庫即為對應一類用戶問題的一個標準問題庫,例如“余額寶轉出何時到賬?”,“余額寶轉出的到賬時間?”,“余額寶轉出到儲蓄卡什么時候可以到賬?”,上述舉例均能歸并為一個標準問題,即“余額寶轉出到賬時間”。在此標準問題庫與標準問題即為此處參考問題庫以及參考問題的一個舉例說法,所述參考問題庫可以對用戶提交的原始問題的歷史數據進過篩選或去掉噪聲數據后采用聚類算法進行聚類,從 而將若干相似問題聚類為一個標準問題庫。此外,還可以采用人工建立標準問題庫的方法,并不限于這幾種,其它可以對直接采用歷史問題服務數據所建立的標準問題庫均應包含在本申請的保護范圍內。
其中,在獲取到用戶提交的問題后可以通過識別關鍵詞或歸類問題中的有效特征等方法以及隨機森林、循環神經網絡等算法將用戶問題與標準問題進行匹配,從而將標準問題庫中與用戶所提交的原始問題對應的標準問題識別出來,這樣具有識別功能的處理過程可以是如圖7中的標準問題識別模型。識別出的標準問題可以是一個或多個,這些識別出來的與用戶原始問題對應的標準問題即為所述目標參考問題。多個標準問題可以是一個中心問題的擴展問題,或是相似的候選標準問題,可以根據需要匹配唯一還是多個的具體要求通過對歷史數據分析將置信度最高或用戶評價的信心分最高的標準問題優選出來。
本領域技術人員應能理解上述建立參考問題庫以及從參考問題庫中識別目標參考問題的方式僅為舉例,其他現有的或今后可能出現的建立參考問題庫以及從參考問題庫中識別目標參考問題的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,問答映射裝置12根據所述目標參考問題及問答映射模型確定對應的知識信息。所述知識信息即為與所述目標參考問題相對應的一個或多個知識點或相應的解決方案,例如文章或者自助工具,自助工具可以是是一個產品開通、關閉、賬單查看等功能的直達鏈接,這些知識信息在實施例中可以使用知識/文章管理模塊進行承載,文章管理模塊實現文章或知識點的增刪改查等操作。將每個所述目標參考問題均匹配對應的知識信息以提供給用戶進行參閱即為所述問答映射模型的功能,例如文章通過問答映射模塊掛載在某一個標準問題下,根據若用戶原始問題與該標準問題即可通過問答映射模塊找到該文章。
本領域技術人員應能理解上述對應知識信息的管理和被問答映射模塊的映射的方式僅為舉例,其他現有的或今后可能出現的對應知識信息的管理和被問答映射模塊的映射的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,知識提供管理裝置13將所述知識信息提供至所述用戶。即通過智能問答系統,例如在線客服機器人將對應的文章、知識點、自助工具的信息通過用戶可見的方式提供給客戶,使得用戶獲得對應所提出的原始問題的解答。優選地,用戶獲得所述知識信息后可以根據自身要求對所提供所述知識信息進行評價,又或者智能問答系統通過基于用戶評價反饋,例如通過用戶點擊知識點的行為判斷輸出是否準確,進行優化,補充問答映射模塊的映射關系,從而將所反饋的知識點調整的更適用于用戶的當前所提出的問題。
優選地,所述問答映射裝置12根據所述目標參考問題及所述用戶的用戶狀態信息在所述問答映射模型中確定對應的知識信息。所述用戶狀態信息是指用戶的賬戶狀態、登陸狀態等個體差異信息,例如在阿里巴巴的淘寶商品服務平臺中賬戶就有個人賬戶和商家賬戶兩種,這兩種賬戶狀態即為一種用戶狀態信息。因為目標參考問題對應的知識信息不止一個,所以需要參考用戶狀態信息來確定最適合提出用戶原始問題的當前用戶所需的知識信息即常見的問答映射是一一對應的關系,但是針對復雜的業務是一對多的關系。例如重置支付密碼,針對個人用戶和商家用戶是不同的解決方案,因此要區分開。而重置支付密碼這是一個標準問題,因此在問答映射的時候可以有兩種方案,一種是配置兩條策略規則:rule1:賬戶類型=個人,輸出知識點id1,對應個人用戶重置支付密碼的操作方法;rule2:賬戶類型=商家,輸出知識點id2,對應商家用戶重置支付密碼的操作方法。還有一種就是通過樹的形式進行展現,一棵樹兩個葉子,分別加載知識點id1和id2,每個葉子對應的條件就是賬戶類型=個人,賬戶類型=商家。通過以上方式使得所呈獻給用戶的知識信息更加貼合用戶的個人特點,使得智能問答系統的問答準確率提升,同時也提升用戶體驗。
本領域技術人員應能理解上述針對目標參考問題結合用戶狀態信息在問答映射模型中確定知識信息的方式僅為舉例,其他現有的或今后可能出現的對應知識信息的管理和被問答映射模塊的映射針對目標參考問題結合用戶狀態信息在問答映射模型中確定知識信息的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
更優選地,所述用戶狀態信息包括以下至少任一項:所述用戶的應用訪問行為;所述用戶的賬戶類型信息;所述用戶的賬戶狀態信息。其中,所述用戶的應用訪問行為是指用戶在系統中所記錄的歷史訪問行為數據,例如訪問時間或用戶所在的軟件使用生命周期階段,又例如用戶日常對商品的類型訪問偏好等。所述用戶的賬戶類型信息是指用戶賬戶特點,例如上文所舉例的用戶和商家的賬戶類型;所述用戶狀態信息是指其它未盡的所有能用于判斷用戶問題需求差別的個體差異信息。
優選地,所述設備1還包括參考問題庫生成裝置14(未示出),所述參考問題庫生成裝置14通過對多條問題記錄進行聚類處理建立所述參考問題庫,其中,所述參考問題庫中包括多個問題聚類,每個問題聚類包括多條所述問題記錄及對應的參考問題。所述問題記錄是指歷史客戶人員與用戶交互過程中的服務記錄,或者是之前的問答系統所記錄的歷史記錄。所述聚類處理是指通過聚類算法的處理將若干問題記錄所代表的一類問題處理形成參考問題。所述問題聚類即為若干問題所代表的問題類型及與此問題類型所對應的參考問題,即一個問題聚類解決一種類型的問題。
其中,通過聚類處理建立所述參考問題庫的方法包括使用層次聚類方法對給定的問題記錄數據集進行層次的分解,直到某種條件滿足為止。即采用自底向上的策略,首先將每個對象作為一個簇,然后合并這些原子簇為越來越大的簇,直到所有的對象都在一個簇中,或者某個終結條件被滿足,絕大多數層次聚類方法屬于這一類,它們只是在簇間相似度的定義上有所不同,因此本申請中的聚類處理方法不限于所列舉的方式。具體地,給出要聚類的n個問題記錄對象以及n*n的距離矩陣,或者是相似性矩陣亦可,在此,n的數值動態的,根據用戶對問題的提出頻次以及問題的數量等決定,例如可以在10-100之間進行設置。此處舉例的層次式聚類方法的基本步驟如下:首先,將每個問題記錄對象歸為一類,共得到n類,每類僅包含一個對象。接著計算類與類之間的距離,也就是它們所包含的對象之間的距離,在此,距離就是相似度,兩個用戶問題之間的相似度,可使用文本匹配算法計算。接著,找到相似度的分值最近的兩個類進行合并,于是總的類數少了一個。接著重新計算新的類與所有舊類之間的距離。 重復進行距離計算與合并直到最后初始的n問題記錄所代表的n各類合并成一個類為止,即這里的一個類中包含了n個對象。進一步地,參考問題庫的生成還結合聚類處理優化為如下舉例步驟:根據線上數據挖掘客戶原始問題或問題記錄并聚類處理;算法輸出聚類數據提供給知識信息存儲管理模塊例如知識庫;知識庫平臺對參考問題庫進行審核操作,例如基于相似度的閾值舍棄部分原始的用戶問題,設置閾值可在在0.1-0.9之間,或是輔助人工進行審核;知識庫記錄了所有的審核入庫、忽略沒通過審核的問題記錄數據等操作數據,并反饋給聚類處理算法;聚類處理算法進行優化,優化后的算法再進行數據挖掘和聚類處理。如此所形成的參考問題庫覆蓋了所有的用戶問法,彌補了傳統通過人工形成優化問題列表的轉換時間慢、效率低的缺點,將用戶問法聚類到一個標準問題上,從而提升效率。
本領域技術人員應能理解上述聚類處理以及反饋優化的方式僅為舉例,其他現有的或今后可能出現的聚類處理以及反饋優化的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
更優選地,所述問題記錄滿足預定的記錄篩選條件。因為所述問題記錄是歷史客戶人員與用戶交互過程中的服務記錄,或者是之前的問答系統所記錄的歷史記錄,因此會有不準確的記錄或者用戶評價較差的記錄,可以設置例如評價星級超過四星或者被評為準確率高于百分之八十,又或評價高、沒有差評詞的服務記錄進行處理。在此,所述記錄篩選條件即為對歷史問答服務記錄所設置的準確率或置信率的條件,從而使得用于形成參考問題庫的數據減少質量低不適于用于用戶反饋的數據,提升準確率。
本領域技術人員應能理解上述設置預定的記錄篩選條件的方式僅為舉例,其他現有的或今后可能出現的設置預定的記錄篩選條件的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
圖5示出根據本申請另一個優選實施例的目標參考問題識別裝置的設備示意圖。所述目標參考問題識別裝置11包括問題特征確定單元111、目標參考問題確定單元112、候選目標參考問題確定單元113、優選目標參 考問題確定單元114。
其中,問題特征確定單元111確定與用戶提交的原始問題相對應的問題特征信息;目標參考問題確定單元112根據所述問題特征信息在參考問題庫中識別與所述原始問題相對應的目標參考問題;候選目標參考問題確定單元113在參考問題庫中識別與用戶提交的原始問題相對應的一個或多個候選目標參考問題;優選目標參考問題確定單元114根據所述候選目標參考問題對應的置信度信息從所述一個或多個候選目標參考問題中優選目標參考問題。
具體地,問題特征確定單元111確定與用戶提交的原始問題相對應的問題特征信息。所述用戶提交的原始問題即在例如在線客服機器人等一類智能問答系統中用戶所輸入的問題,例如,在阿里巴巴的淘寶購物平臺進行提問:“余額寶轉出何時到賬?”。所述相對應的問題特征信息即為例如關鍵詞或其它根據用戶提問或狀態等數據提取的代表用戶的特征類標識。例如,用戶的原始問題為“1月8日下午15:00轉出的余額寶合適到達綁定的儲蓄賬戶?”,這樣的問題提取關鍵詞“余額寶”“轉出”“到賬時間”“儲蓄卡”等信息即為對應的問題特征信息。提取所述問題特征信息使得目標參考問題的匹配更加準確,從而獲得準確的對應知識信息使得智能問答的準確率提升。
優選地,所述問題特征確定單元111根據用戶提交的原始問題及所述用戶的用戶狀態信息確定對應的問題特征信息。所述用戶狀態信息如所述用戶狀態信息是指用戶的賬戶狀態、登陸狀態等個體差異信息,因此可以用來提取相應的特征從而確定對應的問題特征信息,例如,用戶的問題是的問題是“會員權益有哪些?”根據用戶的狀態中的會員身份而歸屬而確定用戶的提問是那個服務領域的會員,例如是淘寶會員或天貓會員權益,從而定位問題的特征是屬于淘寶還是天貓。
本領域技術人員應能理解上述確定問題特征信息的方式僅為舉例,其他現有的或今后可能出現的確定問題特征信息的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,目標參考問題確定單元112根據所述問題特征信息在參考問題 庫中識別與所述原始問題相對應的目標參考問題。所述識別與所述原始問題相對應的目標參考問題,即為問題識別,是一種用戶問題分類的問題,分類是依據實時采集的用戶行為或賬戶等數據以及用戶求助提問的數據來刻畫用戶特征的類標識,進而可以預測未來數據的歸類情況。在實施例中可這一功能可由問題識別模塊進行,即是將用戶提問的問題映射到標準問題庫中的一個。具體地,問題識別算法包括隨機森林算法或rnn(recurrentneuralnetwork、循環神經網絡),這是一種節點定向連接成環的人工神經網絡。這種網絡的內部狀態可以展示動態時序行為。rnn可以利用它內部的記憶來處理任意時序的輸入序列,這讓它可以更容易處理如不分段的手寫識別、語音識別等。如接上文舉例,獲取關鍵詞特征后定位到“余額寶轉出到賬標準問題”,再由后面的問答映射模塊,提取“15:00”的知識信息,找出標準問題對應的兩小時,給出“17:00”點前到賬的用戶反饋。
本領域技術人員應能理解上述識別與所述原始問題相對應的目標參考問題的方式僅為舉例,其他現有的或今后可能出現的識別與所述原始問題相對應的目標參考問題的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,候選目標參考問題確定單元113在參考問題庫中識別與用戶提交的原始問題相對應的一個或多個候選目標參考問題。即通過相應的問題識別算法所得出的目標參考問題會是一個或一個以上,因為最終反饋給用戶的知識信息最優是基于一個唯一的目標參考問題才會使得相應的知識信息準確和具有針對性。因此,所述候選目標參考問題即為前述所得出的一個或一個以上的目標參考問題在優選唯一前的狀態。例如,將用戶的描述通過聚類算法生成一個標準問題以及很多擴展問題,如在支付寶的服務平臺中用戶提問:“為何使用不了花唄?”,“花唄怎么開通不了?”“花唄無法激活?”,“開通花唄有什么條件?”這幾個用戶問題都屬于一個標準問題:開通花唄的條件,這些問題都是作為這個標準問題的擴展問題,這些擴展問題在識別的過程中即可能成為候選目標參考問題。
接著,優選目標參考問題確定單元114根據所述候選目標參考問題對應的置信度信息從所述一個或多個候選目標參考問題中優選目標參考問 題。所述置信度即通過歷史數據中用戶對候選目標參考問題的評價或分數,可用于候選目標參考問題的優選。例如,對用戶的提問進行問題識別,需要匹配到一個唯一的標準問題,如果匹配到多個標準問題,則輸出信心分最高的一個,其中,信心分是問題識別模塊內部算法的一個分值,分值越大表明信心分越高。基于此,使得給用戶選擇的目標參考問題的正確率提升。
本領域技術人員應能理解上述優選目標參考問題的方式僅為舉例,其他現有的或今后可能出現的優選目標參考問題的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
圖6示出根據本申請另一個方面的一種用于提供知識信息的設備示意圖。所述設備1包括原始問題語義檢測裝置25、目標參考問題識別裝置21、問答映射裝置22、知識提供管理裝置23。
其中,原始問題語義檢測裝置25檢測用戶提交的原始問題是否語義完整;目標參考問題識別裝置21若所述原始問題語義完整,在參考問題庫中識別所述原始問題對應的目標參考問題;問答映射裝置22根據所述目標參考問題及問答映射模型確定對應的知識信息;知識提供管理裝置23將所述知識信息提供至所述用戶。
在此,圖4中所述問答映射裝置12、知識提供管理裝置13與圖6中所述問答映射裝置22、知識提供管理裝置23相同或相似,在此不再贅述。
具體地,原始問題語義檢測裝置25檢測用戶提交的原始問題是否語義完整。判斷用戶語義是否完整也就是問題是否完整,和業務場景密切相關,例如,“余額寶轉出什么時候到賬?”這一用戶提問就缺少轉賬時間、金額、轉入銀行等信息。因此需要定義各種業務場景,初期可通過運營人員對各種業務場景的語義進行初始定義,后期可通過數據反饋進行優化,例如對用戶評價高的問答中的語義關鍵詞進行提取進而綜合后將某一個標準問題對應的原始問題中的詞匯進行計算,將占比較高且不是助詞或語氣詞的詞匯進行反饋。
優選地,所述原始問題語義檢測裝置25獲取用戶基于語義補充提示信息增加的關于所述原始問題的問題信息,并更新所述原始問題,直至更 新后的所述原始問題語義完整。即若用戶提問語義不完整,則反問用戶,直到上下文語義補全為止,如上文中舉例,將用戶提問所缺少的轉賬時間、金額、轉入銀行等信息進行提示補全,直至相關的關鍵詞均補全再進行后面的目標參考問題的相關工作。經過反復的提示和補全使得用戶的原始提問更加具有針對性,并能夠收集到一定的用戶狀態信息,從而有利于對對應的相關知識信息進行判斷。
本領域技術人員應能理解上述語義檢測的方式僅為舉例,其他現有的或今后可能出現的語義檢測的方式如可適用于本申請,也應包含在本申請保護范圍以內,并在此以引用方式包含于此。
接著,目標參考問題識別裝置21若所述原始問題語義完整,在參考問題庫中識別所述原始問題對應的目標參考問題。即在所述用戶所提的原始問題語義完整的基礎上,系統可用于提取特征或采用其他匹配方式對參考問題庫中的參考問題進行匹配,識別的方法與前文所述相同。基于完整的語義使得系統所可以提取的特征或參考的信息更加準確和全面,從而避免因為用戶問題語義或關鍵詞的缺失所導致目標參考問題匹配不準確,進而提升智能問答的準確性。
優選地,圖7是應用本申請方案的一種機器人在線聊天問答匹配方法,是一種標準問題庫及其問答匹配系統,包括:標準問題聚類模塊、問題識別模塊、問答映射模塊、文章管理模塊。具體應用例如用戶對應的目標參考問題為:重置密碼。問答映射模塊根據用戶狀態信息例如:密碼類型“支付、登錄”;賬戶類型“個人、商家”層層遞進找到一個唯一的知識點。
其中,首先對服務記錄中用戶問題的挖掘生成標準問題庫,接著步驟如下:步驟a:機器人對用戶的原始問法進行判斷,判斷提問的語義是否完整;步驟b:如果提問語義不完整,則反問用戶,直到上下文語義補全為止,進入步驟d;步驟c:如果提問語義完整,進入步驟d;步驟d:進行問題識別,匹配到一個唯一的標準問題,如果匹配到多個標準問題,輸出信心分最高的一個;步驟e:機器人基于這個標準問題對應的問答映射模塊一次性獲取用戶行為、賬戶狀態等信息,基于這些狀態信息匹配到唯一的一個知識點id;步驟f:將知識點id輸出給用戶。更優選地,基 于用戶評價反饋即用戶點擊知識點的行為判斷輸出是否準確,對問答映射模塊進行優化和補充。從而可對服務記錄中的答案進行問題,驅動知識庫更新,且問題答案的映射關系通過決策樹進行配置,提升問答映射的準確率,最終知識點直面用戶問題和用戶狀態更加友好。
顯然,本領域的技術人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權利要求及其等同技術的范圍之內,則本申請也意圖包含這些改動和變型在內。
需要注意的是,本申請可在軟件和/或軟件與硬件的組合體中被實施,例如,可采用專用集成電路(asic)、通用目的計算機或任何其他類似硬件設備來實現。在一個實施例中,本申請的軟件程序可以通過處理器執行以實現上文所述步驟或功能。同樣地,本申請的軟件程序(包括相關的數據結構)可以被存儲到計算機可讀記錄介質中,例如,ram存儲器,磁或光驅動器或軟磁盤及類似設備。另外,本申請的一些步驟或功能可采用硬件來實現,例如,作為與處理器配合從而執行各個步驟或功能的電路。
另外,本申請的一部分可被應用為計算機程序產品,例如計算機程序指令,當其被計算機執行時,通過該計算機的操作,可以調用或提供根據本申請的方法和/或技術方案。而調用本申請的方法的程序指令,可能被存儲在固定的或可移動的記錄介質中,和/或通過廣播或其他信號承載媒體中的數據流而被傳輸,和/或被存儲在根據所述程序指令運行的計算機設備的工作存儲器中。在此,根據本申請的一個實施例包括一個裝置,該裝置包括用于存儲計算機程序指令的存儲器和用于執行程序指令的處理器,其中,當該計算機程序指令被該處理器執行時,觸發該裝置運行基于前述根據本申請的多個實施例的方法和/或技術方案。
對于本領域技術人員而言,顯然本申請不限于上述示范性實施例的細節,而且在不背離本申請的精神或基本特征的情況下,能夠以其他的具體形式實現本申請。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本申請的范圍由所附權利要求而不是上述說明限定,因此旨在將落在權利要求的等同要件的含義和范圍內的所有變化涵括 在本申請內。不應將權利要求中的任何附圖標記視為限制所涉及的權利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數不排除復數。裝置權利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。