專利名稱:一種問題答案的閱讀瀏覽顯示方法及其系統的制作方法
技術領域:
本發明涉及模式識別領域、自然語言處理領域及計算機領域,特別是一種在互聯網上幫助用戶從眾多答案(如從用戶交互式問答系統即QA系統中得到的眾多答案)中方便快速地瀏覽和/或查找問題答案的計算機技術及系統。
背景技術:
當今的互聯網包含了數量越來越大的信息,而且被越來越多的用戶所連接,這使得它正成為各種領域無關問題的答案的理想來源。虛擬社區就是一個可供人們圍繞某種問題集中進行交流的地方;它通過網絡,把在真實世界中相互之間無任何聯系的人們聚集在一起。傳統地虛擬社區有很多形式,比如討論組,電子公告板系統(Bulletin Board System,BBS),聊天室,新聞組等,它們通常用于人們分享他們共同的興趣,想法和感受。最近,一些新型的虛擬社區如雨后春筍般冒出來,比如Google Answers,新浪iAsk,百度知道。這些新型的社區致力于為用戶提供一個嶄新的交互式問答平臺。雖然這些系統的服務目標定位在新的用戶需求,但是它們的人機界面依舊是傳統形式,用戶無法通過這樣的界面方便地瀏覽大量的不同形式的答案。在這些系統中,往往存在一些問題擁有數量眾多的相似或冗余的答案,導致用戶不得不浪費相當多的時間去瀏覽重復的內容,尤其當答案內容不一致的時候,用戶更難以從中尋找一個令人滿意的、完整、正確的答案。為了解決這個問題,我們提出了發明的方法和系統。
為了解決這個問題,我們提出了一種新的對眾多的答案進行聚類和融合的方法及界面。通過這種全新的人機界面,用戶可以方便快速地瀏覽和查找問題的答案,并且可以對同一類的答案進行統一的操作,免去了用戶浪費時間用于瀏覽重復內容的煩惱。
發明內容
本發明所要解決的技術問題在于提供一種問題答案的閱讀瀏覽顯示方法及其系統,使得用戶可從提供的眾多答案中方便快速地閱讀瀏覽答案和/或查找答案。
為了實現上述目的,本發明提供了一種問題答案的閱讀瀏覽顯示方法,用于提高用戶閱讀瀏覽某一問題的眾多答案的效率,其中,包括
步驟1,對答案進行聚類,根據答案內容之間的相似度把所述眾多答案歸成多個分類;和/或,
步驟2,將所述多個分類中的其中一個分類或每一個分類內部的多個答案按照預先確定的融合規則進行融合。
所述的問題答案閱讀瀏覽顯示方法,其中,所述步驟2進一步包括
步驟201,根據問題類型和先驗知識庫或模板信息庫中存儲的問題類型和答案類型的一一對應關系確定所述答案的類型;
步驟202,根據確定的答案類型預先確定答案融合的規則。
所述的問題答案閱讀瀏覽顯示方法,其中,所述步驟1進一步包括
步驟101,抽取答案的特征向量,將答案內容表示成機器可計算的特征向量形式;
步驟102,計算所述答案特征向量之間的相似度;
步驟103,識別無效答案,不對其進行聚類;
步驟104,計算答案與類別之間的相似度,對答案進行聚類。
所述的問題答案閱讀瀏覽顯示方法,其中,所述步驟101進一步包括
步驟401,將答案內容進行切分,以將其表達成單詞集合的形式;
步驟402,計算所述單詞集合中任兩個單詞T1和T2之間語義上的相似度sim(T1,T2);
步驟403,計算所述單詞集合中任一單詞Ti的權重wi;
步驟404,生成由一組單詞及其相應權重組成的答案特征向量。
所述的問題答案閱讀瀏覽顯示方法,其中,所述步驟401進一步包括
步驟501,利用WordNet抽取出T1和T2相應的同義詞表syno1,syno2和上位詞表hyper1和hyper2,其中,syno1、hyper1分別為T1的同義詞表和上位詞表,syno2、hyper2分別為T2的同義詞表和上位詞表;
步驟502,根據公式synoSim=|syno1∩syno2|/|syno1∪syno2|,hyperSim=|hyper1∩hyper2|/|hyper1∪hyper2計算同義詞表間的相似度synoSim和上位詞表間的相似度hyperSim;
步驟503,根據公式sim(T1,T2)=(synoSim+hyperSim)/2計算T1和T2之間的相似度sim(T1,T2)。
所述的問題答案閱讀瀏覽顯示方法,其中,所述單詞的權重wi根據公式wi=log2{N/[∑jsim(Ti,Tj)*df(Tj)]}計算得出,其中,df(Tj)為包含Tj的答案的頻率,N是問題的答案總數。
所述的問題答案閱讀瀏覽顯示方法,其中,所述步驟102根據如下公式計算所述答案特征向量之間的相似度
其中,a1、a2為問題的兩個答案向量,a1={T11,T12,...,T1n},a2={T21,T22,...,T2m},其中,T11,...T1n,T21,...T2m表示答案向量中包含的詞,sim(T1i,T2j)為詞T1i與T2j之間的相似度,sim(T2j,T1i)為T2j與T1i之間的相似度,w1i,w2j為詞T1i與T2j的權重。
所述的問題答案閱讀瀏覽顯示方法,其中,所述步驟104采用增量聚類的算法對答案進行聚類,根據如下公式計算新提交的答案aj與已有分類的相似度,判斷所述已有分類與答案aj的相似度中的最高的相似度值是否高于一預先設定的第一閾值;如是,則將答案aj歸入此類;如否,則生成一個包含答案aj的新類;其中,計算答案與類之間相似度的公式如下
其中,aj為新提交的答案,ci為包含答案ai1,ai2,...,aib的一個類,ci={ai1,ai2,...,aib},sim(aik,aj)為答案aik,aj之間的相似度,sim(ci,aj)為答案aj與類ci之間的相似度。
所述的問題答案閱讀瀏覽顯示方法,其中,所述融合規則是基于答案內容和/或數據質量的;其中,采用基于數據質量的融合規則進行融合的步驟具體包括
根據公式計算答案的權威性DQa,其中ability是預先確定的給出答案的用戶的能力值,adjust是調整參數;
根據公式計算答案的時效性DQt,tq是用戶提問時間,tc是答案發布時間;
根據公式計算答案的可靠性DQr,其中,reputation是預先確定的給出答案的用戶的信譽值,adjust是調整參數;以及
根據公式dq=∑wiDQi計算答案的綜合質量值dq,并選擇dq值最大的答案作為融合結果,其中i=a,t,r,wi是對應數據質量屬性元素DQi的相應的權值,∑iwi=1。
所述的問題答案閱讀瀏覽顯示方法,其中,所述步驟2進一步包括
步驟1001,利用基于數據質量的融合規則過濾部分答案;
步驟1002,利用基于答案內容的融合規則融合經過過濾后剩余的答案以獲得最后的融合結果。
本發明還提供了一種問題回答系統,用于供用戶利用其工作站通過網絡系統進行交互式提問和回答,包括
一提問模塊,用于供用戶利用其工作站通過網絡系統進行提問;及
一回答模塊,用于供用戶利用其工作站通過網絡系統對問題進行回答;
其中,還包括
一問題答案聚類模塊,用于根據答案內容之間的相似度把用戶提供的針對某一問題的眾多答案歸成多個分類,以對答案進行聚類;
一問題答案融合模塊,用于將所述多個分類中的其中一個分類或每一個分類內部的多個答案按照預先確定的融合規則進行融合。
所述的系統,其中,進一步包括一人機界面,用于供用戶輸入提問、輸入回答和/或顯示問題答案的融合結果。
所述的問題答案閱讀瀏覽顯示方法,其中,所述問題答案融合模塊進一步包括
答案類型確定模塊,用于根據問題類型和先驗知識庫或模板信息庫中存儲的問題類型和答案類型的一一對應關系確定所述答案的類型;
融合規則確定模塊,用于根據答案類型預先確定答案融合的規則。
本發明還提供了一種顯示針對某一主題的多條信息的顯示系統,其中,包括
一聚類模塊,用于根據信息內容之間的相似度將針對某一主題的多條信息歸成多個分類;
一信息融合模塊,用于將所述多個分類中的每一個分類或其中一個分類內部的多條信息按照確定的融合規則進行融合。
本發明還提供了一種在線問答網站,其中,包括
一答案聚類模塊,用來計算針對某一提問的多個答案內容間的相似度,并根據所述相似度將所述多個答案歸成多個分類,以對答案進行聚類;
一答案融合模塊,用于將所述多個分類中的每一個分類或其中一個分類內部的多個答案按照確定的融合規則進行融合,以提高用戶閱讀答案的效率。
所述的在線問答網站,其中,進一步包括一用戶管理模塊,用于處理用戶注冊、登陸、身份驗證、信息管理、權限驗證。
本發明的方法及其系統首先對指定問題的所有答案,根據其內容進行聚類,然后在每一個答案分類里,通過計算數據質量和選擇融合規則對答案進行融合,以選擇出一個具有代表性的,可靠的,符合用戶需求的答案返回給用戶。
利用本發明的方法及系統,用戶可以方便快速地瀏覽和/或查找問題的答案,并且可以對同一類的答案進行統一的操作,免去了用戶浪費時間用于瀏覽重復內容的煩惱。
本發明除可以應用于在線的用戶交互式問答平臺外,還可以應用于傳統的虛擬社區,如對某一事件的評論也可用此方法進行聚類和融合。提供一個便捷的瀏覽界面。企業可以利用該發明的系統,為公司員工內部交流提供便利,提高交流的效率,也方便公司領導更快地洞悉員工的各類想法;學校可以利用該系統,作為對教育bbs系統的一個擴展,方便教師和學生在課后的學習交流等。總之,所發明的方法及系統可廣泛應用于所有有關知識及信息服務上。
以下結合附圖和具體實施例對本發明進行詳細描述,但不作為對本發明的限定。
圖1為本發明一實施例方法的答案的聚類和融合的流程示意圖2A、2B為本發明一實施例系統的顯示答案聚類的人機界面圖。
具體實施例方式
圖1為本發明一實施例方法的答案聚類和融合的流程示意圖。針對用戶提出的某一問題及其他用戶給出的眾多答案(如通過交互式問答系統給出),首先從該問題的眾多答案中抽取特征向量,然后根據向量相似度的計算確定答案的分類情況C={c1,c2,...cn},最后在輔助信息(如問題、領域知識、和/或問題及答案的模板信息庫)的幫助下,對每一類中的答案進行融合處理,使每一類ci產生一個融合答案FCi。
將本發明的方法應用于虛擬社區提供的交互式問答系統平臺,對用戶針對某一提問給出的眾多回答進行聚類融合,使得用戶能從眾多重復或冗余的答案中尋找一個令人滿意的、完整、正確的答案,具體包括
一對答案進行聚類的步驟,即根據針對某一問題給出的眾多答案的答案內容之間的相似度把答案歸成多個分類;將在內容上的相似度大于一定閾值的答案歸為一類。
一對某一分類內部的多個答案進行融合的步驟,即根據問題類型和先驗知識庫確定答案的類型,然后從系統預定義的融合規則中選擇一條或多條合適的規則(也可由用戶選出)作為應用規則來處理每一個分類中的多個答案,以調和這些答案中存在的不一致性問題,求得一個正確的、完整的調和解。
本發明一實施例采用的答案聚類方法具體步驟如下
步驟一,答案特征向量抽取,目的是將答案內容表示成機器可計算的特征向量形式。
其中,向量抽取步驟可以進一步包括
1)答案內容切分獲取答案內容中的單詞,用單詞集合的形式表示答案;對于中文答案內容來說,運用分詞算法(見H.Feng,K.Chen,X.Deng,W.Zheng.Accessor variety criteria for chinese word extraction.Computational Linguistics,volume 30,issue 1,pages75-93,2004.)進行中文分詞。對分詞算法的舉例說明有四個句子,“門把手弄壞了”,“小明修好了門把手”,“這個門把手很漂亮”,“這個門把手壞了”。考慮如何從這四個句子中提取詞語“門把手”。事實上,這三個字構成的字串有三個不同的前綴,“S”,“了”,“個”(“S”表示句子的開始)和四個不同的后綴,“弄”,“E”,“很”,“壞”(“E”表示句子的結尾)。這些意味著這個字串能夠被應用于至少三種不同的場合,并且在這四個句子中表達了固定的含義。在這個例子中,3=min{3,4},被稱為“門把手”這個字串的可達變化(accessor variety)。我們用可達變化作為標準以評估一個字串的獨立程度以及它成為詞語的可能性。一個字串(長度大于2)的可達變化定義如下AV(s)=min{Lav(s),Rav(s)},其中Lav(s)被稱為左繼變化(left accessor variety),定義為出現在字串s左邊不同的字的個數,同樣地,右繼變化(right accessor variety)Rav(s)被定義為出現在字串s右邊的不同的字的個數(“S”和“E”需要重復計數)。我們提取那些AV值不小于預定義域值的字串作為詞語。對于英文,則可根據詞的分界符識別出單詞。所述的分界符是除了英文字母,數字,“-”和“$”之外的其他字符,如空格,“*”,“/”等。
2)停用詞處理,構造一張停用詞表,并根據停用詞表,除掉答案內容中無關的詞,如虛詞、代詞。現在計算機應用中有很多種停用詞表,每個都不完全相同。本發明一實施例的問題包含兩條答案“The puma runs the mostquickly.(獵豹跑得最快)”,“I think the antelope runs more speedily than anyother animals.(我認為羚羊比其他任何動物都跑得快)”。上述例句中被空格分開所有單詞就是答案內容切分步驟的結果。采用的停用詞表包括單詞{“the”,“most”,“more”,“than”,“any”,“other”}。去除停用詞后,余下的答案內容的單詞分別為{“puma”,“runs”,“quickly”}和{“I”,“think”,“antelope”,“runs”,“speedily”,“animals”}。
3)英文詞形處理,主要是將英文詞的詞形還原或者提取詞干,比如名詞復數、動詞過去式、動詞過去完成式或動詞的第三人稱單數等處理。在上述的例子中,經過詞形處理,“runs”變為“run”,“animals”變為“animal”。
4)答案向量生成,在向量空間模型中,每個答案內容由一組單詞及其權重組成。每個單詞的權重按照其所包含的信息量來計算。信息量的概念請參見《An Introduction to Information Theory》,作者Fazlollah M Reza,,出版社Courier Dover Publications。在本發明專利的申請資料中,單詞的信息量被定義為-log2p,其中p為單詞出現的概率(probability)。這樣,答案最后被表示成為一個帶權重的單詞向量。具體步驟是先計算詞與詞之間語義上的相似度,目的是使得計算機能夠區分單詞之間的差別,有助于計算答案的相似度。給定兩個單詞T1和T2,相似度計算的步驟如下(1)利用WordNet抽取出他們相應的同義詞表和上位詞表,分別記為syno1,syno2,hyper1和hyper2;(2)分別計算兩個同義詞表的相似度synoSim=|syno1∩syno2|/|syno1∪syno2|,和兩個上位詞表的相似度hyperSim=|hyper1∩hyper2|/|hyper1∪hyper2|;(3)單詞T1和T2之間的相似度sim(T1,T2)=(synoSim+hyperSim)/2;(4)計算單詞的權重。我們認為那些出現頻率較高的單詞具有較低的區分能力,因此他們的權重相應的比較低。給定一個單詞Ti,它的權重wi定義如下wi=log2{N/[∑jsim(Ti,Tj)*df(Tj)]},其中df(Tj)表示包含Tj的答案的頻率,df(Tj)=∑iQij,Qij表示答案ai是否包含單詞Tj,如果包含,則Qij等于1,否則等于0。N是問題的答案總數。此外,問題中出現的單詞的權重都設為0。此方法相當于對經典定義的TF*IDF方法的擴展,包括了所有同義詞的頻率。
WordNet是一個詞法的參考系統,在其中,名詞、動詞、副詞和形容詞按照它們的語義被組織成許多同義詞的集合,每一個表示一個基本的詞語概念。同義詞集合之間有不同的關系連接。一個詞的同義詞和上位詞可以通過調用WordNet的API函數直接獲得,不同的WordNet版本所返回的內容可能略有不同。例如,對于單詞quickly,直接調用WordNet的API函數,可以獲得其同義詞表{rapidly,speedily,chop-chop,apace,promptly,quick,cursorily}和上位詞表{quick,speedy,flying,fast}。在本發明的實施例中,利用WordNet,可以獲得syno(quickly)={rapidly,speedily,chop-chop,apace,promptly,quick,cursorily},hyper(quickly)={quick,speedy,flying,fast},syno(speedily)={rapidly,speedily,chop-chop,apace,promptly,quick,cursorily}和hyper(speedily)={quick,speedy}。按照上述公式,可以計算得到sim(quickly,speedily)=(7/7+2/4)/2=0.75,進而計算出w(quickly)=w(speedily)=log2{2/[1*1+0.75*1]}=0.19。
步驟二,計算答案之間的相似度。我們認為每個答案都是由單詞組成的集合,給定兩個答案a1={T11,T12,...,T1n},a2={T21,T22,...,T2m},其相似度定義如下
在本發明的實施例中,兩個答案經過先前的步驟處理后,分別為{“puma”,“run”,“quickly”}和{“I”,“think”,“antelope”,“run”,“speedily”,“animal”},其中,單詞間的相似矩陣為
單詞的權重分別為
然后根據答案間相似度計算的公式,得出兩個答案的相似度為
sim(a1,a2)=[(0*1+1*0+0.75*0.19)/(1+0+0.19)+
(0*1+0*1+0*1+1*0+0.75*0.19+0*1)/(1+1+1+0+0.19+1)]/2
≈0.077(結論是不相似)
步驟三,無效答案的識別。如果一個答案中的無效詞超過單詞總數的一半,我們就認為該答案是無效答案,歸入無效答案類,不進行步驟四的答案聚類。所謂的無效詞就是指WordNet識別不出的單詞。
步驟四,答案聚類。給定一個類ci={ai1,ai2,...,aib}和一個答案aj,它們之間的相似度定義如下
我們采用增量聚類的算法,以降低聚類所需的計算開銷。對于一個新提交的答案,算法在已有的分類中尋找與該答案相似度最高的分類,如果該相似度高于指定的閾值,則把新答案分配到該類,否則將生成一個包含該答案的新類。為便于用戶的瀏覽,當問題答案的類數大于10時,算法自動降低閾值,然后對問題的全部答案進行重新分類,直到其類數低于或等于10時。閾值初始為0.5,其后每次降低10%直到其類數低于或等于10時停止。例如,一個問題原先有8個答案,分成兩類,分別為c1={a1,a6,a7}和c2={a2,a3,a4,a5,a8},新提交的答案a9與原先答案的相似度分別為
經過計算,新答案與原來分類的相似度分別為
sim(a9,c1)=(0.98+0.71+0.59)/3=0.76
sim(a9,c2)=(0.22+0.15+0.47+0.32+0.30)/5=0.292
新答案a9與分類c1的相似度較高,且超過域值0.5,所以a9被分配到分類c1。
本發明一實施例的問題答案獲得方法中所述的分類內部答案的融合步驟,進一步包括
1)修正答案,除掉與問題無關的答案信息,從答案信息中抽取盡可能覆蓋答案的最小信息。
2)根據問題類型和建立了問題類型與答案類型一一對應關系的先驗知識庫或模板信息庫確定符合問題的答案類型。其中,所述的先驗知識庫,是預先建立的一個信息庫,在庫中為問題類型和答案類型建立了一一對應的關系,系統可根據問題的類型查找預期的答案的類型,然后再根據答案的類型選擇適合的融合規則。問題類型指問題分類時對應的疑問詞及語法類型,主要有when(何時,什么時候)、what(什么)、where(哪里,在哪里)、who(誰,什么人)、which(哪一個)、why(為什么)、how(怎樣,如何)、及how+adj/adv(形容詞或副詞),如how much(多少),how old(多大)等。例如,問題是“how much does this watch cost?”。答案的類型(即答案內容或值所屬的分類,如年齡是個數字)包括數字,日期,顏色和價格等。系統通過問題類型“how much”獲知答案的類型應為價格,于是可選擇平均(avg),最高(max),最低(min),與(and)等幾條規則中的一條或多條進行融合。當交互式問答系統采用模板提問回答,且在系統的模板信息庫中建立了問題類型和答案類型之間一一對應的關系時,系統可利用模板信息庫,根據問題類型查找出預期的答案的類型。
3)選擇融合規則,其中,所述融合規則是根據答案類型預先設定,規則根據答案內容的不同,可能會有差異,同時用戶也可以自由選擇特定規則,這些規則的處理模塊作為獨立的部分預先嵌入系統中。例如,對于數字(或價格)答案,有平均,最大,最小,范圍等規則;對于枚舉答案有交,并等規則。同一答案類型有多條規則適用時,用戶可以依據自己的需要進行選擇。融合規則分兩類,分別是基于內容的融合規則和基于數據質量的融合規則,其中基于內容的融合規則是指根據答案內容不一致性所指定的一系列規則,如冗余等。冗余規則可以看作一種多數優先規則,也就是說,如果某一個答案是多數信息用戶都投票贊成或者回答相同,則認為它有更大的代表性。而基于數據質量的融合方法是根據數據質量屬性來選擇答案,其中數據質量屬性主要包括權威性、時效性、可靠性。
4)答案融合策略
A基于數據質量策略
數據質量是指描述答案的正確性的一組元數據,主要包括數據的權威性、時效性以及可靠性,其計算方法分別如下
a)權威性(DQa)
答案的權威性是用于衡量答案的重要、可信的程度。其中,權威性可根據提供答案的用戶的能力值來確定相應的權威性并標準化,公式如下
其中,ability是指回答者用戶的能力值,adjust是調整參數。調整參數越低,函數值隨自變量ability的變化就越明顯。回答者用戶的能力值可用相關問題領域內該用戶已正確回答的問題的個數來衡量。
b)時效性(DQt)
答案時效性是指從時間上來考慮答案的正確性,其中,時效性可根據用戶發布答案的時間來計算,如
其中,tq是用戶提問時間,tc是答案發布時間,其單位為天或小時。
c)可靠性(DQr)
當某一個答案參與融合時,其回答者的信譽值正則化后(變到
)可作為其答案是否被選中的一個重要標準,可靠性具體公式如下
其中,reputation是指回答者用戶的信譽值,adjust是調整參數。調整參數越低,可靠性函數值隨自變量reputation的變化就越明顯。
某回答者用戶的信譽值reputation是一個整數,其計算步驟包括
步驟一,用戶行為跟蹤,記錄用戶在系統中的歷史行為。該步驟進一步包括用戶登陸系統行為、用戶瀏覽問題及答案的行為、用戶搜索行為、用戶提問行為、用戶回答問題行為、用戶互相評分行為等可以反映用戶與信譽相關的特點的行為記錄。該行為用戶的信譽值可因每種行為加1分或不同的分數。
步驟二,用戶互相評分,該步驟進一步包括用戶之間的對相關惡意行為的投訴(如沒有按規則選擇正確答案),及用戶在瀏覽其他用戶的答案的過程中,對某些回答的支持,或者某問題的提問者對該問題的某些回答的正確與否的判定。被評價的用戶的信譽值可因此加或減1分或不同的分數。
基于數據質量的策略側重考慮依賴于數據質量屬性值來考慮對最終答案的選擇。其應用公式如下
dq=∑wiDQi
其中,wi是對應質量屬性元素DQi的相應的權值,∑iwi=1。
所謂基于數據質量屬性的策略是由用戶指定每個質量屬性的權值,然后通過計算答案的綜合質量值dq,選擇最大綜合質量值的答案作為融合結果。
例如,問題是關于尼康4300的價格信息,假設有三個用戶提出了三個關于該問題的不同回答,這三個回答屬于同一個聚類,如下表所示。
表格1關于尼康4300的例子
假設例子中問題的提出時間為18:00 2005-10-21,時效性按小時計算,計算權威性和可靠性的調整參數皆為100。根據前述的公式計算答案一的各個數據質量
DQa=1-e(-700/100)≈0.50
DQt=1/(42+1)≈0.02
DQr=1-e(-30/100)≈0.26
其他答案的數據質量依次類推。然后計算每個答案的綜合數據質量
dq1=0.3*0.50+0.3*0.02+0.4*0.26=0.26
dq2=0.3*0.55+0.3*0.20+0.4*0.45=0.405
dq3=0.3*0.18+0.3*0.50+0.4*0.00=0.204
經過計算,dq2=0.405為最大值,因此,可以選擇第二答案作為最終的融合結果。另外,也可以修改wi,以增加或減少DQi的影響。另外如果設定wa為1,其它權值則為0,即用戶可以只考慮權威性。
B基于內容的策略
基于數據質量屬性解決方法只能看作根據某種策略的排序方法,不能最終解決內容沖突,這是因為可能存在答案數據沖突和數據質量相近等的現象。基于內容的策略則主要根據融合規則,將來自多答案的值經過規則調和,形成一個綜合結果值。例如,對上表來說,如果對價格采用平均規則,則最終答案為尼康4300的價格為3900¥。
C綜合性策略
綜合性策略則是同時利用基于數據質量屬性和內容的策略來解決沖突屬性值。其基本策略是利用質量屬性過慮掉一些答案,再利用基于內容的融合策略解決剩余的答案集的不一致性問題。
利用現有技術的虛擬社區提供的交互式問答系統,用戶利用其工作站如計算機通過網絡系統(包括國際互聯網和企業內部網等)通過一人機界面如網站提供的網頁等可提出問題和/或回答其他用戶提出問題,以實現知識和/或各種信息交換的目的。本發明一實施例的采用了所述的對答案進行聚類融合方法的用戶交互式問答系統,除包含用于供用戶提問的提問模塊和回答的回答模塊外,進一步包括
一問題答案聚類模塊,用于根據答案內容之間的相似度把用戶提供的針對某一問題的多個答案歸成多個分類,以對答案進行聚類;
一問題答案融合模塊,用于根據問題的類型和先驗知識庫或模板信息庫將所述多個分類中的每一個分類或其中一個分類內部的多個答案按照確定的融合規則進行融合,以處理這些答案中存在的不一致性,提高用戶閱讀瀏覽大量答案時的效率;同前所述,在先驗知識庫或模板信息庫中存儲有問題類型與答案類型的一一對應關系,由問題的類型即可獲得答案的類型,再根據所述答案類型來確定要采用的融合規則。
一人機界面,用于供用戶輸入提問、輸入回答和/或顯示問題答案的融合結果,使用戶可以方便快速地瀏覽和/或查找問題答案并進行相應提問和/或回答的操作。
其中,問題答案聚類模塊進一步包括
答案的特征向量抽取模塊,用于將答案內容表示成機器可計算的特征向量形式;
答案特征向量之間的相似度計算模塊,用于計算所述答案特征向量之間的相似度;
無效答案識別模塊,用于識別無效答案,不對其進行聚類;
答案、類別相似度計算模塊,用于計算答案與類別之間的相似度,對答案進行聚類。
相應的,其中的特征向量抽取模塊、答案特征向量之間的相似度計算模塊、無效答案識別模塊、答案與類別間的相似度計算模塊、融合模塊等又進一步包含能實現前述本發明方法中各相應步驟的功能模塊,如特征向量抽取模塊進一步包括答案內容切分模塊、停用詞處理模塊、英文詞形處理模塊、答案特征向量生成模塊等。
本發明另一實施例的用戶交互式問答系統可以是一在線問答網站,包括一答案聚類融合模塊,用來計算針對某一提問的眾多答案的相似度,將所述眾多答案歸成多個分類,以對答案進行聚類;
一答案融合模塊,用于將所述多個分類中的每一個分類或其中一個分類內部的多個答案按照確定的融合規則進行融合,以使用戶獲得正確的答案。
一用戶管理模塊,用于處理用戶注冊、登陸、身份驗證、信息管理、權限驗證。類似的,本發明一實施例的在線網站也具有上述的特征向量抽取模塊、答案特征向量之間的相似度計算模塊、無效答案識別模塊、答案與類別間的相似度計算模塊、融合模塊等,且各模塊又進一步包括為實現前述本發明方法中各相應步驟的功能模塊,如特征向量抽取模塊進一步包括答案內容切分模塊、停用詞處理模塊、英文詞形處理模塊、答案特征向量生成模塊等。
本發明的方法及系統應用廣泛,為用戶提供了一個快速瀏覽問題及其共享答案的方案。本發明除可以應用于在線的用戶交互式問答平臺外,還可以應用于傳統的虛擬社區,如對某一事件的評論也可用此方法進行聚類和融合。提供一個便捷的瀏覽界面。企業可以利用該發明的系統,為公司員工內部交流提供便利,提高交流的效率,也方便公司領導更快地洞悉員工的各類想法;學校可以利用該系統,作為對教育bbs系統的一個擴展,方便教師和學生在課后的學習交流;等等。總之,所發明的方法及系統可廣泛應用于所有有關知識及信息服務上。系統本身就是一個提供知識及信息服務的很好應用。本發明又一實施例的顯示針對某一主題的多條信息的顯示系統,采用前面所述的對所述多條信息進行聚類融合后顯示,使得用戶能從圍繞某一主題的眾多信息如圍繞某一新聞的眾多評論信息中方便快速地瀏覽信息和/或獲得需要的有價值的信息,提高了用戶閱讀瀏覽信息的效率,包括
一聚類模塊,用于根據信息內容之間的相似度將針對某一主題的多條信息歸成多個分類;
一融合模塊,用于將所述多個分類中的每一個分類或其中一個分類內部的多條信息按照確定的融合規則進行融合。
類似的,本發明一實施例的針對某一主題的多條信息的顯示系統進一步包括實現本發明顯示方法所需的各功能模塊,同前所述,在此不再重復說明。
圖2A、2B為本發明一實施例系統人機界面圖,用于顯示對答案進行聚類融合后的結果。其中圖2A中描述的是聚類未展開時的圖,圖2B描述的是聚類展開后的圖。圖2A中,提出的問題為“Where is shanghai?”(上海在哪?),顯示出兩個未展開的聚類融合結果
(1)“It located China.”(在中國。),其綜合質量值為0.76,屬于該類的答案有6個。圖2B中示出了具體的這6個答案及其相應的質量值,其中,一個聚類顯示的綜合質量值是其包含的答案的綜合質量的最大值。
(2)“It located in PRC.”(在中華人民共和國。),其綜合質量值為0.51,屬于該類的答案有1個。
本發明一實施例的系統包括一問題的答案聚類模塊,一分類內部答案的融合模塊,一基于答案聚類的人機界面。
當用戶對某問題提出一個新的答案后,系統調用問題的答案聚類模塊對新增加的答案進行歸類。如果問題原本沒有答案,則生成一個新的分類,把新答案分配到該分類;否則按照發明內容部分所述問題的答案聚類方法對新增答案進行聚類。聚類的結果保存在服務器中,供以后用戶瀏覽時讀取調用。
每個用戶根據自己的需求可以自行選擇合適的融合規則,以及數據質量的權值,即用戶根據自己的需求可以自行選擇融合規則,因此答案歸類后并不直接進行融合過程。當一個用戶選擇聚類界面瀏覽答案時,系統根據用戶對數據質量的偏好及融合規則的設置,按照發明內容部分所述分類內部答案的融合方法進行融合。融合的結果直接顯示在用戶屏幕上所示,不會保存在數據庫中。
每個答案分類初始時都未展開(如圖2A),僅顯示該分類的一個總結,包括答案的數目、代表性的答案(即融合結果)以及該答案的數據質量。如果用戶對分類的總結感到滿意,則無須花費時間瀏覽其它的答案;否則,用戶可以點擊按鈕展開相關分類的詳細內容,以獲得更多的信息(如圖2B)。
當然,本發明還可有其他多種實施例,在不背離本發明精神及其實質的情況下,熟悉本領域的技術人員當可根據本發明作出各種相應的改變和變形,但這些相應的改變和變形都應屬于本發明所附的權利要求的保護范圍。
權利要求
1、一種問題答案的閱讀瀏覽顯示方法,用于提高用戶閱讀瀏覽某一問題的眾多答案的效率,其特征在于,包括
步驟1,對答案進行聚類,根據答案內容之間的相似度把所述眾多答案歸成多個分類;和/或,
步驟2,將所述多個分類中的其中一個分類或每一個分類內部的多個答案按照預先確定的融合規則進行融合。
2、根據權利要求1所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述步驟2進一步包括
步驟201,根據問題類型和先驗知識庫或模板信息庫中存儲的問題類型和答案類型的一一對應關系確定所述答案的類型;
步驟202,根據確定的答案類型預先確定答案融合的規則。
3、根據權利要求1或2所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述步驟1進一步包括
步驟101,抽取答案的特征向量,將答案內容表示成機器可計算的特征向量形式;
步驟102,計算所述答案特征向量之間的相似度;
步驟103,識別無效答案,不對其進行聚類;
步驟104,計算答案與類別之間的相似度,對答案進行聚類。
4、根據權利要求3所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述步驟101進一步包括
步驟401,將答案內容進行切分,以將其表達成單詞集合的形式;
步驟402,計算所述單詞集合中任兩個單詞T1和T2之間語義上的相似度sim(T1,T2);
步驟403,計算所述單詞集合中任一單詞Ti的權重wi;
步驟404,生成由一組單詞及其相應權重組成的答案特征向量。
5、根據權利要求4所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述步驟401進一步包括
步驟501,利用WordNet抽取出T1和T2相應的同義詞表syno1,syno2和上位詞表hyper1和hyper2,其中,syno1、hyper1分別為T1的同義詞表和上位詞表,syno2、hyper2分別為T2的同義詞表和上位詞表;
步驟502,根據公式synoSim=|syno1∩syno2|/|syno1∪syno2|,hyperSim=|hyper1∩hyper2|/|hyper1∪hyper2計算同義詞表間的相似度synoSim和上位詞表間的相似度hyperSim;
步驟503,根據公式sim(T1,T2)=(synoSim+hyperSim)/2計算T1和T2之間的相似度sim(T1,T2)。
6、根據權利要求5所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述單詞的權重wi根據公式wi=log2{N/[∑jsim(Ti,Tj)*df(Tj)]}計算得出,其中,df(Tj)為包含Tj的答案的頻率,N是問題的答案總數。
7、根據權利要求6所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述步驟102根據如下公式計算所述答案特征向量之間的相似度
其中,a1、a2為問題的兩個答案向量,a1={T11,T12,...,T1n},a2={T21,T22,...,T2m},其中,T11,...T1n,T21,...T2m表示答案向量中包含的詞,sim(T1i,T2j)為詞T1i與T2j之間的相似度,sim(T2j,T1i)為T2j與T1i之間的相似度,w1i,w2j為詞T1i與T2j的權重。
8、根據權利要求3所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述步驟104采用增量聚類的算法對答案進行聚類,根據如下公式計算新提交的答案aj與已有分類的相似度,判斷所述已有分類與答案aj的相似度中的最高的相似度值是否高于一預先設定的第一閾值;如是,則將答案aj歸入此類;如否,則生成一個包含答案aj的新類;其中,計算答案與類之間相似度的公式如下
其中,aj為新提交的答案,ci為包含答案ai1,ai2,...,aib的一個類,ci={ai1,ai2,...,aib},sim(aik,aj)為答案aik,aj之間的相似度,sim(ci,aj)為答案aj與類ci之間的相似度。
9、根據權利要求1、2、4-8中任一權利要求所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述融合規則是基于答案內容和/或數據質量的;其中,采用基于數據質量的融合規則進行融合的步驟具體包括
根據公式計算答案的權威性DQa,其中ability是預先確定的給出答案的用戶的能力值,adjust是調整參數;
根據公式計算答案的時效性DQt,tq是用戶提問時間,tc是答案發布時間;
根據公式計算答案的可靠性DQr,其中,reputation是預先確定的給出答案的用戶的信譽值,adjust是調整參數;以及
根據公式dq=∑wiDQi計算答案的綜合質量值dq,并選擇dq值最大的答案作為融合結果,其中i=a,t,r,wi是對應數據質量屬性元素DQi的相應的權值,∑iwi=1。
10、根據權利要求9所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述步驟2進一步包括
步驟1001,利用基于數據質量的融合規則過濾部分答案;
步驟1002,利用基于答案內容的融合規則融合經過過濾后剩余的答案以獲得最后的融合結果。
11、一種利用權利要求1、2、4-8、10中任一權利要求所述方法來顯示問題答案的問題回答系統,用于供用戶利用其工作站通過網絡系統進行交互式提問和回答,包括
一提問模塊,用于供用戶利用其工作站通過網絡系統進行提問;及
一回答模塊,用于供用戶利用其工作站通過網絡系統對問題進行回答;
其特征在于,還包括
一問題答案聚類模塊,用于根據答案內容之間的相似度把用戶提供的針對某一問題的眾多答案歸成多個分類,以對答案進行聚類;
一問題答案融合模塊,用于將所述多個分類中的其中一個分類或每一個分類內部的多個答案按照預先確定的融合規則進行融合。
12、根據權利要求11所述的系統,其特征在于,進一步包括一人機界面,用于供用戶輸入提問、輸入回答和/或顯示問題答案的融合結果。
13、根據權利要求11或12所述的問題答案閱讀瀏覽顯示方法,其特征在于,所述問題答案融合模塊進一步包括
答案類型確定模塊,用于根據問題類型和先驗知識庫或模板信息庫中存儲的問題類型和答案類型的一一對應關系確定所述答案的類型;
融合規則確定模塊,用于根據答案類型預先確定答案融合的規則。
14、一種利用權利要求1、2、4-8、10中任一權利要求所述的顯示方法來顯示針對某一主題的多條信息的顯示系統,其特征在于,包括
一聚類模塊,用于根據信息內容之間的相似度將針對某一主題的多條信息歸成多個分類;
一信息融合模塊,用于將所述多個分類中的每一個分類或其中一個分類內部的多條信息按照確定的融合規則進行融合。
15、一種在線問答網站,其特征在于,包括
一答案聚類模塊,用來計算針對某一提問的多個答案內容間的相似度,并根據所述相似度將所述多個答案歸成多個分類,以對答案進行聚類;
一答案融合模塊,用于將所述多個分類中的每一個分類或其中一個分類內部的多個答案按照確定的融合規則進行融合,以提高用戶閱讀答案的效率。
全文摘要
本發明涉及一種問題答案的閱讀瀏覽顯示方法,用于提高用戶閱讀瀏覽某一問題的眾多答案的效率,其特征在于,包括步驟1,對答案進行聚類,根據答案內容之間的相似度把所述眾多答案歸成多個分類;步驟2,將所述多個分類中的其中一個分類或每一個分類內部的多個答案按照預先確定的融合規則進行融合。利用本發明的方法及系統,用戶可以方便快速地瀏覽和/或查找問題的答案,并且可以對同一類的答案進行統一的操作,免去了用戶浪費時間用于瀏覽重復內容的煩惱,提高了用戶閱讀瀏覽答案或其他信息的效率。
文檔編號G06F17/30GK1790332SQ20051013077
公開日2006年6月21日 申請日期2005年12月28日 優先權日2005年12月28日
發明者劉文印 申請人:劉文印