專利名稱::基于粗糙集的多定性概率網整合方法
技術領域:
:本發明涉及到對多個定性概率網進行整合方面的方法。主要是對來自同一數據源的不同專家給定的定性概率網,并結合少量數據,得到既能體現歷史數據中蘊含的規律,也能反映專家領域知識的QPN。具體講,涉及基于粗糙集的多定性概率網整合方法。
背景技術:
:1.定性概率網1990年密歇根大學人工智能實驗室著名教授Wellman提出了定性概率網(QPN,QualitativeProbabilisticNetwork)的基本概念,被認為是定性概率推理研究中里程碑式的標志,QPN是對貝葉斯網(BN)的一種定性抽象,它把BN中的變量間的因果關系轉化為定性描述。與BN類似,他也包含一個有向無環圖(DAG)和一個變量間的定性影響(描述變量間值增減的趨勢)的集合。他用有向無環圖來描述變量間的依賴關系,通過定性影響來概括變量間蘊含的因果關系。QPN通過定性的方式以變量值的增減趨勢代替一般BN中精確的條件概率參數,當應用具有較高的實時性要求、需要從較少的數據中學習概率網絡、或者精確概率參數未知的情況下,QPN可以用來作為不確定知識表示及推理的框架。雖然QPN的表達能力低于BN,但是其表示及推理得到了較大程度的簡化和加速,反映了事件間更一般的關系,具有較高的效率。Wellman開創性的提出了QPN的基本概念,QPN可以表示成一個二元組G=(V,Q),其中V是變量的集合,對應圖中的節點,Q是變量之間定性關系的集合,Q中包含兩類定性概率關系描述變量間直接關系的定性影響和描述變量間間接影響的定性協作,其中定性協作又包括定性加協作和定性乘協作。QPN具有與其對應的BN相同的有向無環圖結構,由QPN的定義,上面的幾類定性關系可基于BN的有向無環圖和各節點間的影響概率參數而得到。定性影響。Wellman給出了定性影響的定義,用以描述QPN中變量間存在的直接相互關系,定性影響包括正影響、負影響、零影響和不確定影響。A正影響B,記為S+(A,B),當且僅當對于A的值al>a2,b的值b0和X所有可能的組合的值x(X是G中節點B除節點A之外的所有父節點,即X=Ji(b)\{A}),有P(B彡bO|al,x)-P(B彡b0|a2,x)彡0。S+(A,B)意味著不考慮作用在B上的其他直接影響,A值增加使B值增加的可能性更大。類似的可以定義負影響(S_(A,B))和零影響(S0(A,B)),其他情況表明A對B的影響不確定,用(S?(A,B))表示。定性影響具有對稱傳遞和合成性。這三個性質是人們研究定性概率因果關系表示、推理及應用的基礎。對稱定意味著A對B的定性影響和B對A的定性影響相同。傳遞性使用符號乘()運算規則,由已知的A—B和B—C上的定性影響得到A對C的定性影響;合成性使用符號和()運算規則由節點A和B間多條有向邊上的定性影響得到A對B的最終定性影響。定性影響的因和操作分別如表1和表2所示。表1操作的運算規則<table>tableseeoriginaldocumentpage4</column></row><table>表2操作的運算規則<formula>formulaseeoriginaldocumentpage4</formula>定性協作。定性協作關系用來描述QPN的"V"型結構中3個節點的相互作用,包括加協作和乘協作兩類。Wellman給出了定性加協作的定義,用來衡量2個原因節點對公共孩子節點的聯合影響是否高于這2個原因節點對其孩子節點各自影響之和,定性加協作包括正加協作、負加協作、零加協作和不確定加協作。加協作仍然具有對稱、傳遞及合成性質。根據條件獨立和有向無環圖的性質,“V"結構中當孩子節點值已知時,2個原因節點不獨立。基于QPN的概念,Henrion等提出了定性乘協作的概念,用來表示當孩子結點已知的情況下,2個原因節點之間的相互影響。定向乘協作包括正乘協作、負乘協作、零乘協作和不確定性乘協作。定性乘協作具有對稱、傳遞和合成性質。QPN的構造問題,目前主要是由給定樣本數據構造QPN和由專家知識構造QPN。更近一步,若不但給定歷史數據,也給定專家知識,人們希望構造出既體現歷史數據中蘊含的規律,也反映專家領域知識的QPN,或者反映專家知識的QPN為主,用數據中蘊含的定性概率因果關系對其進行修正。那么如何有效的利用上面兩方面的研究結果構造最終的QPN,也具有重要的意義,同時也是較高難度的研究課題。QPN中不確定性定性關系的消除。在由BN導出QPN時,由于知識的高度抽象而可能產生不確定性關系,不確定性關系意味著變量之間的相互依賴關系未知。這類不確定性關系也可能在QPN推理過程中由于符號傳播而導致推理結果的不確定性,這使得QPN從BN導出后,知識的表達能力大大下降。2.粗糙集20世紀70年代,波蘭學者Z.Pawlak和一些波蘭科學院,波蘭華沙大學的邏輯學家們,一起從事關于信息系統邏輯特性的研究。粗糙集理論就是在這些研究的基礎上產生的。1982年,Z.Pawlak發表了經典論文RoughSets,宣告了粗糙集理論的誕生。粗糙集理論的觀點是“知識(人的只能)就是一種對對象進行分類的能力”,這里的對象就是我們所言及的任何事物。設U是我們感興趣的對象組成的非空有限集合,稱為一個論域。論域U的任何一個子集xeu,稱為論域U的一個概念或范疇。為了規范化,我們認為空集也是一個概念,稱為空概念。給定一個論域U和U上的一簇等價關系S,稱二元組K=(U,S)是關于論域U的一個知識庫或近似空間。給定論域U和U上的一簇等價關系S,若P£S,且FV0,則nP(P中所有等價關系的交集)仍然是論域u上的一個等價關系,稱為P上的不可分辨關系,記為IND(P),也常簡記為P。而且,VXGU,[x]IND(P)=[x]p=n[x]pvKGr集合的上近似和下近似。給定知識庫K=(U,S),其中U為論域,S表示論域U上的等價關系簇,則VX£U和論域U上的一個等價關系RGIND(K),我們定義子集X關于知識的上近似和下近似分別為r(x)={x(vxgu)a([x]rcx)}=U{Y(VYgU/R)A(YCX)},R(X)={x(VxeU)A([x]RnX^0)}=U{Y(YeU/R)A(YnX^0)}集合BNR(X)=尺()9-R(X)稱為X的R邊界域。POSR(X)=R(X)稱為X的R正域。NEGR(X)-U-^00稱為負域。下近似R00或正域POSR(X)是由那些根據知識R判斷肯定屬于x的論域u中的元素組成的集合;上近似尺00是由那些根據知識判斷肯定屬于和可能屬于X的論域U中的元素組成的集合;R的邊界BNR(X)是由那些根據知識R既不能判斷肯定屬于X也不能判斷肯定不屬于X的論域中元素組成的集合;R負域NEGR(X)表示根據知識R判斷肯定不屬于X的論域U中元素組成的集合。概率下近似。設0為一個閥值,且0.5<0(1,則概率下近似定義為R3X={xGU|P(X/[x]R)≥3}其中<formula>formulaseeoriginaldocumentpage5</formula>依賴度。依賴度反映了屬性之間的依賴程度。w=|P0SAB|/|U表示了,B對A的依賴程度,記作A。wB。
發明內容本發明的目的在于克服現有技術的缺陷,提供一種基于粗糙集的多定性概率網整合方法。為達到上述目的,本發明采用的技術方案如下1.計算每一個QPN中所有邊的依賴度,通過每一個QPN所對應的少量數據,計算QPN中的每條邊之間的概率下近似R0X,通過下面的公式計算每一條邊的P0S信息.設3=0.85R3X={xGU|P(X/[x]R)≥3}P0SAB=UXGU/BA3X則B對A的依賴度為w=|P0SAB|/|U|,記作A。wB;2.整合多個QPN信息,獲取整合后的QPN,對QPN的整合涉及到邊的整合,和定性影響以及符號的整合。整體的方法是,首先兩個QPN進行整合,然后和第三個QPN進行整合,以此類推,將所有的QPN進行整合;3.消除整合后QPN中的環路信息,得到最終QPN,消除環路的方式是,綜合專家信息和歷史數據信息,消除環路中權重最小的邊,環路中的某條邊的權重計算公式為邊數目乘以依賴度,其中邊數代表了QPN整合過程中有多少專家給定的QPN中存在這條邊,依賴度為通過在整合過程中計算所有的QPN中邊的依賴度得到的依賴度信息,得到最終的IQPN。所述整合兩個QPN信息是邊的信息整合,如果第二個QPN中有此邊,而第一個QPN中,兩個節點間沒有邊,則添加邊,并記邊數為1,否則將邊數加1;邊的符號和定向影響整合。由于不同專家給定的邊的影響有可能不同,如正負影響不同,影響程度不同等,因此通過以下信息進行邊的信息整合設5表示邊的符號信息,w表示邊之間的依賴度,即第一步計算出的AB之間的依賴度,則符號和定性影響計算如下S8[w](A,C)=S8[wl](A,C)VS8[w2](A,C)(0<wl,w2≥1)其中S和w的定義如下。If61=62then6=61=62andw=wl+w2_wl*w2If6162andwl>w2then6=6landw=wl_w2+wl*w2If6162andw2>wlthen6=62andw=w2_wl+wl*w2If6162andw2=wlthen5=81十52andw=wl=w2通過以上公式,就可以計算出整合后邊的符號和依賴度。本發明基于粗糙集的多定性概率網整合方法,可以產生如下的有益效果,有效的利用定性概率網、粗糙集兩方面的研究結果構造最終的QPN,使知識的表達能力大大提升。圖1第一個QPN對應的BN和定性符號信息。后面附有實驗數據生成代碼和實驗數據。圖2,圖3,圖4,圖5與圖1一樣是其所對應的QPN信息,為專家給定的QPN。圖6為第二步初步整合后的結果。圖7為最終的IQPN結果。圖8是節點之間的真實關系圖,表示節點之間的真實關系。圖中括號中的信息格式為(邊數,依賴度,權重,符號)。具體實施例方式本發明的主要內容是對定性概率網進行整合,目前研究QPN的一個重要方面是,構造出既體現歷史數據中蘊含的規律,也反映專家領域知識的QPN。這是一個較高難度的課題,本發明通過對同一數據源上不同專家給定的QPN結構,并通過少量的數據,權衡數據和專家給定的QPN,整合出一個既能體現數據規律,又符合專家給定信息的QPN。本發明的技術實現方案如下。1.計算每一個QPN中所有邊的依賴度通過每一個QPN所對應的少量數據,計算QPN中的每條邊之間的概率下近似R3X。通過下面的公式計算每一條邊的P0S信息.設0=0.85R3X={xGU|P(X/[x]R)彡3}P0SAB=UXGU/BA3X則B對A的依賴度為w=|P0SAB|/|U|,記作A。wB2.整合多個QPN信息,獲取整合后的QPN對QPN的整合涉及到邊的整合,和定性影響以及符號的整合。整體的方法是,首先兩個QPN進行整合,然后和第三個QPN進行整合,以此類推,將所有的QPN進行整合。下面介紹一下如何整合兩個QPN信息。邊的信息整合。如果第二個QPN中有此邊,而第一個QPN中,兩個節點間沒有邊,則添加邊,并記邊數為1,否則將邊數加1。邊的符號和定向影響整合。由于不同專家給定的邊的影響有可能不同,如正負影響不同,影響程度不同等,因此通過一下信息進行邊的信息整合。設5表示邊的符號信息,w表示邊之間的依賴度,即第一步計算出的AB之間的依賴度。則符號和定性影響計算如下。S8[w](A,C)=S8[w1](A,C)VS8[w2](A,C)(0<w1,w2(1)其中S和w的定義如下。If61=62then6=61=62andw=wl+w2_wl*w2IfS1乒62andwl>w2then6=6landw=wl_w2+wl*w2If81乒82andw2>wlthen6=62andw=w2_wl+wl*w2IfS1乒62andw2=wlthen5=81十52andw=wl=w2通過以上公式,就可以計算出整合后邊的符號和依賴度。算法實現如下。輸入所有QPN(QPN1,QPN2,,QPNn)以及每一個QPN中邊的依賴信息w7輸出整合后的IQPNbeginn一QPNsnumber,N一nodesnumberletIQPN—QPN1fork=2tondofori=ltondofori=ltondoifEjexistthenifEij1notexistthenaddedgeE^andsigns8^inQPNktoIQPNlet4.Num=land^.w=E^.wendifEi/existthenKNum^_EljNum+1;SI8[y]=SI8[y]USk8[y];endendendendendend3.消除整合后QPN中的環路信息,得到最終QPN由于整合過程中出現了環路信息,因此必須消除環路。消除環路的方式是,綜合專家信息和歷史數據信息,消除環路中權重最小的邊。環路中的某條邊的權重計算公式為邊數目乘以依賴度。其中邊數代表了QPN整合過程中有多少專家給定的QPN中存在這條邊,依賴度為通過在整合過程中計算所有的QPN中邊的依賴度得到的依賴度信息。之所以使用這種方式計算權重,基于以下兩點。首先必須考慮專家給定的節點之間的定性影響,因為專家往往以專業知識為背景,給定了邊之間的定性影響,其次尊重歷史數據信息,由于不同的專家給定的定性影響可能不同,因此,我們必須得用數據信息來修正這種結果。我們綜合考慮這兩個因素,因此使用邊數乘以依賴度作為權重信息。算法實現如下所示。輸入IQPN輸出消除環路后的IQPNbegin查找所有的環路,放入環路列表,將所有邊按權重有小到達排序,放入邊列表中while環路列表中存在環路do8首先選擇目前權重最小的邊if此邊在任何一個環路中do在QPN中刪除此邊,并將所有含有此邊的環路信息從環路列表刪除,同時在邊列表中刪除此邊信息。endendend這樣就得到了最終的IQPN。下面結合附圖和實施例進一步詳細說明本發明。圖1中,數據生成代碼N=4;dag=zeros(N,N);C=1;S=2;R=3=4;dag(C,[RS])=1;dag(R,W)=1;%draw_graph(dag);discrete—nodes=1:N;node_sizes=2*ones(l,N);%node—sizes=[4235];notbinarybnet=mk—bnet(dag,node_sizes);bnet.CPD{C}=tabular—CPD(bnet,C,);bnet.CPD{S}=tabular—CPD(bnet,S,);8]);0.37800.9162])2122212221221122212211222111121121122122112221221112圖2數據生成代碼N=4;dag=zeros(N,N);C=1;S=2;R=3;ff=4;dag(C,[R])=1;dag(S,[ffC])=1;dag(ff,R)=1;%draw—graph(dag);discrete_nodes=1:N;node_sizes=2*ones(l,N);%node_sizes=[4235];notbinarybnet=mk_bnet(dag,node_sizes);bnet.CPD{C}=tabular_CPD(bnet,C,);bnet.CPD{S}=tabular_CPD(bnet,S,);bnet.CPD{R}=tabular_CPD(bnet,R,);bnet.CPD{ff}=tabular_CPD(bnet,ff,);nsamples=20;samples=cell(N,nsamples);fori=1:nsamplessamples(:,i)二sample_bnet(bnet);enddata=eel12num(samples);生成數據21221211111212222122121212121211121221222121121221222111121221212111121221222222圖3數據生成代碼N=4;dag=zeros(N,N);C=1;S=2;R=3;ff=4;dag(R,C)=1dag(R,ff)=1dag(S,ff)=1%draw_graph(dag);discrete_nodes=1:N;node_sizes=2*ones(l,N);%node_sizes=[4235];notbinarybnet=mk_bnet(dag,node_sizes);bnet.CPD{C}=tabular_CPD(bnet,C,)bnet.CPD{W}=tabular—CPD(bnet,W,[10.10.10.0100.90.90.99])%datageneratensamples=20;samples=cell(N,nsamples);fori=1:nsamplessamples(:,i)=sample—bnet(bnet);enddata=eel12num(samples);生成數據12122222121211112121111111222222121222221111121212221111111111112222221221222122圖4數據生成代碼N=4;dag=zeros(N,N);C=1;S=2;R=3;ff=4;dag(C,S)=1dag(ff,R)=1dag(S,ff)=1%draw_graph(dag);discrete_nodes=1:N;node_sizes=2*ones(l,N);%node_sizes=[4235];notbinarybnet=mk_bnet(dag,node_sizes);bnet.CPD{C}=tabular_CPD(bnet,C,);0.11870.52717079])9270])CN%datageneratensamples=20;samples=cell(N,nsamples);fori=1:nsamplessamples(:,i)=sample_bnet(bnet);enddata=cell2num(samples);生成數據21222122122221112112212221111222112221122112212211112111122212222222212211221222圖5數據生成代碼N=4;dag=zeros(N,N);C=1;S=2;R=3;ff=4;dag(C,[RS])=1;dag(W,R)=1;dag(S,ff)=1;%draw_graph(dag);discrete_nodes=1:N;node_sizes=2*ones(l,N);%nodesizes=[4235];notbinarybnet=mk_bnet(dag,node_sizes);bnet.CPD{C}=tabular_CPD(bnet,C,);bnet.CPD{S}=tabular_CPD(bnet,S,);bnet.CPD{R}=tabular_CPD(bnet,R,);bnet.CPD{ff}=tabular_CPD(bnet,ff,);%datageneratensamples=20;samples=cell(N,nsamples);fori=1:nsamplessamples(:,i)=sample_bnet(bnet);Enddata=eel12num(samples);生成數據11111112212111112122111212221112222212221112111222221212211121222121121221121111。1.計算每一個QPN對應的依賴度信息一種有5個QPN,每個QPN為4個節點。通過數據計算出每一QPN中邊對應的依賴度。2.整合這5個QPN,得到一個QPN如整合第一個和第二個QPN,首先將第一個QPN信息賦值給整合QPN即IQPN,然后看QPN2中的一條邊,在IQPN中是否存在,如果不存在則將此邊加入到IQPN中。如果存在,則首先將IQPN中此邊的數目信息加一,然后通過符號和依賴度計算公式,計算符號和依賴度,并存入IQPN中,這樣就得到了第一次計算的IQPN信息。同樣讓IQPN與QPN3,QPN4,QPN5分別整合,這樣就得到了IQPN。通過這一步整合后的IQPN,如圖6所示。3.消除節點的環路,得到最終的IQPN首先找出IQPN中所有的環路,放入環路列表中,然后把IQPN中的邊按依賴度由小到大的方式排序,放入邊列表中。首先找出權重最小的邊,如果此邊在環路中,則刪除此邊,然后將所有含有此邊的環路信息刪除,本例中的第一條邊為(R,C),其權重信息為0.55,由于其在環路中因此刪除此邊,然后將含有此邊的所有環路信息刪除,如R—C—S—W,R—C—R等含有(R,C)這條邊的所有環路信息從環列表中刪除,并將此邊從邊列表中刪除。然后繼續驗證其他的邊,也以這種方式刪除相關信息,從而得到最總的IQPN,如圖7所示。可以看到,其與真實的關系圖是吻合的,因此本算法是有效的。1權利要求一種基于粗糙集的多定性概率網整合方法,其特征是,包括下列步驟(1)計算每一個QPN中所有邊的依賴度,通過每一個QPN所對應的少量數據,計算QPN中的每條邊之間的概率下近似RβX,通過下面的公式計算每一條邊的POS信息.設β=0.85RβX={x∈U|P(X/[x]R)≥β}POSAB=∪X∈U/BAβX則B對A的依賴度為w=|POSAB|/|U|,記作<mrow><mi>A</mi><mo>⇒</mo><mi>wB</mi><mo>;</mo></mrow>(2)整合多個QPN信息,獲取整合后的QPN,對QPN的整合涉及到邊的整合,和定性影響以及符號的整合,整體的方法是,首先兩個QPN進行整合,然后和第三個QPN進行整合,以此類推,將所有的QPN進行整合;(3)消除整合后QPN中的環路信息,得到最終IQPN,消除環路的方式是,綜合專家信息和歷史數據信息,消除環路中權重最小的邊,環路中的某條邊的權重計算公式為邊數目乘以依賴度,其中邊數代表了QPN整合過程中有多少專家給定的QPN中存在這條邊,依賴度為通過在整合過程中計算所有的QPN中邊的依賴度得到的依賴度信息,得到最終的IQPN。2.根據權利要求1所述的一種基于粗糙集的多定性概率網整合方法,其特征是,所述整合兩個QPN信息是邊的信息整合,如果第二個QPN中有此邊,而第一個QPN中,兩個節點間沒有邊,則添加邊,并記邊數為1,否則將邊數加1;邊的符號和定向影響整合,由于不同專家給定的邊的影響有可能不同,如正負影響不同,影響程度不同等,因此通過以下信息進行邊的信息整合設8表示邊的符號信息,w表示邊之間的依賴度,即第一步計算出的AB之間的依賴度,則符號和定性影響計算如下。<formula>formulaseeoriginaldocumentpage2</formula>其中5和w的定義如下。<formula>formulaseeoriginaldocumentpage2</formula>通過以上公式,就可以計算出整合后邊的符號和依賴度。全文摘要本發明涉及到對多個定性概率網進行整合方面的方法。為提供一種基于粗糙集的多定性概率網整合方法,本發明采用的技術方案如下1.計算每一個QPN中所有邊的依賴度,通過每一個QPN所對應的少量數據,計算QPN中的每條邊之間的概率下近似RβX;2.整合多個QPN信息,獲取整合后的QPN;3.消除整合后QPN中的環路信息,得到最終QPN。本發明主要應用于定性概率網。文檔編號G06F17/00GK101833538SQ20101016806公開日2010年9月15日申請日期2010年5月11日優先權日2010年5月11日發明者呂亞麗,廖士中,賀躍松申請人:天津大學