本發明屬于異質網絡領域,特別涉及一種異質網絡社團結構以及社團尋找方法。
背景技術:
隨著網絡的不斷發展,其規模已經增長到了一個非常龐大的數量級。在這些大規模網絡中,以往小規模網絡研究中的重要問題,諸如移除某個結點或某條邊對整個網絡結構的影響這類問題,已不再有重要的研究價值,因為一個結點或一條邊的移除對大型網絡的結構影響是可以忽略不計的。人們往往更關心關于網絡結構的一些統計特征的研究,例如整個網絡的結點度的取值分布的形態,要破壞多大比例的網絡結點或邊才能使整個網絡結構被破壞等等。以往認為研究一個復雜系統,只需將系統的組成要素的性質單獨研究清楚,就能得到整個復雜系統的行為特性,但是研究表明,復雜系統的行為特性不能靠僅僅獨立研究其各組成要素,而應將各組成要素當一個整體來進行研究。在這種大背景下,隨著網絡研究的不斷深入,人們發現在不同類型的網絡中得到的反映網絡結構的性質和行為機制往往是一致的,在一個網絡上得到的規律可以很容易地映射到另一個網絡的研究中。這種不同網絡具有一致或相似的結構性質或行為特征的現象,推動著網絡研究以一個前所未有的速度向前發展,這類研究的對象——大規模網絡,常常被稱作復雜網絡。
研究表明,實際的復雜網絡是具有一定組織特性的網絡結構,如小世界性,聚集性和結點度的分布不均勻性等等。這種組織結構特性可以用網絡社團來描述。從直觀上講,社團是指由網絡節點組成的一個個節點子集合,子集合內部節點之間連接緊密,而各子集合之間節點連接稀疏。網絡社團的這種直觀意義表明社團內的節點通常是一組具有某種共同屬性或起某種相似作用的節點集合。
模塊度是衡量網絡社團劃分質量的標準,其基本想法是把社團劃分后的網絡與相應的零模型進行比較,以度量社團劃分的質量。模塊度值的大小主要取決于網絡的社團劃分情況,可以用來定量的衡量網絡社團劃分質量,其值越接近1,表示網絡劃分出的社團結構的強度越強,也就是劃分質量越好。因此可以通過最大化模塊度Q來獲得最優的網絡社團劃分。
傳統的復雜網絡社團發現大多針對同質網絡,而復雜網絡中的節點類型不同且邊類型不同的網絡稱為多關系異質網絡,即通常所說的異質網絡。在現實社會中,由于節點類型、節點關系多種多樣,致使異質網絡模型更加符合網絡的實際形態,加之異質網絡自身具有的復雜性及信息的多樣性,分析異質網絡模型對理解現實社會中的實際網絡具有重要作用。因此,采用異質網絡構建實際網絡模型,并對異質網絡進行社團發現,能夠準確挖掘實際網絡中的社團結構。與同質網絡社團劃分方法類似,異質網絡的社團發現首先需要提出衡量異質網絡社團的參數,即異質網絡模塊度。
由于當今網絡趨向于復雜化,多種不同類型的對象之間存在各種潛在關系,所以異質網絡的引入,為復雜網絡的分析提供了一種新的重要的手段。在對復雜網絡的分析中,往往可以發現其社團結構,模塊度是衡量社團劃分結果的一種評判標準,可以利用模塊度最大的方式對網絡進行社團劃分。
2006年,M.E.J.Newman提出了基于模塊度的社團發現方法,作者研究了圖的矩陣表示,并基于模塊度進行社團發現。文章首先介紹了傳統的圖劃分方法,而后提出模塊度的概念,并構建模塊度矩陣,最后講述了用模塊度進行社團發現。這里作者只提出同質網絡的社團結構,其方法并不適用于異質網絡,沒有考慮到異質網絡中的異質連接問題。
2010年,Peter J.Mucha等人提出了針對多片網絡進行社團發現,作者提出已有模塊度算法只適用于單網絡情況,并不適用于多網絡分析,而后主要研究了多片網絡下的模塊度計算方法,該方法可以應用于多特征網絡的研究,從而為在更大網絡范圍內研究社團結構提供了可能。同樣,作者提出的多網絡模塊度也是基于多個同質網絡的,并不適合異質網絡分析。
2012年,Comar P M等人對異質網絡進行了社團發現與圖分類,通過研究異質網絡的多任務學習方法,從一個異質網絡中導出兩個同質網絡的子網絡,一個子網絡用于分類,一個子網絡用于社團劃分。通過兩個子網絡在異質網絡中的關聯性,對二者同時進行了分類和社團劃分,并通過實驗證明這樣的準確率要遠高于獨立的分類與社團劃分。作者提出的異質網絡社團劃分方法,并沒有從異質網絡社團的自身結構出發,準確率較差。
基于以上的研究,在異質網絡的分析方面可以引入模塊度對其進行社團檢測,針對異質網絡中的社團結構,做出更深入的分析。
技術實現要素:
本發明為解決上述技術問題,提出了一種異質網絡社團結構以及基于該結構的社團發現方法;通過定義異質網絡的社團結構,并提出了基于異質網絡模塊度最大化的異質網絡社團發現算法,有效地發現了異質網絡中的社團結構。
本發明采用的技術方案為:一種異質網絡社團結構,包括:
A1、建立異質網絡,具體為:將不同類型的對象作為節點,不同對象之間的不同關系作為邊生成的網絡,即為異質網絡;
A2、采用鄰接矩陣表示異質網絡,具體為:
HW={AS,…,HSR,…},SR∈T;
其中,HW表示異質網絡,T表示節點類型集合,表示異質網絡中同質節點的鄰接矩陣,i、j′表示S類中的節點,NS表示S類的節點個數,表示第S類節點與第R類節點的鄰接矩陣,i表示S類中的節點,j表示R類中的節點,NR表示R類的節點個數;
A3、采用隨機游走過程建立異質網絡的1階零模型;
A4、基于異質網絡的零模型建立異質網絡模塊度,具體為:異質網絡模塊度Qh=(異質網絡中社團實際連邊數量-1階零模型中的期望連邊數),并以進行歸一化處理;
A5、定義異質網絡社團,具體為:給定一個異質網絡HW=[AS,…,HSR,…],S,R∈T,一個異質網絡社團HC,且HC=(HW′,s.t.Qh=Qhmax),HW′表示HW的子圖,通過將HW劃分為不同的子圖HW′,使得異質網絡模塊度Qh最大時劃分出的子圖HW′即為異質網絡社團HC。
進一步地,所述矩陣AS中的元素取值確定過程為:當存在從S類中的節點i指向S類中的節點j′的邊,則否則
進一步地,所述矩陣HSR中的元素取值確定過程為:當存在從S類中的節點i指向R類中的節點j的邊,則否則
進一步地,步驟A3所述1階零模型,具體為:與原網絡具有相同的節點類型集合T、每一類節點數NS,S∈T、同質節點度分布P(k)以及異質節點度分布P(hk)的隨機化網絡;且該隨機化網絡的成邊概率為:
其中,表示R類節點j與R類節點連接的同質度數;表示S類節點i與S類節點連接的同質度數;表示R類節點j與非R類節點連接的異質度數;表示S類節點i與非S類節點連接的異質度數;δSR表示沖擊函數;表示反沖擊函數;HM表示一個變量,表示異質連接的邊數量,MS表示S類中的同質邊數量,Si表示S類中的節點i,Rj表示R類中的節點j。
進一步地,步驟A4所述異質網絡模塊度Qh,具體為:
其中,E(Si,Rj)表示實際異質網絡中社團實際連邊數量,且P(Si,Rj)表示1階零模型中的期望連邊數,且Si表示S類中的節點i,Rj表示R類中的節點j。
本申請還提出一種基于該異質網絡社團結構的社團發現方法,包括:
B1、將異質網絡中每個節點初始化為一個社團;
B2、遍歷異質網絡中每個節點z,找出所有與節點z相連的節點,并對每個相連的節點計算模塊度增量;
B3、找出模塊度增量最大值所對應的相連的節點,將節點z添加至該相連的節點所在社團;
B4、重復步驟B2、B3得到若干新的社團,將每個新的社團作為一個新的異質網絡節點,得到若干新的異質網絡節點;
B5、重復步驟B2-B4,直到所有節點的模塊度增量小于或等于0時,社團劃分完成。
進一步地,步驟B2所述模塊度增量的計算式為:
其中,ΔQij表示模塊度增量,表示在S類中節點z′與節點i′的連接關系,若是節點z′與節點i′相連,則否則表示在S類中節點z′與R類中節點x的連接關系,若節點z′與節點x相連,則否則
本發明的有益效果:本申請提出了異質網絡的零模型,并在其基礎上進一步提出了適用于異質網絡的,一種全新的衡量異質網絡社團結構的功能函數——異質網絡的模塊度;并在異質網絡模塊度的基礎上,定義了異質網絡的社團結構,提出了基于異質網絡模塊度最大化的異質網絡社團發現方法,并驗證了該方法的有效性,本申請的方法具有如下優點:
(1)采用同質、異質鄰接矩陣全面、有效地描述異質網絡連接關系;
(2)提出異質網絡的零模型,為研究復雜網絡中異質網絡結構提供了基礎的隨機化網絡模型;
(3)提出異質網絡模塊度,一種全新的衡量異質網絡社團結構的功能函數,為異質網絡社團評價提供了新方法;
(4)在異質網絡模塊度的基礎上,定義了新的異質網絡的社團結構,提出了基于異質網絡模塊度最大化的異質網絡社團發現算法,有效地發現了異質網絡中的社團結構。
附圖說明
圖1為本申請的建立異質網絡流程圖。
圖2為本申請的基于異質網絡社團結構的社團發現方法流程圖。
具體實施方式
為便于本領域技術人員理解本發明的技術內容,下面結合附圖對本發明內容進一步闡釋。
如圖1所示為本申請的建立異質網絡流程圖,本申請的技術方案之一為:一種異質網絡社團結構,包括:
A1、建立異質網絡,具體為:
定義1:異質網絡:在本發明中,異質網絡指的是將不同類型的對象作為節點,不同對象之間的不同關系作為邊生成的網絡。
根據異質網絡的定義,能夠將復雜網絡中網絡存在的基本模式納為以下三種:
(1)單一關系同質網絡:網絡中節點類型相同有且僅有一種類型的邊;
(2)多關系同質網絡:網絡中節點類型相同,存在表示多種關系的多類型的邊;
(3)多關系異質網絡:網絡中節點類型不同且邊類型不同。
A2、為了便于計算,采用網絡鄰接矩陣表示異質網絡,網絡鄰接矩陣A=(aij)N×N是一個N階方陣,N表示網絡中節點個數,網絡鄰接矩陣中的元素aij取值確定過程為:如果有從節點i指向節點j的邊,則aij=1;如果沒有從節點i指向節點j的邊,則aij=0;根據網絡鄰接矩陣的定義,本申請的異質網絡HW具體為:
HW={AS,…,HSR,…},SR∈T;
其中,HW表示異質網絡,T表示節點類型集合,表示異質網絡中同質節點的鄰接矩陣,i、j′表示S類中的節點,NS表示S類的節點個數,表示第S類節點與第R類節點的鄰接矩陣,i表示S類中的節點,j表示R類中的節點,NR表示R類的節點個數;
矩陣AS中的元素取值確定過程為:當存在從S類中的節點i指向S類中的節點j′的邊,則否則
矩陣HSR中的元素取值確定過程為:當存在從S類中的節點i指向R類中的節點j的邊,則否則
A3、采用隨機游走過程建立異質網絡的1階零模型;
一般地,把與一個實際網絡具有相同節點數和相同的某些性質B的隨機網絡稱為該實際網絡的隨機網絡。這里的“某些性質B”可以是平均度,度分布,聚類系數,同配系數等等,或者是他們的某種組合。從統計學角度看,“具有性質B的網絡G也具有某一性質P”是一個零假設,而為了要驗證這一假設是否成立,就需要與原網絡G具有相同規模和相同性質B的隨機網絡作為參照系,以判別性質P是否為這類隨機網絡的典型特征。這類隨機網絡模型在統計學上稱為零模型。
按照約束條件從少到多,可以定義不同階次的零模型:
(1)0階零模型:與原網絡具有相同節點數N和邊數M的隨機化網絡。
(2)1階零模型:與原網絡具有相同節點數N和度分布P(k)的隨機化網絡,通常做法是每個節點的度值都保持不變,即度序列保持不變。
(3)2階零模型:與原網絡具有相同節點數N和二階度相關特性P(k,k’)的隨機化網絡。
以此類推,還可以定義更高階的零模型。
同理,在異質網絡中,本發明對異質網絡的零模型定義如下:
異質網絡的零模型:與原異質網絡HW具有相同規模和相同性質B的隨機網絡。
由于異質網絡中異質連接的存在,按照約束條件不同,可以定義不同階次的異質網絡零模型如下:
(1)0階零模型:與原異質網絡具有相同的節點類型T、同質節點數N、異質節點數HN、同質邊數M以及異質邊數HM的隨機化異質網絡。
(2)1階零模型:與原網絡具具有相同的節點類型T、同質節點數N、異質節點數HN、同質節點度分布P(k)以及異質節點度分布P(hk)的隨機化網絡
(3)2階零模型:與原網絡具有相同的節點類型T、同質節點數N、異質節點數HN、同質節點二階度相關特性P(k,k’)以及異質節點二階度相關特性P(hk,hk’)的隨機化網絡。
在本發明中,選用異質網絡1階零模型構建異質網絡的模塊度,因為1階異質網絡零模型同時具有一定的隨機性以及與原網絡相同的度特性。構造的零模型首先是一個不具有社團結構的隨機化網絡,而零模型階數越高,其社團結構越明顯。同時,在社團劃分中,對于度越大的節點之間的單一連接,對于其端點的連接緊密度貢獻越小,這一社團結構規律在零模型中應該得到反映,因此,本發明使用1階零模型同時滿足隨機性以及網絡度特性的要求,未做特殊說明,本發明中異質網絡零模型均指異質網絡的1階零模型。
本發明采用隨機游走過程建立異質網絡的零模型。首先考慮一個實際的同質網絡:若節點i到節點j有存在連邊,則說明節點i到節點j可達,一個行者在網絡中隨機找點游走,該過程可視為一個馬爾科夫過程,即行者每次游走是完全獨立隨機的,與上次游走結果無關,那么行者從第n個狀態在節點j游走至節點i的概率為:
其中,aij表示節點i與節點j的連接關系,kj表示節點j的度數,pi表示行者在節點j的概率。
現在考慮一個異質網絡,在異質網絡中,節點分為同質節點與異質節點,因此行者游走時,應分別考慮其在同質節點之間游走以及在異質節點之間游走的過程,因此,行者從第n個狀態在R類節點j游走至S類節點i的概率為:
其中,表示當節點i與節點j均屬于S類時其之間的連接關系;表示S類節點i與R類節點j之間的連接關系;δSR表示沖擊函數,即當S=R時,δSR=1;表示反沖擊函數,即當S≠R時,表示行者在R類節點j的概率;指R類節j的總度數,即同質度數與異質度數之和,具體表示為:
其中,表示R類節點j與R類節點連接的同質度數,異質度表示R類節點j與非R類節點連接的異質度數。
因此,在異質網絡零模型中,行者從R類的節點j走到S類的節點i的條件概率為:
其中,MS表示S類中的邊數,HM表示異質邊數。
在隨意游走馬爾科夫過程達到穩態時,可以得到行者在R類節點j的穩態概率為:
其中,M表示異質網絡的總邊數。因此,在隨機游走過程中,本申請異質網絡零模型中S類節點i和R類節點j的聯合成邊概率p(Si,Rj)為:
A4、基于異質網絡的零模型建立異質網絡模塊度;
在2006年,Newman將模塊度Q定義為Q=(社團中的實際連邊數量-這些邊的期望數量)。同理,在構建異質網絡模塊度時,本專利使用異質網絡的1階零模型作為網絡模型,即與原網絡具有相同的節點類型T、同質節點數N、異質節點數HN、同質節點度分布P(k)以及異質節點度分布P(hk)的隨機化網絡。通過第2.2.2節分析,該網絡模型的成邊概率為:
因此,本申請網絡模型中的期望連邊數為:
本申請實際異質網絡的連邊數為:
因此,本發明對異質網絡的模塊度定義如下:
異質網絡模塊度:具體為:異質網絡模塊度Qh=(異質網絡中社團實際連邊數量-1階零模型中的期望連邊數),并以進行歸一化處理;即:
根據異質網絡模塊度的定義,公式中分為同質模塊度與異質模塊度兩部分,可以理解為異質網絡中的模塊度Qh是網絡中同質部分模塊度與異質部分模塊度之和,能夠全面反映出異質網絡社團結構性質。
A5、定義異質網絡社團,與同質網絡類似,異質網絡中同樣存在社團結構,即聯系緊密的多類型節點的集合。本發明采用異質網絡中的模塊度衡量異質社團聯系的緊密程度,當異質模塊度最大時,異質網絡的社團劃分結果最為理想。異質社團的定義如下:
給定一個異質網絡HW=[AS,…,HSR,…],S,R∈T,一個異質網絡社團HC,且HC=(HW′,s.t.Qh=Qhmax),HW′表示HW的子圖,通過將HW劃分為不同的子圖HW′,使得異質網絡模塊度Qh最大時劃分出的子圖HW′即為異質網絡社團HC。
如圖2所示為本申請的基于異質網絡社團結構的社團發現方法流程圖,本申請的另一技術方案為:一種基于該異質網絡社團結構的社團發現方法,包括:
B1、將異質網絡中每個節點初始化為一個社團,得到社團數量為∑b Nb,∑b Nb表示將各節點類型所包含節點個數相加,Nb表示序號為b的節點類型所包含的節點個數,b表示節點類型的序號;
B2、遍歷異質網絡中每個節點z,找出所有與節點i相連的節點,并對每個相連的節點計算模塊度增量;
其中,ΔQij表示模塊度增量,表示在S類中節點z′與節點i′的連接關系,若是節點z′與節點i′相連,則否則表示在S類中節點z′與R類中節點x的連接關系,若節點z′與節點x相連,則否則
B3、找出模塊度增量最大值所對應的相連的節點,將節點i添加至該相連的節點所在社團;
B4、重復步驟B2、B3得到若干新的社團,將每個新的社團作為一個新的異質網絡節點,得到若干新的異質網絡節點,將新的社團內部的連接作為新的異質網絡節點的自環,權重為新的社團內部連接關系總和;將新的社團之間的連接作為新的異質網絡節點之間的邊,邊的權重為兩個新的社團中所有節點連接關系總和;
B5、重復步驟B2-B4,直到所有節點的模塊度增量小于或等于0時,社團劃分完成。
本領域的普通技術人員將會意識到,這里所述的實施例是為了幫助讀者理解本發明的原理,應被理解為本發明的保護范圍并不局限于這樣的特別陳述和實施例。對于本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的權利要求范圍之內。