一種基于異構社會網絡的檢測方法
【專利摘要】本發明涉及信息科學領域,提供了一種基于異構社會網絡的檢測方法,將異構社會網絡映射成多維矩陣;確定所述多維矩陣中節點的轉移概率和關系的轉移概率;利用隨機游走算法,獲得節點的均衡分布以及關系的均衡分布;根據節點的均衡分布以及關系的均衡分布,獲得帶權重的單關系社會網絡;以及利用單關系社會網絡檢測算法,基于所述帶權重的單關系社會網絡而獲得異構社會網絡的檢測結果。本發明充分利用了異構社會網絡中的節點和關系的相互影響,把異構網絡融合成帶有權重的單關系社會網絡,然后,再利用傳統的單關系社會網絡的社區檢測方法對帶有權重的單關系網絡進行社區檢測。
【專利說明】
-種基于異構社會網絡的檢測方法
技術領域
[0001] 本發明設及信息科學領域,提供了一種基于異構社會網絡的檢測方法。
【背景技術】
[0002] 本部分旨在向讀者介紹可能與本申請的各個方面有關的本領域的各個方面的技 術,相信本部分有助于向讀者提供背景信息,W便更好地理解本申請的各個方面。因此,應 當理解,應該從運個角度來進行解讀,而不是將其視為是對現有技術的承認。
[0003] 隨著Internet和萬維網的快速發展,Web社區和基于Web社區的社會網絡的研究逐 漸興起,因此尋找社會網絡中的社區結構的方法己經成為社會網絡分析中的研究熱點,而 且也存在很大的商機,目前社會網絡分析已經在很多領域得到了應用。如輿情分析、意見領 袖挖掘、學科熱點、廣告投放、引文分析、科研合作、恐怖襲擊分析、犯罪核屯、挖掘、知識管 理、網絡鏈接分析、社交網絡等。社會網絡分析己經成為了數據挖掘學科的重要分支之一, 近幾年來發展尤其迅猛,因為社會網絡分析是與現實生活緊密相關且具有廣泛的應用價 值。從傳統的成員關系網絡到互聯網時代的社交網絡,從大型電力網絡到交通運輸網絡,從 真實的商務模式到虛擬平臺的商務模式,從科研工作者的合作網絡到各種政治、教育、經 濟、醫療、科技的社會關系網絡等,可W說,各種各樣的復雜網絡充斥著我們的生活,運些網 絡都具有社會網絡的特征,通過對運些社會網絡的分析學習,能夠得到我們需要的潛在的 有用信息。
[0004] 網頁和其鏈入鏈出的關系通常按照圖的方式建模,例如,眾所周知的HITS和 化geRank算法被用來計算每個節點的權威值,在單關系網絡里運兩種算法都能夠被用作排 序模型。
[0005] 但是當面對異構社會網絡時,我們就需要聯合排序節點和邊的權威值。大多數社 會網絡分析的算法僅僅考慮的是同質關系的社會網絡,即單關系網絡,例如網頁與網頁之 間只存在鏈接的關系,而在現實世界中的社會網絡大部分是W異構社會網絡的形式存在 的,大多數實體之間總是存在著各種各樣的關系,運些關系在不同情況下體現著不同的重 要性,同時運些關系中的每一種關系都被看作是一種單關系網絡,因此隨著社區檢測的深 入研究,異構社會網絡分析受到越來越多的學者關注。目前,已有的研究普遍認為異構網絡 中不同的關系是相互獨立的,平等對待的,實際上運在現實生活中是不合理的。
【發明內容】
[0006] 為了克服現有技術中存在的不足,本發明的示例性實施例充分利用了異構社會網 絡中的節點和關系之間的相互影響,提出了一種基于異構社會網絡的檢測方法,該檢測方 法可W通過迭代計算得出異構網絡中節點和關系的權重,并可W把異構網絡融合成帶有權 重的單關系網絡,然后,再利用傳統的單關系網絡的社區檢測方法對經過本發明融合的帶 有權重的單關系網絡進行社區檢測。
[0007] 根據本發明的一方面,提供了一種基于異構社會網絡的檢測方法,包括:
[0008] 將異構社會網絡映射成多維矩陣;
[0009] 確定所述多維矩陣中節點的轉移概率和關系的轉移概率;
[0010] 利用隨機游走算法,獲得節點的均衡分布W及關系的均衡分布;
[0011] 根據節點的均衡分布W及關系的均衡分布,獲得帶權重的單關系社會網絡;W及
[0012] 利用單關系社會網絡社區檢測算法,基于所述帶權重的單關系社會網絡而獲得異 構社會網絡的社區檢測結果。
[0013] 在示例性實施例中,所述多維矩陣為η XnXm的矩陣,多維矩陣中的值代表節點i 和節點j在第d個關系下的合成的權重,其中1 ^ 1,j ^n,l ^ cKm,m和η均為大于等于2的正 整數。
[0014] 在示例性實施例中,確定所述多維矩陣中節點的轉移概率和關系的轉移概率包 括:
[0015]定義Ξ維的張量S=[sij,d],其表示關系和節點的合成;W及
[0016]確定節點的轉移概率為0 = [oi, j,d] W及關系的轉移概率為R = [ri, j,d],其中
[0019]在示例性實施例中,利用隨機游走算法,獲得節點的均衡分布W及關系的均衡分 布為根據
[0022] 確定所述節點的均衡分布W及所述關系的均衡分布,其中/=(A,扭,...,/〇和 9&=:(3;,<:/;....,知分別是節點和關系的先驗分布,。和0是調整因子。
[0023] 在示例性實施例中,所述合成的權重為節點i和節點j在d個關系下的張量與關系 權重的乘積之和。
[0024] 在示例性實施例中,所述單關系社會網絡社區檢測算法包括Kmeans算法、GMM算法 W及GMM-NK算法中的至少一個。
[0025] 更加具體地,本發明的示例性實施例提供了一種聯合排序算法,其充分利用了異 構社會網絡中的節點和關系之間的相互影響,把異構網絡融合成帶有權重的單關系網絡, 然后,再利用傳統的單關系網絡的社區檢測方法對經過本發明融合的帶有權重的單關系網 絡進行社區檢測。
【附圖說明】
[0026] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可W 根據運些附圖獲得其他的附圖,其中
[0027] 圖1是節點的轉移概率0和關系的轉移概率R在多維空間里的坐標圖;
[00%]圖2是條件概率在多維空間里的坐標圖;
[0029] 圖3聯合排序算法的偽代碼;
[0030] 圖4是Iris數據集上4個關系的密切度矩陣的坐標圖;
[0031] 圖5是通過發明中聯合排序算法的迭代計算,最終得到的Iris和化east數據集上 關系的均衡分布的柱狀圖;
[0032] 圖6是在Iris數據集上,通過聯合排序算法迭代得到的合成網絡進行社區檢測和 每個單關系上的網絡進行社區檢測的性能對比的柱狀圖;W及
[0033] 圖7是在Iris的合成數據集上聯合排序算法的收斂情況的曲線圖。
【具體實施方式】
[0034] 為使本發明實施例的目的、技術方案和優點更加清楚,下面將結合本發明實施例 中的附圖,對本發明實施例中的技術方案進行清楚、完整的描述,顯然,所描述的實施例僅 僅是本發明一部分實施例,而不是全部的實施例。基于本發明的實施例,本領域普通技術人 員在沒有做出創造性勞動前提下所獲得的所有其他的實施例,都屬于本發明保護的范圍。
[0035] 此外,在本發明的描述中,除非另有說明,"多個"的含義是兩個或更多。
[0036] 根據本發明的示例性實施例,提供了一種基于異構社會網絡的檢測方法,主要包 括W下步驟:
[0037] 將異構社會網絡映射成多維矩陣;
[0038] 確定所述多維矩陣中節點的轉移概率和關系的轉移概率;
[0039] 利用隨機游走算法,獲得節點的均衡分布W及關系的均衡分布;
[0040] 根據節點的均衡分布W及關系的均衡分布,獲得帶權重的單關系社會網絡;W及
[0041] 利用單關系社會網絡社區檢測算法,基于所述帶權重的單關系社會網絡而獲得異 構社會網絡的社區檢測結果。
[0042] W下將結合附圖,對上述步驟逐一說明。
[0043] 將異構社會網絡映射成多維矩陣:
[0044] m個關系的社會網絡通常定義成圖組的形式(¥,6^),(1=1,2,...,111,其中乂代表含 有η個元素的節點集合。eW是在d個關系上無向網絡的鄰接矩陣。eW實際上是一個二元矩 陣,如果節點巧Η之間有一條邊,則蝶叫),否則馬f=0(4刀。
[0045] -個異構社會網絡能夠通過一個nXnXm立方體的張量形式來表示。如果節點i通 過第d條關系連接到節點j上,則張量里的條目(i,j,d)是非零的。定義R為一個實體,S = (Sij,d)為一個密切關系張量,Sij,dER表示節點巧日節點j在第d個關系下的關系權重。并且 多維矩陣中的值代表節點i和節點j在第d個關系下的合成的權重,其中1 < 1,j <n,l <d< m,m和η均為大于等于2的正整數,所述合成的權重為節點i和節點j在d個關系下的張量與關 系權重的乘積之和,具體可W通過W下公式計算:
[0046]
[0047] 確定所述多維矩陣中節點的轉移概率和關系的轉移概率:
[004引一般地,定義一個Ξ個方向的張量s=[si,j,d](i y,j如,1如如)代表關系和實體 的合成。對于合成的社會網絡來說,S= A是一個具有m個關系的集合,S包含了 m個矩陣,相當 于各種類型交互的優化目標函數。對于特征合成來說,S代表了帶了點的特征合成,一般地通 過重疊社區的檢測方法來進行每一個關系抽取。如果我們進一步定義尸=|>1,^,...,化]和 ?/=|;巾,(/,,...,^;1分別為多關系網絡中節點和關系的權重,合成的權重可W定義為:
[0049]
(1)
[0化0] 迭代的關鍵任務就是計算關系的權重向量? D就多關系網絡而言,節點和關系之 間是相互影響的,我們需要得到一個節點和關系的聯合排序,定義R為一個真實的世界,兩 個向量Jpgei?"和^片/?居巧訊:
[0053]我們假設將隨機游走應用到多關系網絡里,運樣能夠構建出兩個轉移概率張量0 = [0i,j,d]和R=[ri,w],分別代表節點的轉移概率和關系的轉移概率。通過對密切關系張 量S規格化,0和R的轉移概率如下:
[0056] 圖1從空間上展示了基于A的節點的轉移概率0和關系的轉移概率R,具體來說, 〇i,j,d是在第d個關系上、第i行對密切關系張量S水平方向進行規格化處理,是在第i和 j個節點上的對密切關系張量S垂直縱向進行規格化處理。定義Xt和Yt是在t時刻分別訪問任 何一個節點和任何一個關系的隨機變量,因此,我們可W得到:
[0057] 〇i,j,d = p(Xt = i |Xt-i = j ,Yt = d) (6)
[005引 0i,j,d = p(Yt = d |Xt=i,Xt-i = j) (7)
[0059]顯然地,隨即變量的次序(Xt,Yt: t = 0,1...)是一個馬爾科夫鏈,聯合排序的算法 能夠計算節點的轉移概率ο和關系的轉移概率R。
[0062] 利用隨機游走算法,獲得節點的均衡分布W及關系的均衡分布:
[0063] ^和^分別是節點和關系的均衡或者穩定的概率分布,如果我們將化旨61?曰證的隨 機游走模型應用在異構網絡里,當t無限大的時候,P和q能達到均衡。因此,可W得到:
[0064]
(10)
[0065] 由上我們可W分析出,計算口'〇6陸-1叫,¥* = (^和口'〇6陸=1而-1叫]是決定節 點的均衡分布i和關系的均衡分布i的關鍵步驟。
[0066] 根據節點的均衡分布W及關系的均衡分布,獲得帶權重的單關系社會網絡:
[0067] 異構網絡里,不同的節點和不同的關系都顯示了其重要性,下面詳細介紹聯合排 序算法分別如何獲得節點和關系的概率分布的,然后展示其存在的唯一的概率分布。
[0068] 本發明提出了使用條件概率來進行聯合概率分布的建模。將兩個聯合概率Prob [Xt-i = j,Yt = d巧日Prob [ Xt = i,Xt-i = j ]進行變形,可W通過條件概率的公式形式來表示,可 W得到:
[0069] Prob[Xt-i = j,Yt = d]=Prob[Xt-i = j] · Prob[Yt = d | Xt-i = j] (11)
[0070] Prob[Xt = i ,Xt-i = j] = Prob[Xt-i = j] · Prob[Xt = i I Xt-i = j] (12)。
[0071] 圖2展示了 W上兩種條件概率在多維空間里的計算:
[0072] 公式(13)展示了從節點j到節點i的轉移概率,然而和化geRank不同的是Probn (j i)沒有一直保持不變,它受關系權重的影響。在異構網絡里,節點的權重不單單被其近鄰節 點影響,還被授予不同權重的關系強度影響。給定一個節點j,從節點j選擇節點i條件概率 表不如下:
[0076]因此,使用條件概率,公式(11)和公式(12)可W寫成如下的形式:
[0079] 聯合排序算法的迭代計算通過公式(15)和公式(16)來完成,然而,和隨機游走模 型類似的是,聯合排序算法也可W通過簡明的向量矩陣形式來表示。有鑒于此,我們建立了 兩個輔助的矩陣F = 和口 =巧j = l,. . .,n.V和U向量的維度都是nXm,其分別由m XI維的向量和nXl維的向量岸成。二的J和巧二巧J定義如下:
[0080]
[0081 ]如果我們將V和U向量進行行規格化操作,就有如下公式:
[0082] Prob[Xt-i = j | Yt = d] =Vj,d,Prob[Xt = i |Xt-i = j] =uj,i (18)
[0083] 此外,聯合排序算法也考慮了節點和關系的先驗概率產生的影響,結合W上公式, 我們使用下面的迭代公式來同時計算節點和關系的排序值:
[0086] 運里// =(/,|',/,;,...,/〇和<7-=如,(/;,...,<;/;)分別是節點和關系的先驗分布,〇和0是 用來平衡網絡結構和先驗知識的調整因子。在理想的情況下,先驗分布是由該領域專家計 算得出節點和關系的重要性。現在,我們假定隨機游走目前停留在節點i(即,Xt=i),我們 能夠通過公式(19)能夠計算出選擇節點j的概率,通過公式(20)能夠計算出選擇關系d的概 率。通過pt和qt迭代計算pt+i和qt+i,最終我們獲得節點和關系的均衡分布,聯合排序算法的 偽代碼如圖3所示。
[0087] 利用單關系社會網絡社區檢測算法,基于所述帶權重的單關系社會網絡而獲得異 構社會網絡的社區檢測結果:
[0088] 用傳統單關系社區檢測方法對融合帶有權重的單關系矩陣進行社區檢測,例如使 用Kmeans、GMM和GMM-NK算法進行社區檢測,得到劃分的社區。
[0089] 綜上所述,根據本發明的示例性實施例,在實施過程中首先構建異構網絡;其次根 據異構網絡中節點的屬性計算在每個關系上的相似度矩陣;再次使用聯合排序算法進行迭 代計算,得到融合帶有權重的單關系相似度矩陣;最后用傳統單關系社區檢測方法對融合 帶有權重的單關系矩陣進行社區檢測。
[0090] 根據本發明的示例性實施例提供的一種基于異構社會網絡的檢測方法,可包括W 下的步驟:
[0091] 步驟1:在實施過程中首先構建異構網絡;其次根據異構網絡中節點的屬性計算在 每個關系上的相似度矩陣。
[0092] 定義Pi,d和分別為在關系d上節點i,j的值。用空間上的距離用來構造公式(21) 中的關系密切度矩陣: 閨
劇)
[0094] 步驟2:輸入多個關系上的關系密切度矩陣,使用聯合排序算法進行迭代計算,得 到融合帶有權重的單關系相似度矩陣,同時能得到異構網絡中節點和關系的權重值。如無 例外的說明,下文中α = 0 = 0.5。
[0095] 步驟3:用傳統單關系社區檢測方法對融合帶有權重的單關系矩陣進行社區檢測, 例如使用Kmeans、GMM和GMM-NK算法進行社區檢測,得到劃分的社區。
[0096] 為了驗證根據本發明方法示例性實施例的基于異構社會網絡的檢測方法的有效 性,選取Iris數據集作為合成網絡的數據集進行實驗,最終實驗數據表明了本發明提出的 聯合排序算法用于異構社會網絡檢測的效果是顯著的。Iris數據集的屬性如表1所示:
[0097] 表1. Iris數據集 [009引
[0099] 因為一個先驗的社區關系(也就是Ground Truth)是已知的,然后我們采用常用的 歸一化互信息(NMI)作為評價標準。NMI定義如下:
[0100]
[0101] 為了驗證聯合排序算法的在異構社會網絡里的有效性,我們用公式(21)分別計算 在Pi,d和pj,廟關系上的相似度,由此構成一個在關系d上的密切度矩陣Tendor_d,Tendor_d 矩陣是一個對稱矩陣,矩陣上每一個元素分別代表Pi,d和PW在關系d上的密切度的值。我們 用明亮度來表示Pi,d和w,d的緊密程度,越明亮代表節點之間的緊密度越高,因此構造出的 圖中明亮方塊區域中很有可能就是潛在的社區,運些明亮方塊區域里的節點在關系d上形 成了緊密結合的社區,此外每個不同的明亮方塊區域反映了關系d對相應社區的重要程度。
[0102] 圖4分別展示了在Iris數據集上4個關系的相似度矩陣。
[0103] 由圖4可知,對于Iris數據集而言,關系3和關系4包含了更多的比較明顯的明亮方 塊區域,因此關系3和關系4對于Iris數據集的社區檢測更具有意義,相應的地,關系3和關 系4相比于關系1和關系2在Iris數據集具有更大的權重。總體來看,如果我們要對Iris數據 集做社區檢測,Iris數據集的關系3和關系4,下面導入Iris,應用聯合排序算法分別計算關 于關系的均衡分布。
[0104] 通過聯合排序算法迭代計算得到的關系均衡分布如圖5所示,由分析可知通過聯 合排序算法迭代計算得到的Iris的關系均衡分布基本上與圖4反映的密切度矩陣相吻合。
[0105] 圖6展示了在運兩個數據集的異構網絡上計算得出的NMI值的對比情況,顯而易見 的,不管我們采用哪一種聚類算法,在經過聯合排序算法合成的網絡上所表現出的性能遠 遠超過單個關系網絡上的性能。實驗表明,聯合排序算法能將異構網絡融合成高質量的單 關系網絡,運個合成的單關系網絡里的社區結構要比任何一個原始的單關系網絡要清晰很 多。而且,經過圖表數據分析可知,GMM-NK算法表現出來的性能是高于GMM和Kmeans的。
[0106] 圖7展示了聯合排序算法在合成數據集上的收斂性。參照圖7,我們可W清楚地看 到節點和關系的均衡分布的變化,II pt-pW II2+II qt-qW II2的值在有限的迭代次數內急促 地下降,經過連續地迭代最終逐漸減小,當ε = 10-5是一個收斂充分的標準值,在Iris和 化east合成數據集上,連續排序算法的迭代次數分別是11到17輪(不超過20)。
[0107] 本發明提出的基于異構社會網絡的檢測方法考慮到節點和關系的分布都是相互 影響和禪合的,所W使用條件概率來進行聯合概率分布的建模,從而來獲得異構網絡關系 的均衡分布,通過迭代計算可W得到帶有權重的單關系網絡,也可W得到異構網絡中節點 和關系的權重。
[0108] W上所述,僅為本發明的【具體實施方式】,但是,本發明的保護范圍不局限于此,任 何熟悉本技術領域的技術人員在本發明掲露的技術范圍內,可輕易想到的變化或替代,都 應涵蓋在本發明的保護范圍之內。因此,本發明的保護范圍應W所述權利要求的保護范圍 為準。
【主權項】
1. 一種基于異構社會網絡的檢測方法,包括: 將異構社會網絡映射成多維矩陣; 確定所述多維矩陣中節點的轉移概率和關系的轉移概率; 利用隨機游走算法,獲得節點的均衡分布以及關系的均衡分布; 根據節點的均衡分布以及關系的均衡分布,獲得帶權重的單關系社會網絡;以及 利用單關系社會網絡社區檢測算法,基于所述帶權重的單關系社會網絡而獲得異構社 會網絡的社區檢測結果。2. 根據權利要求1所述的檢測方法,其中所述多維矩陣為nXnXm的矩陣,多維矩陣中 的值代表節點i和節點j在第d個關系下的合成的權重,其中1 < i, j <n,l 和η均為 大于等于2的正整數。3. 根據權利要求2所述的檢測方法,其中確定所述多維矩陣中節點的轉移概率和關系 的轉移概率包括: 定義三維的張量S = [si, j,d],其表示關系和節點的合成;以及 確定節點的轉移概率為〇 = [〇i, j, d]以及關系的轉移概率為R = [ri, j, d],其中4. 根據權利要求3所述的檢測方法,其中利用隨機游走算法,獲得節點的均衡分布以及 關系的均衡分布為根據確定所述節點的均衡分布以及所述關系的均衡分布,其中/=(/<,¥,...,pi)和 / 分別是節點和關系的先驗分布,α和β是調整因子。5. 根據權利要求2所述的檢測方法,其中所述合成的權重為節點i和節點j在d個關系下 的張量與關系權重的乘積之和。6. 根據權利要求1-5任一所述的檢測方法,其中所述單關系社會網絡社區檢測算法包 括Kmeans算法、GMM算法以及GMM-NK算法中的至少一個。
【文檔編號】G06Q50/00GK105825430SQ201610011812
【公開日】2016年8月3日
【申請日】2016年1月8日
【發明人】伍之昂, 朱桂祥, 吳俊杰
【申請人】南通弘數信息科技有限公司