1.一種基于符號網絡模型的社區挖掘方法,其特征在于,所述方法包括:
讀取符號網絡N的鄰接矩陣A,設置社區數K的變化范圍為[Kmin,Kmax],并初始化社區數K=Kmin,其中,所述符號網絡N的節點總數為n,Kmin和Kmax為n范圍內的整數;
針對每一個社區數K,初始化對應的符號網絡模型SNMK,并將所述符號網絡模型SNMK與所述符號網絡N擬合,計算所述符號網絡模型SNMK的成本函數值HK;
比較所有符號網絡模型SNMK的成本函數值HK,選取成本函數值HK最小的符號網絡模型SNMK作為最優模型SNMoptim;
根據所述最優模型SNMoptim確定所述符號網絡N中每個節點i所屬的社區,0<i≤n。
2.如權利要求1所述的基于符號網絡模型的社區挖掘方法,其特征在于,所述針對每一個社區數K,初始化對應的符號網絡模型SNMK,并將所述符號網絡模型SNMK與所述符號網絡N擬合,計算所述符號網絡模型SNMK的成本函數值HK包括:
對于變化范圍[Kmin,Kmax]內的每一個社區數K,采用隨機方式初始化指示變量Z、參數π和參數θ,得到對應的符號網絡模型SNMK=(n,K,Z,π,θ);
將所述符號網絡模型SNMK與所述符號網絡N擬合,計算所述符號網絡模型SNMK的參數π、參數θ以及指示變量Z的后驗分布q;
根據計算得到的所述參數π和參數θ,計算所述符號網絡模型SNMK的成本函數值HK;
其中,所述指示變量Z為n×K維向量,用于指示每個節點i所屬的社區,每一行向量有且只有一個元素zik為1,其余元素zik為0;
所述指示變量Z的后驗分布q為n×K維向量,每一行向量中所有元素qik滿足:
所述參數π為K維向量,表示節點屬于社區的先驗概率,所述參數π中的元素πk滿足:
所述參數θ為K×n維向量,表示社區與節點的連接概率,所述參數θ中的每一個元素θki包括三個分量θ+ki、θ-ki、θ0ki,且所述θ+ki表示社區k與節點i之間存在一條正邊的概率、所述θ-ki表示社區k與節點i之間存在一條負邊的概率、所述θ0ki表示社區k與節點i之間不存在邊的概率,0<k≤K。
3.如權利要求2所述的基于符號網絡模型的社區挖掘方法,其特征在于,所述將所述符號網絡模型SNMK與所述符號網絡N擬合,計算所述符號網絡模型SNMK的參數π、參數θ以及指示變量Z的后驗分布q包括:
A:根據參數π和參數θ,計算指示變量Z的后驗分布q中的每一個元素qik;
B:根據所述元素qik更新參數π中的每一個元素πk和參數θ中的每一個元素θki的三個分量θ+ki、θ-ki、θ0ki;
C:根據所述后驗分布q以及更新后的參數π、參數θ計算對應的似然值L,并計算所述似然值L與上一次計算得到的似然值L之間的差值;
D:比較所述差值與預設閾值,若所述差值小于所述預設閾值,則以本次更新的參數π、參數θ以及后驗分布q作為最優參數;否則,返回步驟A進行下一次計算。
4.如權利要求3所述的基于符號網絡模型的社區挖掘方法,其特征在于,所述根據計算得到的所述參數π和參數θ,計算所述符號網絡模型SNMK的成本函數值HK包括:
根據所述最優參數中的參數π、參數θ以及所述最優參數對應的似然值L,按照預設公式計算所述符號網絡模型SNMK的成本函數值HK;
其中,所述預設公式為:
所述函數δ(πk≥1/3n)表示若πk大于或等于1/3n則函數值為1,否則函數值為0;所述函數表示若θ+ki大于或等于1/3n則函數值為1,否則函數值為0;所述函數表示若θ0ki大于或等于1/3n則函數值為1,否則函數值為0;所述函數表示若θ-ki大于或等于1/3n則函數值為1,否則函數值為0。
5.如權利要求1至4任一項所述的基于符號網絡模型的社區挖掘方法,其特征在于,所述根據所述最優模型SNMoptim確定所述符號網絡N中每個節點i所屬的社區,0<i≤n包括:
根據所述最優模型SNMoptim的指示變量Z的后驗分布q,確定所述符號網絡N中每個節點i所屬的社區,0<i≤n;
其中,所述節點i屬于具有最大后驗概率的社區。
6.一種基于符號網絡模型的社區挖掘裝置,其特征在于,所述裝置包括:
初始化模塊,用于讀取符號網絡N的鄰接矩陣A,設置社區數K的變化范圍為[Kmin,Kmax],并初始化社區數K=Kmin,其中,所述符號網絡N的節點總數為n,Kmin和Kmax為n范圍內的整數;
擬合模塊,用于針對每一個社區數K,初始化對應的符號網絡模型SNMK,并將所述符號網絡模型SNMK與所述符號網絡N擬合,計算所述符號網絡模型SNMK的成本函數值HK;
選取模塊,用于比較所有符號網絡模型SNMK的成本函數值HK,選取成本函數值HK最小的符號網絡模型SNMK作為最優模型SNMoptim;
社區確定模塊,用于根據所述最優模型SNMoptim確定所述符號網絡N中每個節點i所屬的社區,0<i≤n。
7.如權利要求6所述的基于符號網絡模型的社區挖掘裝置,其特征在于,所述擬合模塊包括:
初始化單元,用于對于變化范圍[Kmin,Kmax]內的每一個社區數K,采用隨機方式初始化指示變量Z、參數π和參數θ,得到對應的符號網絡模型SNMK=(n,K,Z,π,θ);
擬合單元,用于將所述符號網絡模型SNMK與所述符號網絡N擬合,計算所述符號網絡模型SNMK的參數π、參數θ以及指示變量Z的后驗分布q;
計算單元,用于根據計算得到的所述參數π和參數θ,計算所述符號網絡模型SNMK的成本函數值HK;
其中,所述指示變量Z為n×K維向量,用于指示每個節點i所屬的社區,每一行向量有且只有一個元素zik為1,其余元素zik為0;
所述指示變量Z的后驗分布q為n×K維向量,每一行向量中所有元素qik滿足:
所述參數π為K維向量,表示節點屬于社區的先驗概率,所述參數π中的元素πk滿足:
所述參數θ為K×n維向量,表示社區與節點的連接概率,所述參數θ中的每一個元素θki包括三個分量θ+ki、θ-ki、θ0ki,且所述θ+ki表示社區k與節點i之間存在一條正邊的概率、所述θ-ki表示社區k與節點i之間存在一條負邊的概率、所述θ0ki表示社區k與節點i之間不存在邊的概率,0<k≤K。
8.如權利要求7所述的基于符號網絡模型的社區挖掘裝置,其特征在于,所述擬合單元具體包括:
第一計算子單元,用于根據參數π和參數θ,計算指示變量Z的后驗分布q中的每一個元素qik;
第二計算子單元,用于根據所述元素qik更新參數π中的每一個元素πk和參數θ中的每一個元素θki的三個分量θ+ki、θ-ki、θ0ki;
第三計算子單元,用于根據所述后驗分布q以及更新后的參數π、參數θ計算對應的似然值L,并計算所述似然值L與上一次計算得到的似然值L之間的差值;
比較子單元,用于比較所述差值與預設閾值,若所述差值小于所述預設閾值,則以本次更新的參數π、參數θ以及后驗分布q作為最優參數;否則,返回第一計算子單元進行下一次計算。
9.如權利要求8所述的基于符號網絡模型的社區挖掘裝置,其特征在于,所述計算單元具體用于:
根據所述最優參數中的參數π、參數θ以及所述最優參數對應的似然值L,按照預設公式計算所述符號網絡模型SNMK的成本函數值HK;
其中,所述預設公式為:
所述函數δ(πk≥1/3n)表示若πk大于或等于1/3n則函數值為1,否則函數值為0;所述函數表示若θ+ki大于或等于1/3n則函數值為1,否則函數值為0;所述函數表示若θ0ki大于或等于1/3n則函數值為1,否則函數值為0;所述函數表示若θ-ki大于或等于1/3n則函數值為1,否則函數值為0。
10.如權利要求6至9任一項所述的基于符號網絡模型的社區挖掘裝置,其特征在于,所述社區確定模塊具體用于:
根據所述最優模型SNMoptim的指示變量Z的后驗分布q,確定所述符號網絡N中每個節點i所屬的社區,0<i≤n;
其中,所述節點i屬于具有最大后驗概率的社區。