話題領域中社交網絡關鍵節點的識別方法
【專利摘要】本發明提出了一種話題領域中社交網絡關鍵節點的識別方法,克服現有技術中沒有考慮到真實社交網絡中用戶節點對于信息傳播的影響因素以及計算復雜性較高的問題。其實現步驟是:(1)構建網絡的有向圖;(2)生成與有向圖對應的鄰接矩陣;(3)量化用戶節點對信息傳播的影響因素;(4)量化用戶節點的話題topic相關度;(5)量化用戶節點信息傳播能力;(6)識別關鍵節點。本發明提出的方法依賴于網絡的本地拓撲結構,引入了實際社交網絡中用戶節點對于信息傳播影響因素及用戶話題相關度的概念,降低了計算的復雜性,可以有效地識別出話題領域中社交網絡關鍵節點。
【專利說明】
話題領域中社交網絡關鍵節點的識別方法
技術領域
[0001] 本發明屬于網絡技術領域,更進一步涉及數據挖掘技術領域的一種基于話題領域 社交網絡中關鍵節點的識別方法。本發明通過對用戶信息傳播屬性特征值的量化以及傳播 模型的建立,在不需要整體網絡拓撲結構的情況下,可有效地識別出特定話題領域中關鍵 節點。
【背景技術】
[0002] 社交網絡中關鍵節點識別的研究源于復雜網絡的研究工作,其特點是利用復雜網 絡理論,分析節點及節點間的交互關系,進行網絡模型的建立,對網絡中關鍵節點進行識 另IJ,有助于更好地理解社交網絡中信息傳播過程,解決網絡中信息傳播最大化問題。目前, 已有的網絡中關鍵節點的識別方法大都以來于網絡拓撲結構,忽略了真實社交網絡中信息 傳播所具有的話題限制,社交網絡中用戶對于信息的關注依賴于個人所感興趣的話題,不 同的話題領域中關鍵節點不同,如針對醫學信息的傳播,在具有相同度的情況下,在醫學方 面具有權威性的用戶比沒有醫學知識用戶具有較高的可信度,更加有利于該類信息的傳 播。
[0003] 西北工業大學申請的專利"微博網絡意見領袖的識別方法"(專利申請號 201310027808.4,公開號CN 103136331 A)中公開了一種微博網絡意見領袖的識別方法。該 方法包括信息的搜集,節點間交互關系權值的設定,以及意見領袖的識別,考慮到節點的粉 絲數量,節點鏈接關系和交互關系,從而通過權重的大小來標識節點重要性和影響力。該方 法存在的不足之處是,意見領袖的識別方法中沒有考慮意見領袖中存在的話題限制,使得 通過識別方法得到的意見領袖在進行信息的傳播的過程中,無法實現最短時間內信息的傳 播最大化,降低了意見領袖識別準確性問題。
[0004] Zhongwu Zhai,Hua Xu,Peifa Jia在其發表的論文 "Identify ing Opinion Leaders in BBS"(IEEE/WIC/ACM International Conference on Web Intelligence and Intelligent Agent Technology,2008)中提出一種用戶興趣的意見領袖識別方法。該方法 考慮到在BBS中信息傳播過程中興趣領域的限制問題,并通過與Zcore,PageRank等算法進 行對比,驗證其方法的有效性。該方法存在的不足之處是,對于用戶信息的回復鏈量化過程 中,計算復雜度相對較高,使得識別過程的開銷增大,降低了關鍵節點識別的效率。
[0005] Klaus Wehmuth,Artur Ziviani在其發表的論文"Distributed Assessment of the Closeness Centrality Ranking in Complex Networks"(The Fourth Annual Workshop on Simplifying Complex Networks for Practitioners,2012)中提出一種利 用緊密中心性方法對關鍵節點進行分布式評估的方法。該方法在傳統緊密中心性的計算方 法進行了改進,不需要了解網絡整體拓撲結構的信息,僅依賴于本地拓撲結構的信息,降低 了關鍵節點識別方法的復雜性。該方法存在的不足之處是,沒有考慮到真實社交網絡中用 戶節點對于信息傳播的影響因素,較低了識別的有效性。
【發明內容】
[0006] 本發明的目的在于克服上述現有技術的不足,提出一種話題領域中社交網絡關鍵 節點的識別方法,以實現實際社交網絡中關鍵節點的識別。本發明通過分析網絡拓撲結構, 量化用戶節點對信息傳播的影響因素及用戶節點的話題topic相關度,依據實際社交網絡 中用戶節點信息傳播能力,有效地實現話題領域中社交網絡關鍵節點的識別。
[0007] 本發明的具體步驟如下:
[0008] (1)構建網絡的有向圖:
[0009] 將待識別的社交網絡映射成有向圖G(V,E),其中,V表示社交網絡用戶節點集合,E 表示社交網絡用戶節點間的交互關系集合。
[0010] (2)采用網絡鄰接矩陣的生成方法,生成與有向圖對應的鄰接矩陣。
[0011] (3)量化用戶節點對信息傳播的影響因素:
[0012] (3a)搜集用戶發布的信息,按照下式,量化影響信息傳播的用戶節點信息發布的 活躍度:
[0014] 其中,Ai表示社交網絡中第i個用戶節點信息發布的活躍度,i表示社交網絡中的 用戶節點,n表示用戶發布信息所選取的時間段的總數,E表示求和操作,/%表示用戶發布 信息選取的A h時間段內用戶發布信息的平均數,A k表示用戶發布信息選取的第j個時間 段;
[0015] (3b)從搜集到的用戶節點發布的信息中,提取影響信息傳播的鄰居節點對信息轉 發數目、鄰居節點對信息評論數目、鄰居節點對信息贊同數目;
[0016] (3c)利用Saaty的10級重要性等級表,計算用戶節點信息發布的活躍度、鄰居用戶 節點對信息轉發的數目、鄰居用戶節點對信息評論的數目、鄰居用戶節點對信息贊同的數 目對信息傳播影響的權值;
[0017] (3d)按照下式,計算用戶節點對信息傳播影響因素的量化值:
[0018] Ui = aAi+ftri+y (r2+r3)
[0019] 其中,仏表示社交網絡中第i個用戶節點對信息傳播影響因素的量化值,a表示用 戶節點信息發布的活躍度對信息傳播影響的權值,仏表示社交網絡中第i個用戶節點發布 信息的活躍度,0表示鄰居用戶節點對信息轉發的數目對信息傳播影響的權值,^表示鄰居 用戶節點對信息轉發數目,Y表示鄰居用戶節點對信息評論的數目和鄰居用戶節點對信息 贊同的數目對信息傳播影響的權值,^表示鄰居用戶節點對信息評論數目,r 3表示鄰居用戶 節點對信息贊同數目。
[0020] (4)量化用戶節點的話題topic相關度:
[0021] (4a)搜集與話題topic相關的信息,從所搜集到的與話題topic相關的信息中,提 取與話題topic高度相關的高頻詞匯集wn;
[0022] (4b)搜集用戶節點當前時間段內發布的信息,建立用戶節點發布的信息集合M1;
[0023] (4c)利用漢詞分詞工具,對用戶節點發布信息集合I中的每條信息進行數據處 理,建立用戶節點發布信息的分詞集合姐。;
[0024] (4d)將用戶節點發布信息的分詞集合Mi。與話題topic高度相關的高頻詞匯集wn進 行對比,采用權值設定方法,得到用戶節點發布信息集合姐中每條信息與話題topic的相關 度氣。;
[0025] (4e)通過下述量化公式,計算用戶節點的話題topic相關度:
[0027]其中,Ri表示社交網絡中第i個用戶節點的話題topic相關度,s表示當前時間段內 用戶節點發布信息的數目,E表示求和操作,G表示屬于符號,Mi表示社交網絡中第i個用 戶節點發信息集合,mj。表示用戶節點發布的信息集合中第j條信息的分詞集合,表示用 戶節點發布的信息集合中第j條信息與話題topic的相關度。
[0028] (5)量化用戶節點信息傳播能力:
[0029] (5a)按照下式,計算用戶節點基本的信息傳播能力:
[0030] PR(Vi) = deg(v,) * U,. * R,.
[0031] 其中,表示用戶節點Vl基本的信息傳播能力,Vl表示社交網絡中第i個用戶 節點,deg( Vi)表示用戶節點Vi的度,Ui表示社交網絡中第i個用戶節點對對信息傳播的影響 因素的量化值,心表示社交網絡中第i個用戶節點的話題topic相關度;
[0032] (5b)依據網絡有向圖中用戶節點間的交互關系,按照下式,計算社交網絡用戶節 點的信息傳播能力:
[0034]其中,PR(Vl)表示社交網絡中第i個用戶節點^信息傳播能力,d表示阻尼系數,設 置為默認值〇.85,n表示社交網絡中節點的總數,E表示求和操作,w(Vj,Vl)表示從社交網絡 第i個用戶節點 Vl到社交網絡第j個用戶節點W信息傳播的概率,Vl表示社交網絡的第i個用 戶節點^表示社交網絡的第j個用戶節點,*表示相乘操作,degf表示社交網絡中第j個用 戶節點出度的大小;
[0035] (5c)判斷相鄰兩次信息傳播能力的差值是否小于0.01,若是,將相鄰兩次的最后 一次計算得到的結果作為社交網絡用戶節點的信息傳播能力,執行步驟(6),否則,執行步 驟(5b)。
[0036] (6)識別關鍵節點:
[0037] (6a)按照從大到小的順序,將社交網絡用戶節點的信息傳播能力進行排序;
[0038] (6b)將排序中的前Q個用戶節點作為網絡關鍵節點,QG(〇, 10%)。
[0039] 本發明與現有技術相比存在以下優點:
[0040] 第一,由于本發明中對于用戶節點信息傳播能力的初始值計算,依賴于用戶節點 的本地拓撲結構信息中度的大小作為用戶節點基本信息傳播能力,克服了現有技術當中存 在的計算復雜度相對較高,識別過程的開銷增大,降低了關鍵節點識別的效率的問題,使得 本發明具有降低計算復雜度,提高關鍵節點識別效率優點。
[0041] 第二,由于本發明量化了用戶節點對信息傳播的影響因素,以及信息傳播的影響 因素中用戶節點信息發布的活躍度、鄰居用戶節點對信息轉發的數目、鄰居用戶節點對信 息評論的數目、鄰居用戶節點對信息贊同的數目對信息傳播影響的權值,克服了現有技術 中沒有考慮到真實社交網絡中用戶節點對于信息傳播的影響因素,較低了識別的有效性問 題,使得本發明具有提高關鍵節點識別有效性的優點。
[0042] 第三,由于社交網絡中不同的話題topic領域中關鍵節點不同,本發明引入了用戶 節點話題topic相關度的概念,針對社交網絡特定話題領域中關鍵節點進行識別,克服了現 有技術當中存在的意見領袖的識別方法中沒有考慮意見領袖中存在的話題限制,使得通過 識別方法得到的意見領袖在進行信息的傳播的過程中,無法實現最短時間內信息的傳播最 大化,降低了意見領袖識別準確性問題,使得本發明具有提高不同話題領域關鍵節點識別 準確性的優點。
【附圖說明】
[0043] 圖1為本發明的流程圖;
[0044]圖2為本發明量化用戶節點的話題topic相關度步驟的流程圖。
【具體實施方式】
[0045]下面結合圖對本發明做進一步的詳細描述。
[0046]參照圖1,對本發明的具體實施步驟做進一步的詳細描述。
[0047]步驟1.構建網絡的有向圖。
[0048] 將待識別的社交網絡映射成有向圖G(V,E),其中,V表示社交網絡用戶節點集合,E 表示社交網絡用戶節點間的交互關系集合。
[0049] 在本發明步驟1的實施例中,以國內大型微博網絡一一新浪微博作為待識別的社 交網絡,所采集到的用戶數量為38225,用戶之間的交互關系數目為57351,每個用戶對于一 個節點,用戶之間的交互關系對應節點之間的連接邊。
[0050] 步驟2.生成與有向圖對應的鄰接矩陣。
[0051 ]采用網絡鄰接矩陣的生成方法,生成與有向圖對應的鄰接矩陣。
[0052]網絡鄰接矩陣的生成方法是指,從有向圖中任意選取兩個節點,判斷所選取的兩 個節點之間是否存在連接邊,若存在,則得到與有向圖對應的鄰接矩陣中相應的元素W(Vi, vj),否則為0,其中,w(vj,vi)表示從社交網絡第i個用戶節點Vi到社交網絡第j個用戶節點vj 信息傳播的概率, Vl表示社交網絡的第i個用戶節點,W表示社交網絡的第j個用戶節點。 [0053]在本發明步驟2的實施例中,當生成與有向圖對應的鄰接矩陣時,由于社交網絡用 戶節點間的交互關系有向性,鄰接矩陣中相應的元素w(Vi, Vj)中,若i辛j,則w(Vi,Vj)辛w (Vj,Vl),由此得到鄰接矩陣為:
[0055] 步驟3.量化用戶節點對信息傳播的影響因素。
[0056] 搜集用戶發布的信息,按照下式,量化影響信息傳播的用戶節點信息發布的活躍 度:
[0058] 其中,A:表示社交網絡中第i個用戶節點信息發布的活躍度,i表示社交網絡中的 用戶節點,n表示用戶發布信息所選取的時間段的總數,E表示求和操作,表示用戶發布 信息選取的A h時間段內用戶發布信息的平均數,A k表示用戶發布信息選取的第j個時間 段。
[0059] 從搜集到的用戶節點發布的信息中,提取影響信息傳播的鄰居節點對信息轉發數 目、鄰居節點對信息評論數目、鄰居節點對信息贊同數目。
[0060] 利用Saaty的10級重要性等級表,計算用戶節點信息發布的活躍度、鄰居用戶節點 對信息轉發的數目、鄰居用戶節點對信息評論的數目、鄰居用戶節點對信息贊同的數目對 信息傳播影響的權值。
[0061] 計算用戶節點信息發布的活躍度、鄰居用戶節點對信息轉發的數目、鄰居用戶節 點對信息評論的數目、鄰居用戶節點對信息贊同的數目對信息傳播影響的權值具體步驟如 下:
[0062]第1步,利用Saaty的10級重要性等級表,將用戶節點發布信息的活躍度比鄰居用 戶節點對信息轉發的數目稍微重要的影響,表示為等級3;將鄰居用戶節點對信息轉發的數 目比鄰居用戶節點對信息評論的數目稍微重要的影響,表示為等級3;將鄰居用戶節點對信 息評論的數目和鄰居用戶節點對信息贊同數目同等重要的影響,表示為等級1;將用戶節點 發布信息的活躍度比用戶的受關注度較強重要的影響表示為等級5;
[0063]第2步,依據第1步中用戶節點發布信息的活躍度、鄰居用戶節點對信息轉發的數 目、鄰居用戶節點對信息評論的數目、鄰居用戶節點對信息贊同數目之間任意兩兩對比得 到的影響等級,建立等級對應的兩兩判斷矩陣A4*4 ;
[0064]第3步,將等級對應的兩兩判斷矩陣A4*4按列進行歸一化處理,得到對應的矩陣 B4*4;
[0065] 第4步,將對應的矩陣B4*4中的元素按行相加,得到每行對應的行向量C(C1, C2,C3, C4)T,其中,T表不轉置矩陣的符號;
[0066] 第5步,對行向量以仏^力^以進行歸一化處理省到用戶節點信息發布的活躍 度對信息傳播影響的權值,鄰居用戶節點對信息轉發的數目對信息傳播影響的權值,鄰居 用戶節點對信息評論的數目和鄰居用戶節點對信息贊同的數目對信息傳播影響的權值。 [0067]按照下式,計算用戶節點對信息傳播影響因素的量化值:
[0068] Ui = aAi+ftri+y (r2+r3)
[0069] 其中,仏表示社交網絡中第i個用戶節點對信息傳播影響因素的量化值,a表示用 戶節點信息發布的活躍度對信息傳播影響的權值,仏表示社交網絡中第i個用戶節點發布 信息的活躍度,0表示鄰居用戶節點對信息轉發的數目對信息傳播影響的權值,^表示鄰居 用戶節點對信息轉發數目,Y表示鄰居用戶節點對信息評論的數目和鄰居用戶節點對信息 贊同的數目對信息傳播影響的權值,^表示鄰居用戶節點對信息評論數目,r3表示鄰居用戶 節點對信息贊同數目。
[0070]在本發明步驟3的實施例中,依據用戶節點發布信息的活躍度、鄰居用戶節點對信 息轉發的數目、鄰居用戶節點對信息評論的數目、鄰居用戶節點對信息贊同數目之間任意 兩兩對比得到的影響等級,建立等級對應的兩兩判斷矩陣A4*4為:
[0072]將等級對應的兩兩判斷矩陣A4*4按列進行歸一化處理,得到對應的矩陣B4*4,將對 應的矩陣B4*4中的元素按行相加,得到對應的行向量以(31,〇2,〇3,〇4)1,最終得到的用戶節點 信息發布的活躍度對信息傳播影響的權值為a = 0.5596,鄰居用戶節點對信息轉發的數目 對信息傳播影響的權值0 = 0.2495,鄰居用戶節點對信息評論的數目和鄰居用戶節點對信 息贊同的數目對信息傳播影響的權值為T =〇.0955。
[0073]步驟4.量化用戶節點的話題topic相關度。
[0074]參照圖2,對本發明的具體實施步驟做進一步的詳細描述。
[0075]搜集與話題topic相關的信息,從所搜集到的與話題topic相關的信息中,提取與 話題topic高度相關的高頻詞匯集Wn。
[0076]提取與話題topic高度相關的高頻詞匯集Wn的方法是指,依據搜集用戶節點當前 時間段內發布的信息進行分詞,提取出關鍵詞語,將提取出的關鍵詞語組成與話題topic高 度相關的高頻詞匯集wn,其中,高頻詞匯集Wn的大小為|w n| =50。
[0077]搜集用戶節點當前時間段內發布的信息,建立用戶節點發布的信息集合I。
[0078]利用漢詞分詞工具,對用戶節點發布信息集合I中的每條信息進行數據處理,建 立用戶節點發布信息的分詞集合Mlc。
[0079]數據處理的具體步驟如下:
[0080]第1步,利用漢詞分詞工具,提取用戶節點發布信息集合1中的每條信息詞語,得 到初步用戶節點發布信息的分詞集合;
[0081]第2步,將初步用戶節點發布信息的分詞集合中的詞語與停用詞列表中的詞語進 行對比,將相同的詞語從初步的建立用戶節點發布信息的分詞集合中剔除,將剩余的初步 用戶節點發布信息的分詞集合的分詞,組成用戶節點發布信息的分詞集合姐。。
[0082 ]將用戶節點發布信息的分詞集合Mi。與話題top i c高度相關的高頻詞匯集wn進行對 比,采用權值設定方法,得到用戶節點發布信息集合1中每條信息與話題topic的相關度 mic °
[0083] 權值設定方法是指,從用戶節點發布信息的分詞集合中,每條信息的分詞集合與 話題topic高度相關的高頻詞匯集對比結果中,選出相同詞匯的數目k,依據下式,計算用戶 節點發布信息集合中每條信息與話題topic的相關度:
[0084] mp = 8k
[0085] 其中,表示用戶節點發布的信息集合中第j條信息與話題topic的相關度,S表 示權值SG(〇,l),k表示從用戶節點發布信息的分詞集合中,每條信息的分詞集合與話題 topic高度相關的高頻詞匯集對比結果中選出相同詞匯的數目。
[0086 ]通過下述量化公式,計算用戶節點的話題top i c相關度:
[0088]其中,心表示社交網絡中第i個用戶節點的話題topic相關度,s表示當前時間段內 用戶節點發布信息的數目,E表示求和操作,G表示屬于符號,Mi表示社交網絡中第i個用 戶節點發信息集合,表示用戶節點發布的信息集合中第j條信息的分詞集合,巧:表示用 戶節點發布的信息集合中第j條信息與話題topic的相關度。
[0089] 在本發明步驟4的實施例中,利用的漢詞分詞工具為中科院計算技術研究所研發 的漢語詞法分析系統ICTCLAS,停用詞列表為中國軟件開發者社區CSDN提供的停用詞列表。
[0090] 步驟5.量化用戶節點信息傳播能力。
[0091]按照下式,計算用戶節點基本的信息傳播能力:
[0092] PR(v.) = deg( V))
[0093] 其中,資(v/)表示用戶節點Vi基本的信息傳播能力,Vi表示社交網絡中第i個用戶 節點,deg( Vi)表示用戶節點Vi的度,Ui表示社交網絡中第i個用戶節點對對信息傳播的影響 因素的量化值,心表示社交網絡中第i個用戶節點的話題topic相關度。
[0094] 依據網絡有向圖中用戶節點間的交互關系,按照下式,計算社交網絡用戶節點的 信息傳播能力:
[0096] 其中,PR(Vl)表示社交網絡中第i個用戶節點^信息傳播能力,d表示阻尼系數,設 置為默認值〇.85,n表示社交網絡中節點的總數,E表示求和操作,w( Vj,Vl)表示從社交網絡 第i個用戶節點Vl到社交網絡第j個用戶節點W信息傳播的概率, Vl表示社交網絡的第i個用 戶節點^表示社交網絡的第j個用戶節點,*表示相乘操作,表示社交網絡中第j個用 戶節點出度的大小。
[0097] 判斷相鄰兩次信息傳播能力的差值是否小于0.01,若是,將相鄰兩次的最后一次 計算得到的結果作為社交網絡用戶節點的信息傳播能力,執行步驟6,否則,重新計算用戶 節點信息傳播能力。
[0098] 在本發明步驟5的實施例中,對于用戶節點Vi的基本傳播能力Pm)的計算中,由 于本實例的數據量較大,deg( Vl)取值設為用戶節點Vl的度以10為底進行log運算的大小,按 照下式,計算從社交網絡第i個用戶節點 Vl到社交網絡第j個用戶節點W信息傳播的概率w (vj,Vi):
[0099] w(Vi,Vj)=Uj*Rj*PR(Vi)
[0100] 其中,w(vj, Vi)表示從社交網絡第i個用戶節點Vi到社交網絡第j個用戶節點Vj信 息傳播的概率,v謙示社交網絡的第j個用戶節點, Vl表示社交網絡的第i個用戶節點,山表 示社交網絡中第j個用戶節點對對信息傳播的影響因素的量化值,心表示社交網絡中第j個 用戶節點的話題topic相關度,PR( Vi)表示社交網絡中第i個用戶節點Vi信息傳播能力。 [0101]步驟6.識別關鍵節點。
[0102]按照從大到小的順序,將社交網絡用戶節點的信息傳播能力進行排序。
[0103]將排序中的前Q個用戶節點作為網絡關鍵節點,QG(〇, 10%)。
【主權項】
1. 一種話題領域中社交網絡關鍵節點的識別方法,具體步驟如下: (1) 構建網絡的有向圖: 將待識別的社交網絡映射成有向圖G (V,E ),其中,V表示社交網絡用戶節點集合,E表示 社交網絡用戶節點間的交互關系集合; (2) 采用網絡鄰接矩陣的生成方法,生成與有向圖對應的鄰接矩陣; (3) 量化用戶節點對信息傳播的影響因素: (3a)搜集用戶發布的信息,按照下式,量化影響信息傳播的用戶節點信息發布的活躍 度:其中,仏表示社交網絡中第i個用戶節點信息發布的活躍度,i表示社交網絡中的用戶節 點,n表示用戶發布信息所選取的時間段的總數,E表示求和操作,表示用戶發布信息選 取的A k時間段內用戶發布信息的平均數,A k表示用戶發布信息選取的第j個時間段; (3b)從搜集到的用戶節點發布的信息中,提取影響信息傳播的鄰居節點對信息轉發數 目、鄰居節點對信息評論數目、鄰居節點對信息贊同數目; (3c)利用Saaty的10級重要性等級表,計算用戶節點信息發布的活躍度、鄰居用戶節點 對信息轉發的數目、鄰居用戶節點對信息評論的數目、鄰居用戶節點對信息贊同的數目對 信息傳播影響的權值; (3d)按照下式,計算用戶節點對信息傳播影響因素的量化值: Ui = aAi+0ri+y (r2+r3) 其中,U表示社交網絡中第i個用戶節點對信息傳播影響因素的量化值,a表示用戶節點 信息發布的活躍度對信息傳播影響的權值,Ai表示社交網絡中第i個用戶節點發布信息的 活躍度,0表示鄰居用戶節點對信息轉發的數目對信息傳播影響的權值,^表示鄰居用戶節 點對信息轉發數目,Y表示鄰居用戶節點對信息評論的數目和鄰居用戶節點對信息贊同的 數目對信息傳播影響的權值,^表示鄰居用戶節點對信息評論數目,r 3表示鄰居用戶節點對 信息贊同數目; (4) 量化用戶節點的話題topic相關度: (4a)搜集與話題topic相關的信息,從所搜集到的與話題topic相關的信息中,提取與 話題topic高度相關的高頻詞匯集Wn; (4b)搜集用戶節點當前時間段內發布的信息,建立用戶節點發布的信息集合M1; (4c)利用漢詞分詞工具,對用戶節點發布信息集合姐中的每條信息進行數據處理,建立 用戶節點發布信息的分詞集合姐。; (4d)將用戶節點發布信息的分詞集合Mi。與話題topic高度相關的高頻詞匯集wn進行對 比,采用權值設定方法,得到用戶節點發布信息集合1中每條信息與話題topic的相關度 mje ; (4e)通過下述量化公式,計算用戶節點的話題topic相關度:其中,Ri表示社交網絡中第i個用戶節點的話題topic相關度,s表示當前時間段內用戶 節點發布信息的數目,E表示求和操作,G表示屬于符號1表示社交網絡中第i個用戶節 點發信息集合,1^。表示用戶節點發布的信息集合中第j條信息的分詞集合,表示用戶節 點發布的信息集合中第j條信息與話題topic的相關度; (5) 量化用戶節點信息傳播能力: (5a)按照下式,計算用戶節點基本的信息傳播能力: P^) = deg(v,);i;U,.5HRi 其中,表示用戶節點Vi基本的信息傳播能力,Vi表示社交網絡中第i個用戶節 點,deg(Vl)表示用戶節點Vl的度,U表示社交網絡中第i個用戶節點對對信息傳播的影響因 素的量化值,心表示社交網絡中第i個用戶節點的話題topic相關度; (5b)依據網絡有向圖中用戶節點間的交互關系,按照下式,計算社交網絡用戶節點的 信息傳播能力:其中,PR(Vl)表示社交網絡中第i個用戶節點^信息傳播能力,d表示阻尼系數,設置為 默認值〇.85,n表示社交網絡中節點的總數,E表示求和操作,w(Vj,Vl)表示從社交網絡第i 個用戶節點Vl到社交網絡第j個用戶節點W信息傳播的概率,Vl表示社交網絡的第i個用戶 節點,^表示社交網絡的第j個用戶節點,*表示相乘操作,degf表示社交網絡中第j個用戶 節點出度的大小; (5c)判斷相鄰兩次信息傳播能力的差值是否小于0.01,若是,將相鄰兩次的最后一次 計算得到的結果作為社交網絡用戶節點的信息傳播能力,執行步驟(6),否則,執行步驟 (5b); (6) 識別關鍵節點: (6a)按照從大到小的順序,將社交網絡用戶節點的信息傳播能力進行排序; (6b)將排序中的前Q個用戶節點作為網絡關鍵節點,QG (〇,10% )。2. 根據權利要求1所述的話題領域中社交網絡關鍵節點的識別方法,其特征在于,步驟 (2)中所述的網絡鄰接矩陣的生成方法是指,從有向圖中任意選取兩個節點,判斷所選取的 兩個節點之間是否存在連接邊,若存在,則得到與有向圖對應的鄰接矩陣中相應的元素 w (^,^),否則為〇,其中,《(^,^)表示從社交網絡第1個用戶節點^到社交網絡第」個用戶節 點W信息傳播的概率,Vl表示社交網絡的第i個用戶節點,W表示社交網絡的第j個用戶節 點。3. 根據權利要求1所述的話題領域中社交網絡關鍵節點的識別方法,其特征在于,步驟 (3c)中所述的計算用戶節點信息發布的活躍度、鄰居用戶節點對信息轉發的數目、鄰居用 戶節點對信息評論的數目、鄰居用戶節點對信息贊同的數目對信息傳播影響的權值具體步 驟如下: 第1步,利用Saaty的10級重要性等級表,將用戶節點發布信息的活躍度比鄰居用戶節 點對信息轉發的數目稍微重要的影響,表示為等級3;將鄰居用戶節點對信息轉發的數目比 鄰居用戶節點對信息評論的數目稍微重要的影響,表示為等級3;將鄰居用戶節點對信息評 論的數目和鄰居用戶節點對信息贊同數目同等重要的影響,表示為等級1;將用戶節點發布 信息的活躍度比用戶的受關注度較強重要的影響表示為等級5; 第2步,依據第1步中用戶節點發布信息的活躍度、鄰居用戶節點對信息轉發的數目、鄰 居用戶節點對信息評論的數目、鄰居用戶節點對信息贊同數目之間任意兩兩對比得到的影 響等級,建立等級對應的兩兩判斷矩陣A4*4; 第3步,將等級對應的兩兩判斷矩陣A4*4按列進行歸一化處理,得到對應的矩陣B4*4; 第4步,將對應的矩陣B4*4中的元素按行相加,得到每行對應的行向量C(C1,C2,C3,C4)T, 其中,T表示轉置矩陣的符號; 第5步,對行向量以(^,(32,(33,(34)7進行歸一化處理,得到用戶節點信息發布的活躍度對 信息傳播影響的權值,鄰居用戶節點對信息轉發的數目對信息傳播影響的權值,鄰居用戶 節點對信息評論的數目和鄰居用戶節點對信息贊同的數目對信息傳播影響的權值。4. 根據權利要求1所述的話題領域中社交網絡關鍵節點的識別方法,其特征在于,步驟 (4a)中所述的提取與話題topic高度相關的高頻詞匯集^的方法是指,依據搜集用戶節點 當前時間段內發布的信息進行分詞,提取出關鍵詞語,將提取出的關鍵詞語組成與話題 topic高度相關的高頻詞匯集Wn,其中,高頻詞匯集Wn的大小為|wn| =50。5. 根據權利要求1所述的話題領域中社交網絡關鍵節點的識別方法,其特征在于,步驟 (4c)中所述的數據處理的具體步驟如下: 第1步,利用漢詞分詞工具,提取用戶節點發布信息集合姐中的每條信息詞語,得到初步 用戶節點發布信息的分詞集合; 第2步,將初步用戶節點發布信息的分詞集合中的詞語與停用詞列表中的詞語進行對 比,將相同的詞語從初步的建立用戶節點發布信息的分詞集合中剔除,將剩余的初步用戶 節點發布信息的分詞集合的分詞,組成用戶節點發布信息的分詞集合姐。。6. 根據權利要求1所述的話題領域中社交網絡關鍵節點的識別方法,其特征在于,步驟 (4d)中所述的權值設定方法是指,從用戶節點發布信息的分詞集合中,每條信息的分詞集 合與話題topic高度相關的高頻詞匯集對比結果中,選出相同詞匯的數目k,依據下式,計算 用戶節點發布信息集合中每條信息與話題topic的相關度: mir = 3k 其中,冗表示用戶節點發布的信息集合中第j條信息與話題topic的相關度,S表示權值 S G (〇,1),k表示從用戶節點發布信息的分詞集合中,每條信息的分詞集合與話題topic高 度相關的高頻詞匯集對比結果中選出相同詞匯的數目。
【文檔編號】G06F17/30GK106055627SQ201610364264
【公開日】2016年10月26日
【申請日】2016年5月27日
【發明人】楊力, 田亞平, 王小琴, 馬建峰, 張俊偉, 張冬冬, 王利軍
【申請人】西安電子科技大學