一種基于異構網絡的微博時序排名方法
【技術領域】
[0001] 本發明屬于網絡應用技術領域,更具體地,涉及一種基于異構網絡的微博時序排 名方法。
【背景技術】
[0002] 近年來,隨著互聯網規模的快速發展及廣泛的應用,徹底改變了人們的發現、分享 信息的方式,隨之而來的是用戶產生的數據量的指數式增長。然而對于這些大量的數據用 戶想要有效利用互聯網數據的造成極大不便,使得排名問題等具有對網絡分析的技術如搜 索引擎等應運而生為互聯網帶來了新的生機和新的運營模式。排名作為最基本的網絡分析 技術之一逐漸成為分析互聯網和學術界的熱門話題。排序最根本的目的是根據用戶對信息 喜好的期望進行排序。常用的排名方法是基于圖的排名例如PageRank等,這些方法大部分 都著重于假設整個網絡中所有的節點類型是相同的即只存在一種節點類型,然而現實生活 中的網絡都是包含多種節點類型的,例如DBLP網絡中包含有作者、論文、會議、關鍵詞。網 絡的社會性使得其中包含大量而豐富的異構網絡資源。相比于只使用一種類型的結點信 息,異構網絡可帶來更豐富的信息,同時也帶來了更多的挑戰:對于異構類型結點之間的可 見性和復雜性存在差異,如何利用他們之間的聯系,將原本同構網絡中的排序模型適應并 準確地應用在異構網絡環境中其他類型的結點和任務上。另外時間是衡量排名準確度的重 要標準,現有的方法大都假定整個過程中用戶的關注和喜好是靜態的并不隨著網絡的變化 而變化,或者僅僅提取最近關注過的信息,這些方法雖然能夠掩蓋時序的變化趨勢提供信 息然而不能滿足對實時信息、時間歸納的需求。
[0003] 對微博內容信息排名根本目的是從用戶分享的這些大量的信息中提取過濾詳實、 可靠的大眾關注的信息。新浪微博,作為目前最流行的在線短消息交流平臺之一,每天提供 大量的新鮮資訊包括實時資訊、評論、聊天、個人感慨及廣告等。在用戶分享的這些信息中 有部分是用戶在事發現場、附近或者起來來源從而提供的第一手的可靠信息,但是更大部 分的信息是出于用戶對事件的關注興趣從而發表的個人看法。因此微博內容本身所具有廣 泛、實時等優點,但同時也具備雜亂、不詳實可靠性。
[0004] 基于以上的分析,如何利用異構網絡中不同類型節點信息的不平衡性,將原本同 構網絡中的排序模型迀移到異構環境中其他類型的任務上的需求,并結合異構網絡節點的 時序特征,研宄時序對排名結果的影響的需求。從而挖掘出異構網絡中節點上的關鍵信息, 提尚排序的精度。
【發明內容】
[0005] 本發明的目的在于提供一種基于異構網絡的微博時序排名方法,該方法利用微博 的轉發量模擬微博的生命周期,從而獲取可信的微博時序特征的權重,并且根據微博與網 頁內容的相似性使得微博和網頁相互關聯,再利用異構網絡中不同類型節點即網頁、微博 和用戶之間信息的不平衡性,采用信息流動的方式使節點之間的信息流動傳播從而互補增 強,使得排名獲得詳實可靠的、實時準確的微博信息。
[0006] 本發明提供的基于異構網絡的微博時序排名方法,包含以下步驟:
[0007] 微博異構信息網絡G= (V,E),其中V= {VdUVwUVJ表示網絡中所有的節點集 合包含有網頁集合Vd、微博集合Vw和用戶集合Vu,E=Kvi,')|Vi,'GV}表示網絡中所 有節點之間關系鏈接集合。
[0008] (1)根據四種過濾原則對微博數據內容進行噪音過濾,其中四種過濾原則包括: 內容過于簡短并且不包含完整的URL、微博內容以第一人稱為開始、微博內容中包含的俗語 及表情符號、微博內容中提到和轉發的常規格式;
[0009] (2)對所有的過濾后的微博內容進行詞劃分,根據劃分結果統計微博數據集中涉 及到的微博關鍵詞,并根據熱門關鍵詞檢索網頁文檔;
[0010]⑶初始化微博排名矩陣Rw及網頁排名矩陣Rd,計算網頁-網頁文本相似矩陣Md 以及微博-微博文本相似矩陣Mw,根據文本相似矩陣Md、Mw中網頁與網頁、微博與微博之間 的關系采用DivRank算法對網頁和微博進行排名權重賦值;
[0011] (4)初始化用戶排名矩陣Ru;采用用戶之間的關注關系矩陣Muf及用戶可信度矩陣 M'構建用戶-用戶鄰接矩陣Mu;根據用戶-用戶鄰接矩陣Mu中用戶和用戶之間的關系,采 用DivRank算法初始化用戶排名權重矩陣Ru;
[0012] (5)根據微博的轉發量分析微博的時序特征,采用sigmoid曲線擬合微博時序權 重即微博生命周期,并依據微博的時序權重更新微博排名權重Rw;
[0013] (6)計算網頁-微博關聯矩陣Mdw以及微博-用戶關聯矩陣M?,構建網頁-微博-用 戶異構信息網絡;對于網頁-微博關聯矩陣Mdw,采用文本內容的相似度使得微博與網頁相 互關聯;對于微博-用戶關聯矩陣M?則采用用戶在一段時間內發布微博與該微博的文本相 似度關聯;
[0014] (7)利用網絡中不同類型節點信息的不平衡性,使節點之間的信息流動傳播從而 互補增強;首先通過微博到網頁、用戶的信息流動來更新網頁的排名Rd及用戶的排名Ru;再 根據網頁、用戶到微博的信息流動使得微博的排名Rw得以更新;
[0015] (8)得出異構網絡微博的排名結果,結束。
[0016] 通過本發明所構思的以上技術方案,與現有技術相比,本發明具有以下的有益效 果:
[0017] (1)高精確性:采用步驟(2)中搜集網頁數據集,并在步驟(6)中根據文本的相似 性使得微博與網頁相互關聯。從而充分利用網頁文檔的可靠性及高精確性來挖掘微博節點 上的關鍵信息,使得排名結果的準確度得以提高。
[0018] (2)實時性:在步驟(5)中根據微博在不同時間段的轉發量全面的分析了微博的 時序權重,并擬合出微博的時序權重。使得排名結果充分結合異構網絡中微博節點的時序 特征,并根據微博時序權重動態的調整微博排名結果。
[0019] (3)信息平衡性:通過采用步驟(7)中網頁、用戶和微博之間的信息流動,從而平 衡異構網絡中不同類型節點信息,并且將原本同構網絡中的排序模型迀移到異構環境中其 他類型的任務上。
【附圖說明】
[0020] 圖1是本發明異構網絡微博時序排名方法的框架流程圖;
[0021] 圖2(1)是隨機選取的40條微博發布后不同時間段內轉發量與時間的分布關系;
[0022] 圖2 (2)是根據微博在不同時間段的轉發量擬合微博時序權重。
【具體實施方式】
[0023] 為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對 本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并 不用于限定本發明。此外,下面所描述的本發明各個實施方式中所涉及到的技術特征只要 彼此之間未構成沖突就可以相互組合。
[0024] 本發明針對于現有微博排名中節點間信息不完整而導致排名后節點集合單一及 對時間特征考慮不周全存在的問題,提出了一套基于異構網絡的微博時序排名的方法,它 采用與微博信息相關的網頁文檔的跨類型鏈接,在排名的過程中利用不同類型主體之間的 相互增強的關系從而獲得比僅靠微博信息網絡本身更高的排序質量。另外在排名的過程 中根據時序信息對排名結果的影響,利用微博時序生命周期特性提高排名的準確性。
[0025] 異構網絡是指:網絡中主體類型多種或者主體的關系類型多種。例如:商品推薦 網絡主體類型有用戶、商品等,主體關系類型有用戶購買商品、商品被用戶購買等;DBLP網 絡中主體類型有作者、會議、論文、關鍵詞,而主體的關系類型有作者發表論文、論文被會議 錄用、論文中包含有關鍵詞等。
[0026] 本發明提供的基于異構網絡的微博時序排名的方法流程框架如圖1所示,并結合 附圖和【具體實施方式】對本發明做進一步說明如圖1所示。具體步驟主要如下:
[0027] 微博異構信息網絡G= (V,E),其中V= {VdU VwU VJ表示網絡中所有的節點集 合包含有網頁集合Vd、微博集合Vw和用戶集合Vu,E=Kvi,')|Vi,'G V}表示網絡中所 有節點之間關系鏈接集合。
[0028] (1)對微博內容信息量進行排名,首先根據四種過濾原則如內容過于簡短并且不 包含完整的URL、微博內容以第一人稱為開始、微博內容中包含的俗語及表情符號、微博內 容中提到和轉發的常規格式,對微博數據內容進行噪音過濾。
[0029] (2)對所有的過濾后的微博內容進行詞劃分,根據劃分結果統計微博數據集中涉 及到的微博關鍵詞。并根據熱門關鍵詞檢索網頁文檔。
[0030] (2-1)對微博內容進行詞劃分,并統計微博數據集中前m(m為