在社交網絡中基于泊松過程模型的事件流行度預測方法
【專利摘要】本發明提供了一種在社交網絡中基于泊松過程模型的事件流行度預測方法,步驟:第一步,選取樣本事件,并獲取樣本事件的微博傳播鏈;第二步,用戶影響力計算并篩選影響力大的作為關鍵用戶,而將剩下的用戶標記為非關鍵用戶;第三步,將關鍵用戶帶來的轉發微博過程建模為泊松過程模型,而對非關鍵用戶帶來的轉發微博過程簡單處理;第四步,使用樣本事件的信息來學習和估計關鍵用戶的泊松過程模型的參數以及非關鍵用戶的參數;第五步,給定一個已知一定時間長度的演化信息的新的事件,根據第三步中的模型來預測它在未來某時刻的流行度。本發明能在微博事件發生的初期給出比較好的流行度預測,將為合理引導事件的發展提供非常有效的幫助。
【專利說明】在社交網絡中基于泊松過程模型的事件流行度預測方法
【技術領域】
[0001]本發明涉及互聯網【技術領域】內社交網絡中的事件流行度預測方法,具體地說,涉及的是一種在社交網絡中基于泊松過程模型的事件流行度預測方法。
【背景技術】
[0002]在Web2.0時代,社交網絡發展如火如荼,逐漸成為網民日常生活中的重要部分。微博作為一種通過關注機制分享簡短信息的廣播式的新型社交網絡平臺,它具有操作簡單、互動性強等特點。到2012年年底,新浪微博注冊用戶數已經超過了 4億,微博作為一種新興媒體,它在傳播信息、形成熱點話題和熱點事件中起到了越來越重要的作用。微博正成為社會輿論熱點的主要策源地,全面參與并影響著現實世界。
[0003]微博在熱點事件的發生到推重整個過程中起到非常關鍵的作用,如果能在事件發生的初期就對其未來的流行度有較準確的預測,將能夠給相關部門或企業爭取時間,對事件發展進行合理引導和及時采取相應的對策。因此為了避免熱點事件由于處理不當或者處理不及時可能帶來的經濟損失和不良社會后果,對事件的流行度進行預測非常必要,具有重大社會意義。
[0004]經檢索,目前沒有與事件流行度的預測相關的公開專利。
【發明內容】
[0005]本發明要解決的問題是提供一種在社交網絡中對事件的流行度進行預測的方法,并基于此,對事件的流行度進行預測,從而可以早的對事件的發展態勢了解,給相關部門或企業爭取盡可能多的時間制定對策。
[0006]本發明一個目的是提供一種社交網絡中事件流行度的預測方法,具體包括:
[0007]第一步,選取樣本事件,并獲取樣本事件的微博傳播鏈;
[0008]第二步,用戶影響力計算,并篩選影響力大的作為關鍵用戶,并將剩下的用戶標記為非關鍵用戶;
[0009]第三步,將關鍵用戶帶來的轉發微博過程建模為泊松過程模型,而對非關鍵用戶帶來的轉發微博過程簡單處理;
[0010]第四步,使用樣本事件的信息來學習和估計關鍵用戶的泊松過程模型的參數以及非關鍵用戶的參數;
[0011]第五步,給定一個已知一定時間長度的演化信息的新的事件,根據第三步中的模型來預測它在未來某時刻的流行度。
[0012]所述第一步中,選取樣本事件是指:對發生在某一個社交網絡平臺中的熱點事件進行選擇,這里的熱點事件是指被該社交網絡平臺或其他熱門排行榜列為熱點話題;這里的事件通過事件內容的一組關鍵詞來描述,本身是一組內容相近的用戶產生內容(UGC)的集合;選取的事件需要反映這個社交網絡平臺在一定時間段內的所有熱點事件信息。
[0013]優選地,所述選取樣本事件是按照下面的步驟選取的:
[0014](I)周期性的分別從各大熱門話題榜各獲取前10個熱門事件的標題;
[0015](2)用新聞搜索引擎搜索熱門事件的標題,獲取有關事件更多的文本信息和關鍵詞;
[0016](3)在社交網絡的搜索頁面中搜索每個事件的關鍵詞,解析出和該事件有關的原創熱門UGC ;
[0017](4)使用社交網絡開放平臺提供的API來獲取每個事件中的原創UGC的轉發鏈,包括每條UGC的創建時間、文本、作者信息;
[0018](5)檢測有規律的發布UGC,發布UGC時間間隔短,重復多次轉發同一個社交網絡用戶的水軍賬戶,刪除它們發出的所有UGC。
[0019]優選地,所述第一步中,獲取樣本事件的傳播鏈中的傳播鏈是指參與事件傳播的社交網絡用戶的用戶產生內容(UGC)之間具有轉發關系,這些UGC轉發關系構成有向的具有時間性的傳播關系鏈叫UGC傳播鏈;獲取傳播鏈是指通過社交網絡平臺提供的API獲取參與事件傳播的用戶人數大于閾值T2的UGC傳播鏈,T2是任意正整數,T2為O表示獲取事件相關的所有傳播鏈,參與人數少的UGC傳播鏈將被舍去。
[0020]優選地,所述第二步中,用戶的影響力是指該用戶在事件傳播過程中吸引其他用戶參與事件傳播的能力,用戶影響力跟他的粉絲數、粉絲質量、用戶之間的交互、發布用戶產生內容(UGC)的轉發數,甚至和參與事件的主題有關。所述用戶的影響力采用基于PageRank的方法計算;或者用戶Ui的影響力Si采用以下方法獲得:
[0021](I)計算每個用戶在樣本事件數據中的發出的UGC數iVf);
[0022](2)計算每個用戶在樣本事件數據中由其一級轉發用戶產生的UGC轉發數iV/1);
[0023](3)用i/f來代表這樣一個用戶集合,在這個集合中的每個用戶Uj發出的UGC的轉發數之和都為n = iv/1),并且+至少轉發了 Ui 一次,那么用戶Ui的影響力用下面的式子計算:
【權利要求】
1.一種在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于包括如下步驟: 第一步,選取樣本事件,并獲取樣本事件的傳播鏈; 第二步,用戶影響力計算,并篩選影響力大的用戶作為關鍵用戶,并將剩下的用戶標記為非關鍵用戶; 第三步,將關鍵用戶帶來的轉發傳播過程建模為泊松過程模型,而對非關鍵用戶帶來的轉發傳播過程,僅僅使用樣本數據獲得一個經驗比例值; 第四步,使用樣本事件的信息來學習和估計關鍵用戶的泊松過程模型的參數以及非關鍵用戶的參數,以確定第三步中的模型; 第五步,給定一個已知時間長度的演化信息的新的事件,根據第三步中的模型來預測它在未來某時刻的流行度。
2.根據權利要求1所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:上述第一步中,選取樣本事件是指:對發生在某一個社交網絡平臺中的熱點事件進行選擇,這里的熱點事件是指被該社交網絡平臺或其他熱門排行榜列為熱點話題;這里的事件通過事件內容的一組關鍵詞來描述,本身是一組內容相近的用戶產生內容(UGC)的集合;選取的事件需要反映這個社交網絡平臺在一定時間段內的所有熱點事件信息。
3.根據權利要求2所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:所述選取樣本事件是按照下面的步驟選取的: (1)周期性的分別從各大熱門話題榜各獲取前10個熱門事件的標題; (2)用新聞搜索引擎搜索熱門事件的標題,獲取有關事件更多的文本信息和關鍵詞; (3)在社交網絡的搜索頁面中搜索每個事件的關鍵詞,解析出和該事件有關的原創熱門 UGC ; (4)使用社交網絡開放平臺提供的API來獲取每個事件中的原創UGC的轉發鏈,包括每條UGC的創建時間、文本、作者信息; (5)檢測有規律的發布UGC,發布UGC時間間隔短,重復多次轉發同一個社交網絡用戶的水軍賬戶,刪除它們發出的所有UGC。
4.根據權利要求1-3任一項所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:所述第一步中,獲取樣本事件的傳播鏈中的傳播鏈是指參與事件傳播的社交網絡用戶的用戶產生內容(UGC)之間具有轉發關系,這些UGC轉發關系構成有向的具有時間性的傳播關系鏈叫UGC傳播鏈;獲取傳播鏈是指通過社交網絡平臺提供的API獲取參與事件傳播的用戶人數大于閾值T2的UGC傳播鏈,T2是任意正整數,T2為O表示獲取事件相關的所有傳播鏈,參與人數少的UGC傳播鏈將被舍去。
5.根據權利要求1所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:所述第二步中,用戶的影響力是指該用戶在事件傳播過程中吸引其他用戶參與事件傳播的能力,用戶影響力跟他的粉絲數、粉絲質量、用戶之間的交互、發布用戶產生內容(UGC)的轉發數,甚至和參與事件的主題有關。
6.根據權利要求5所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:所述用戶的影響力采用基于PageRank的方法計算;或者用戶Ui的影響力Si采用以下方法獲得: (1)計算每個用戶在樣本事件數據中的發出的UGC數Np); (2)計算每個用戶在樣本事件數據中由其一級轉發用戶產生的UGC轉發數W/1); (3)用未代表這樣一個用戶集合,在這個集合中的每個用戶+發出的UGC的轉發數之和都為η = N}1)’并且+至少轉發了 Ui —次,那么用戶Ui的影響力用下面的式子計算:
Si = ^nlUJ1I +JV ⑴
η 其中|υ|代表用戶集合U中的用戶數。
7.根據權利要求6所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:所述關鍵用戶的篩選過程如下: (1)將用戶Mw< Tc的影響力設置為O,因為他們參與的事件太少; (2)根據影響力排序所有的用戶,選取前K個作為選擇的關鍵用戶Us,而剩下的則作為非關鍵用戶; 閾值Τ。和參數K用來控制關鍵用戶的數目以及參與事件的數目,在某一種社交網絡平臺中Τ。= 3是一個經驗值,K的經驗值在14級別。
8.根據權利要求1所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:所述第三步的模型及其涉及參數如下: (1)對關鍵用戶的建模:將每個參與事件的關鍵用戶的一級轉發過程建模為一個泊松過程,泊松過程的參數只有到達率λ,它代表了單位時間內的用戶的一級轉發的增加數量,與下面的因素有關: a)用戶自身可以帶來的轉發數,用用戶的活躍粉絲數a^N(Ui)來衡量,其中FN(Ui)是用戶Ui的粉絲數,a i彡I ; b)事件的吸引力,用其轉發數的平均增長率§|:來衡量,其中q(t)表示事件!^在七時的轉發數,tj為事件的起點時刻; c)用戶作息的自然規律,用一天內用戶產生內容(UGC)的創建時間分布P(t)來衡量; d)UGC的可見度,它是指UGC在用戶主頁上從上到下用戶看到的概率依次降低,它用衰減因子O - 來衡量,其中表示用戶Ui在事件中的參與時間; 最后λ用下面的式子計算: A(u,., m;, t) = a.1.FN(Ui)— ty)
t — tj 根據泊松過程的計算,得到某個關鍵用戶帶來的轉發數隨著時間的概率分布; (2)對于非關鍵用戶的建模:只在樣本數據中統計得到一個經驗比例r,它隨著三個變量的變化而變化: a)已知信息的結束時刻tn; b)未來時間段的開始時刻tp; c)未來時間段的長度I;
根據這個經驗比例,給定已知一個事件和其一定時間段的信息,計算得出未來某時間段內由非關鍵用戶帶來的轉發數。
9.根據權利要求8所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:第四步中學習和估計第三步模型中涉及到的關鍵用戶的參數λ、非關鍵用戶的參數r以及一天內UGC創建時間的分布P (k)的方法; 事件的傳播鏈是由轉發關系組成的,即轉發關系Ui — Uj代表用戶+轉發了 Ui的一條UGC,這種轉發關系有下面四種情況: (1)用戶Ui和U」都是關鍵用戶; (2)用戶Ui是關鍵用戶,用戶不是關鍵用戶; (3)用戶Ui不是關鍵用戶,用戶是關鍵用戶; (4)用戶Ui和Uj都不是關鍵用戶; 其中(1)和(2)都構成關鍵用戶帶來的轉發數,也即轉發關鍵用戶的UGC而產生的轉發數;而(3)和(4)則構成非關鍵用戶帶來的轉發數,即轉發非關鍵用戶的UGC而產生的轉發數;將樣本數據按照這個原則分為由關鍵用戶帶來的轉發和由非關鍵用戶帶來的轉發兩個部分,分別用于關鍵用戶λ和非關鍵用戶比例r的估計; 對于關鍵用戶λ的估計,只采用關鍵用戶帶來的轉發數據并采用最大似然估計的方法進行估計和學習,通過極大化下面的似然函數來得到的估計值:
其中%[k]為事件mj在第k個時間段內的由關鍵用戶帶來的轉發數增量; 對于非關鍵用戶r的估計,使用非關鍵用戶帶來的轉發數據,按照權利要求8 (2)中的方法來進行統計計算; 對于一天內UGC創建時間的分布P(k)的估計,使用所有的樣本事件數據;在樣本事件數據中統計以δ時間間隔來統計一天內UGC創建的數量并歸一化成為P(k)。
10.根據權利要求1所述的在社交網絡中基于泊松過程模型的事件流行度預測方法,其特征在于:第五步中給定一個新的事件以及它的一定時間長度的傳播鏈信息,預測其未來某時間段內的流行度的模型,這里的流行度指以轉發數為主要衡量標準的流行度; 把整個事件轉發數的增長過程等間隔δ的分為許多時間段,每個時間段內認為所有用戶的λ是保持不變的,將事件的起點時刻記為O;假設前Tn個時間段的事件的信息是完全已知的,這包括與事件相關的所有UGC的作者和作者的信息、創建時間、文本信息,如果是轉發的UGC還包括轉發信息;預測第ΤΡ(ΤΡ > Tn)個時間段內的事件轉發數的增長量,這個增長量包括由關鍵用戶帶來的轉發數和非關鍵用戶帶來的轉發數兩個部分: (I)計算關鍵用戶帶來的轉發數:計算每個關鍵用戶在第Tp個時間段內的轉發數隨著時間的概率分布λ,其中事件的吸引力,使用所有已知時間段長度的UGC的吸引力即^^;其他的因素使用相應時刻的值,根據泊松過程的可加性,將每個關鍵用戶的λ加起來即得到由關鍵用戶帶來的轉發數在Tp時間段內的大泊松過程的參數λ,即
(2)計算非關鍵用戶帶來的轉發數:根據非關鍵用戶帶來的轉發數比例r,只用計算已知Tn個時間段中參與的非關鍵用戶的個數JVe'即可得到第Tp個時間段內的轉發數增量,即
【文檔編號】G06F17/30GK104182457SQ201410334425
【公開日】2014年12月3日 申請日期:2014年7月14日 優先權日:2014年7月14日
【發明者】陳凱, 周異, 何建華, 周曲, 楊蒙蒙 申請人:上海交通大學