一種基于隨機模型預測信息最大化傳播范圍的方法
【專利摘要】本發明屬于社會網絡建模與分析領域,具體涉及一種探索了社交網絡動態特性的基于隨機模型預測社交網絡信息最大化傳播范圍的方法。該方法構造了一組可描述網絡信息傳播動態性的函數,通過社交網絡信息傳播的歷史數據,建立動態信息傳播模型,并利用隨機模型檢測器通過驗證和仿真技術,預測通過不同節點與節點集合傳播,信息可能傳播的最大范圍,并找出能使傳播范圍最大化的節點集合。與傳統的傳播范圍最大化建模方法相比,本發明能夠對網絡動態性進行建模,使得預測出的初始節點集合質量更高,提高了網絡營銷策略的成功率。
【專利說明】一種基于隨機模型預測信息最大化傳播范圍的方法
【技術領域】
[0001]本發明屬于社會網絡建模與分析領域,具體涉及一種探索了社交網絡動態特性的社交網絡信息最大化傳播范圍的方法。該方法構造了一組可描述網絡信息傳播動態性的函數,通過社交網絡信息傳播的歷史數據,建立動態信息傳播模型,并利用隨機模型檢測器通過驗證和仿真技術,預測通過不同節點與節點集合傳播,信息可能傳播的最大范圍,并找出能使傳播范圍最大化的節點集合。
【背景技術】
[0002]20世紀30年代,英國人類學家Radcliffe Brown在對社會結構的關注中,首次使用了“社交網絡(社會網絡)”(Social Networks)的概念。在接來下的70多年里,通過多個學科領域的幾代學者的共同努力,社會網絡形成了比較成熟完善的概念體系。社會網絡傳播過程在社會學中也有著長期的研究歷史。近些年,隨著互聯網技術的發展,越來越多的虛擬社會相繼出現,比如以Facebook, Twitter,新浪微博等為代表的大型在線社交網絡網站,通過手機通信、電子郵件等形成的人際關系網絡等。透過這些虛擬網絡所展現出的社會關系和人際互動是許多研究的關注重點。在社會個體信息傳播領域,社交網絡作為媒介,在社會個體之間相互影響、傳播信息與觀點方面,發揮著根本性的作用。一個信息體或是觀點可能在人群中極大的蔓延開來,也有可能迅速地消失。虛擬社會的研究與現實社會的研究存在著極大的不同,現實社會可以對諸多鮮活個體進行調查研究,而對虛擬社會的探索,需要著眼于數據,通過業務系統來完成研究的工作。
[0003]如何在社交網絡中進行市場營銷已成為各商家和網絡運營商所關注的熱點。許多商家試圖通過社會網絡傳播他們產品或者企業理念。社交網絡中的“病毒式營銷”是指最初針對少數有“影響力”的網絡成員,向他們提供免費的產品樣品,并期待引發一連串的影響:其中一些成員會推薦產品給他們的朋友,通過“口碑效應”,最終使盡可能多的人愿意嘗試這種新產品。這種營銷模式的突出優點是,人們認為來自朋友或其他信任源的信息是最可靠的,而這正是廣告營銷所缺乏的。這種使客戶參與到營銷活動中來的營銷方式,可以給投資帶來前所未有的回報。但是,應該選擇社交網絡中的哪些客戶作為初始客戶開始營銷活動,從而使營銷活動的效果覆蓋最大的社群范圍,是這種營銷模式下的最重要的問題。
[0004]為解決上述問題,許多針對信息最大化傳播范圍的預測方法被提了出來。這些預測方法可以被分為兩大類,一類是基于排序的選擇方法,即通過歷史數據,按照發信息量或者好友/粉絲數目等屬性,對社交網絡中所有用戶進行排序,選擇排名前K (K為自然數,且遠小于總用戶數)個用戶,作為營銷初始用戶集合在網絡中開展營銷。第二類是通過建立能夠預測給定節點(用戶)或者節點集合的信息傳播范圍的信息傳播模型對待選節點集合進行評估,而最終確定初始節點集合的方法。第一類方法把節點考慮成相互獨立的個體,雖然計算開銷較小,能夠快速處理海量的數據,但是準確率最差,因為通常依靠排名的方法,選取的前幾名節點在拓撲上距離較近,通過他們一起傳播信息時,大多是重疊的,所以組合傳播范圍相對較小,效果最差。而第二種方法,雖然計算開銷比較大,但是能夠獲得更高質量的營銷方案,因為所建立的信息傳播模型能夠更好刻畫信息傳播的內在規律。因為獲得高質量的營銷方案會極大程度的提升企業營銷行為的成功率,計算開銷的代價在一定程度上,是可以被接受的。
[0005]現有的信息傳播模型主要有馬爾科夫隨機場(Markov Random Field)、隨機級聯模型(Stochastic Cascade Model)和線性閾限模型(Linear Threshold Mode)。其中常用的級聯模型有兩種分類:獨立級聯模型(Independent Cascade Model)和權值級聯模型(Weighted Cascade Model)。這些概率模型的目的在于對信息傳播的規律進行建模,從而可以利用數學的方法預測通過給定節點或節點集合,信息可能傳播的范圍。在此基礎上,為了確定能夠達到最佳傳播范圍的待選節點集合,需要迭代的遍歷所有備選方案,計算代價極其高昂,所以采用貪婪算法等近似算法取代遍歷算法,進而確定一個準確率不小于l-1/e的近似解。目前針對這一問題的研究工作,可以分為如下三類。第一類試圖提出新的貪婪算法能夠降低迭代的次數,獲取近似最優解,例如基于社區劃分(Community-based)的貪婪算法,結合了子社區特性來處理,首先將整個社會網絡拆分成多個子社區,然后在每個子社區中(而不是整個社區)評估傳播范圍,和提出降低貪婪算法迭代次數的Cost-EffectiveLazy Forward(CELF)算法。第二類研究試圖提出新的基于啟發函數的高效算法來得到近似解,例如度折扣的算法(DegreeDiscount),該算法假定節點傳播信息能力隨著節點度的增加而增加,從而利用節點的度來簡化計算。第三類研究是提出新的信息傳播模型,增加更多豐富的信息,使得對這一問題的分析更加貼近現實。例如提出時間約束的信息傳播模型,增加了時間屬性,使得模型能夠分析不同時間的傳播范圍,進而解決更加實際的問題,例如在一定時間(T)約束下,尋找使得信息傳播范圍最大化的解決方案,所找到的解決方案與沒有時間約束的有很大不同。
[0006]盡管如此,上述方法還有著比較明顯的缺陷,以至于不能滿足實際分析需求:1、無論是級聯模型、線性閾值模型、馬爾科夫隨機場模型,還是時間約束的信息傳播模型,都是靜態模型,他們假定信息在傳播過程中,社交網絡內部屬性(比如節點間信息傳播的概率或者速率)都是不會發生變化的。但是有大量文獻表明社交網絡是隨時間不斷動態變化的,通常隨著歷史數據的積累網絡內部屬性變化很快,而該變化會對社交網絡中信息的傳播產生重要影響。事實上在社交網絡中,每天都會積累數以億計的信息傳播數據,所有的信息傳播模型都是基于這些數據訓練得到的,所以隨著數據的積累,信息傳播模型會很快演化,所以現存的方法的缺陷在于不能考慮社交網絡的這種動態性。2、上述方法都是基于社交網絡中朋友間關系進行建模的,但是這些好友關系不能反應實際信息的傳遞關系或者路徑,例如大量的節點盡管建立了好友關系,但是從來沒有互相轉發信息,關系僅僅是一種較弱的關系,事實上網絡大量的關系是弱關系。基于上述兩個主要缺點,現有的方法獲得的解決方案質量較差,不能找到很高質量的初始節點,預測與實際的差距很大,不能滿足實際需要。
【發明內容】
[0007]本發明提出一種基于隨機模型預測信息最大化傳播范圍的方法。該方法能夠解決如何在社交網絡中選取K (大于零的正整數)個節點作為初始節點來發放信息,使得在時間約束T下,信息的傳播范圍最大,即轉發人數最大。該方法優點在于能夠有效地考慮信息在傳播過程中網絡可能發生的演化,從而找到高質量的種子節點集合,提升在社交網絡上營銷的成功率。
[0008]本發明首先將輸入的社交網絡中信息傳播的歷史數據與網絡動態性函數集建模成本發明中的動態信息傳播模型,該模型是一個連續時間馬爾科夫鏈模型(ContinuousTime Markov Chain, CTMC)實例,其由一系列連續時間馬爾科夫鏈的集合所組成,它們之間通過轉移標識相關聯。本發明接下來將會通過一種針對連續時間馬爾科夫鏈做了優化的貪婪算法迭代地在動態信息傳播模型中選取初始節點集合,并利用隨機模型檢測(器)工具(Probabilistic/Stochastic Model Checking,請參見 Stochastic model checking.1nProc.Formal methods for performance evaluat1n, pages 220 - 270,Berlin, 2007)對所得到的動態信息傳播模型進行檢測或者進行多次仿真分析,根據檢測或者仿真分析所得出的在T時間約束下,信息可能的傳播范圍(累計轉發人數)預測結果,最后選擇出能夠使得信息傳播范圍最大化的節點集合,輸出信息最大化傳播面。該結果能夠反饋給社交網絡市場營銷人員,進行實際廣告或者信息投放。該方法的總體框架如圖1所示,主要包括輸入層、模型層、算法層和預測結果層四部分。
[0009]本發明所處理的社交網絡信息傳播歷史數據的格式與包含元素如圖2所示,其中每行均表示一個信息的傳播歷史,信息均由唯一標識所區分。每一行由一系列二元組所組成,每個二元組中均包含一個節點唯一標識(node_id)與一個時長(time),其表示了該信息被節點(node_id)于信息發布后time時長轉發。當time = O時,表示信息發布。本輸入中時間單位都是一致的。
[0010]本發明中所構造的網絡動態性函數集是一個已知的信息傳播網絡潛在變化規律的集合。每一個動態函數都刻畫了在信息傳播過程中傳播網絡上各個邊可能發生的變化,具體表現為節點之間邊上傳播速率的變化。每個動態函數都包含若干個動態因素,每個因素都是一個變量,隨著這些變量值的變化,網絡中邊將會按照這些因素為因變量的函數而發生變化。網絡動態性函數可以是一種普遍的規律,也可以是特定網絡的變化規律。具體的表示形式為一個節點類別標識集合P,一個分類函數Part(xl, x2,…,xn),每類節點的入邊上傳播速率的變化函數#,#的觸發條件,以及#的更新函數。Part (xl,x2^..,xn), xl,..., xn表示節點的屬性值,用于給節點分類。針對每一類節點,定義該節點入邊上傳播速率的變化函數# (xl, x2, x3,…,xn)、Φ的觸發條件與#的參數更新函數,參數xl,…,xn為一系列變量,這些變量將會按照某一參數的指數分布不斷變化,Φ的觸發條件是由xl,…,xn的變量值所表達的,f的參數更新方法即為觸發該變化函數f后xl,…,xn變量的更新等式。
[0011]本發明中給出一種構建動態信息傳播模型,進而預測給定初始節點集合(I)在一定時間(T)約束下信息傳播范圍的方法。
[0012]構建動態信息傳播模型方法的具體步驟如下:
[0013]1、對于每條信息傳播歷史,構建傳播網絡圖。對于每一行信息傳播數據,首先按照時長從小到大把節點排序,把數據中出現的節點在目標網絡圖中創建成獨立的節點,節點之間的關系表示了傳播的速率rate,假設節點間傳播的概率為滿足參數rate的指數分布,利用數學優化方法,例如凸優化,迭代的訓練節點直接的傳播速率值,直到所計算出來的傳播數據的發生概率熟練,即可得到使得給出的信息傳播數據發生的概率最大化的各邊速率值。所得到的傳播網絡圖即為G〈N,E, RATE), N為節點集合,E為有向邊的集合,對于E中的每個元素e,都有一個速率值r與其對應,r屬于RATE。
[0014]2、把I中得到的傳播網絡圖,轉換成連續時間馬爾科夫鏈(CTMC)。連續時間馬爾科夫鏈的具體定義如下:CTMC(S,s0, R,L),S為狀態集合,s0為初始狀態,R:SX S為轉移矩陣,每一個元素表示從狀態Si (屬于S)到s2(屬于S)的轉移速率,其滿足指數分布。L:S->2AP標識了每個轉移操作的轉移標識(labeling act1n),AP為一個固定的原子謂詞。
[0015]在本發明中,CTMC (S,s0, R, L)都利用如下半形式化結構進行表達成一個CTMC模塊:
[0016]
【權利要求】
1.一種基于隨機模型預測信息最大化傳播范圍的方法,其步驟包括: 1)從社交網絡中獲取信息傳播的歷史數據,并通過網絡動態性函數集描述所發現的網絡動態性; 2)把信息傳播的歷史數據與網絡動態性函數集建模成動態信息傳播模型; 3)通過貪婪算法迭代地設置初始節點集合,利用所述動態信息傳播模型并調用隨機模型檢測器,通過驗證或仿真的方法對初始節點集合所能達到的可能傳播范圍進行預測; 4)根據信息的可能傳播范圍的預測結果,確定使得傳播范圍最大化的初始節點集合,并輸出該初始節點集合和預測的信息最大化傳播范圍。
2.根據權利要求1所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:步驟I)所述歷史數據中,每行均表示一個信息的傳播歷史,信息均由唯一標識所區分;每一行由一系列二元組所組成,每個二元組中均包含一個節點唯一標識node_id與一個時長time,表示該信息被節點node_id于信息發布后經過time時長轉發。
3.根據權利要求1所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:步驟I)所述網絡動態性函數集是一個已知的信息傳播網絡潛在變化規律的集合,每一個動態性函數都刻畫了在信息傳播過程中傳播網絡上各個邊可能發生的變化,具體表示形式為:一個節點類別標識集合P,一個分類函數Part (xl, x2,..., xn),每類節點的入邊上傳播速率的變化函數#,^的觸發條件和#的更新函數;其中分類函數Part (xl, x2,…,xn)用于給節點分類,xl,..., xn表示節點的屬性值。
4.根據權利要求1所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:步驟2)所述的動態信息傳播模型是一系列的連續時間馬爾科夫鏈模型,其包括傳播網絡連續時間馬爾科夫鏈模型和網絡傳播動態函數連續時間馬爾科夫鏈模型。
5.根據權利要求4所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:步驟2)中構建動態信息傳播模型的方法為: 1)利用數學工具將信息傳播的歷史數據轉換成傳播網絡圖,圖上每個節點都是一個網絡中的實體,節點間關系表示為有向權重邊,邊上的權重即為傳播速率; 2)將傳播網絡圖轉換成連續時間馬爾科夫鏈模型; 3)依次將網絡動態性函數集中的每個動態性函數分別轉換成連續時間馬爾科夫鏈; 4)將步驟3)所得的網絡傳播動態函數連續時間馬爾科夫鏈模型與步驟2)中所得的傳播網絡圖連續時間馬爾科夫鏈模型集合通過轉移標識進行關聯,得到的一系列連續時間馬爾科夫鏈模型,即為所述動態信息傳播模型。
6.根據權利要求1所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:步驟3)中通過貪婪算法迭代地設置初始節點集合的方法為: 1)通過調用隨機模型檢測器對動態信息傳播網絡中每個單獨節點的傳播范圍進行精確預測; 2)通過確定待加入初始節點集合中的節點對傳播范圍的增加量Λο τ({ν})進行評估,選擇該值最大的節點加入到初始節點集合中,△ στ({ν})的計算方法是在該節點在步驟I)中預測的傳播范圍基礎上乘以打折函數進行估算; 3)對步驟2)進行K次迭代,確定初始節點集合中的節點。
7.根據權利要求6所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:所述貪婪算法中打折函數的公式為:
(s(v.u)eE(1_c ?))。-Ρ|』)στ (!u| ))/( [(v,Ll)eE (i~c r'.“丨(T) )σ? ({u丨.))’ 其中,當(v, u) e E 并且 u e N(I)時,P 以=I—n(w,u)e e, w e |( 1- e否則P1,u = O ;公式中,E為傳播網絡圖中的邊集合,e為自然數底,rv,u為傳播網絡圖中邊ν到u的初始傳播速率,T為時間約束,στ(Ι)表示預測初始節點集合I在T時刻的信息傳播范圍,N(I)表示集合I的直接后繼集合。
8.根據權利要求6所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:所述貪婪算法中,所述的調用隨機模型檢測器對動態信息傳播網絡中每個單獨節點的傳播范圍進行精確預測,預測方法選用遍歷所有組合后狀態的驗證方法,或者通過多次仿真,累計傳播網絡連續時間馬爾科夫鏈模型的狀態轉移次數計算。
9.根據權利要求1所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:步驟3)所述的隨機模型檢測器為PRISM隨機模型檢測器。
10.根據權利要求1所述的基于隨機模型預測信息最大化傳播范圍的方法,其特征在于:步驟3)所述的對初始節點集合所能達到的可能傳播范圍進行預測,是指在連續時間約束的條件下預測信息可能達到的傳播范圍。
【文檔編號】G06Q50/00GK104134159SQ201410379964
【公開日】2014年11月5日 申請日期:2014年8月4日 優先權日:2014年8月4日
【發明者】謝淼, 王青, 楊秋松 申請人:中國科學院軟件研究所