一種個性化的社交網絡影響識別方法
【專利摘要】本發明公開了一種個性化的社交網絡影響識別方法,涉及社交工程學,旨在根據網絡中的人與人之間互動,識別網絡中的個性化的影響關系。本發明技術要點:選擇一網絡用戶群,建立目標用戶相對其直接朋友的關系對;提取每個關系對的關系特征值;確定每個關系對的影響程度;選取一預測模型,利用每個關系對的關系特征值及其影響程度訓練所述預測模型;選定一新用戶,建立所述新用戶相對其直接朋友的關系對,提取每個關系對的關系特征值;將新用戶每個關系對的關系特征值帶入訓練好的預測模型中,通過訓練好的預測模型計算出新用戶的每個直接朋友對其的影響程度。
【專利說明】一種個性化的社交網絡影響識別方法
【技術領域】
[0001 ] 本發明涉及社交工程學,尤其是一種利用社交網絡分析(Social NetworkAnalysis)和機器學習(MachineLearning)技術在局域網絡尋找和發現目標用戶個性化影響者的方法。
【背景技術】
[0002]隨著網絡的不斷發展,人們普遍認為在社交網絡中每一個人的周圍都有很多不同的人扮演著許多角色,例如追隨者、領導者、親密朋友、普通朋友等,每一種角色對該人具有不同的影響力或者說影響程度。
[0003]識別人與人之間的影響程度的重要性不僅在于這些信息能幫助我們更好地了解社交網絡功能和信息如何流動,更在于這些信息包含了有利于市場營銷和產品推廣的巨大價值。
[0004]比如說,人們更信 任第三方的推薦通常超過商家推銷及品牌本身。如果更多的站在你自身角度進行考慮,這也有道理的:你一般會相信你的朋友擔保的某個想法,這個想法可能是關于另一個人或一種產品,尤其是對你有影響力的人的推薦。對于商家來說,對其目標用戶或者說目標消費者的有影響力的人就是連接商家的品牌與其目標用戶的共同的朋友。
[0005]目前,人們在社交網絡分析領域已經完成了大量的研究工作,提出了基于中間性(Betweeness),親密性(Closeness),度數(Degrees), PR 排名(PageRank),特征向量(Eigenvector)等中心度量(centrality measures)的不同算法來識別這些人群。
[0006]然而上述這些傳統的的基于圖表的網絡分析中,所有的個體和關聯的權重都是被視為相同的:反應不出目標用戶的信任的朋友或陌生人之間的區別。然而,現實告訴我們,社交網絡中人與人之間存在許多類型的關系,強的,弱的,以及許多其他類型。
【發明內容】
[0007]本發明所要解決的技術問題是:針對上述存在的問題,本發明的主要目標是根據網絡中反應的人與人之間互動,識別網絡中的個性化的影響關系。
[0008]本發明公開了這樣一種個性化的社交網絡影響識別方法,包括:
步驟101:選擇一網絡用戶群,將所述用戶群中每一個成員分別作為目標用戶識別其直接朋友,建立每個目標用戶相對其直接朋友的關系對,所述每個關系對包括一個目標用戶與其一位直接朋友;提取每個關系對的關系特征值;
步驟102:將影響程度按升序或降序分為1、2…、η等級,根據關系對的關系特征值將所有的關系對分類到所述的η個等級中形成η組;所述η為大于I的整數;在第m組中的關系對的影響程度為m等級,m取1、2、…或η;
步驟103:選取一預測模型,利用每個關系對的關系特征值及其影響程度訓練所述預測模型; 步驟104:選定一新用戶,識別網絡中該新用戶的所有直接朋友,建立所述新用戶相對其直接朋友的關系對,并提取每個關系對的關系特征值;
步驟105:將新用戶每個關系對的關系特征值帶入訓練好的預測模型中,通過訓練好的預測模型計算出新用戶的每個直接朋友對其的影響程度。
[0009]進一步,所述關系對的關系特征值包括以下特征值中的至少一個:目標用戶查看了多少次直接朋友的主頁;目標用戶查看了多少次直接朋友的帖子;目標用戶評論了多少次直接朋友的帖子;目標用戶轉載了多少次直接朋友的帖子;目標用戶贊了多少次直接朋友的帖子;直接朋友查看了多少次目標用戶的描述概要;直接朋友查看了多少次目標用戶的帖子;直接朋友評論了多少次目標用戶的帖子;直接朋友轉載了多少次目標用戶的帖子;直接朋友贊了多少次目標用戶的帖子;距離上次目標用戶與直接朋友交流多少小時;目標用戶和直接朋友之間有多少共同直接朋友;所述共同直接朋友占目標用戶的直接朋友總數的比例;所述共同直接朋友占直接朋友的直接朋友總數的比例。
[0010]進一步,在步驟102中使用K-Means聚類算法根據關系對的關系特征值將所有的關系對分為η組;然后抽查每組中的若干關系對,根據從每組中抽查的關系對的關系特征值將η組的影響程度進行升序或降序排序,并按照順序將η組的影響程度標記為1、2...、η等級。
[0011]進一步,所述步驟103中,選用的預測模型為支持向量機模型。
[0012]綜上所述,由于采用了上述技術方案,本發明的有益效果是:
以往的社交網絡分析算法致力于發現某一社交網絡中影響力最高的人,然而我們知道即使在一個局部網絡中,也不存在能夠影響該局域網絡每一個人的人,總是會有對這個人具有影響力的人并不是對那個人具有影響力,因此現有技術致力于尋找的影響力人物的實際意義不大。本發明方法與現有技術不同之處在于基于目標用戶的在線行動能夠發現社交網絡每個人的影響力關系,而這些影響力關系包含了有利于市場營銷和產品推廣的巨大價值。
[0013]說明書附圖
圖1為本發明第一環節流程圖。
[0014]圖2為本發明第二環節流程圖。
[0015]圖3為本發明第三環節流程圖。
【具體實施方式】
[0016]本說明書中公開的所有特征,或公開的所有方法或過程中的步驟,除了互相排斥的特征和/或步驟以外,均可以以任何方式組合。
[0017]本說明書中公開的任一特征,除非特別敘述,均可被其他等效或具有類似目的的替代特征加以替換。即,除非特別敘述,每個特征只是一系列等效或類似特征中的一個例子而已。
[0018]本發明主要有三個環節:第一環節是從部分的用戶里提取訓練范例;第二環節是利用范例來訓練機器模型;第三環節是關于如何應用訓練好的模型來做預測。
[0019]圖1展示了本發明第一環節的流程圖。在這一環節中包括以下步驟:
步驟1:選擇一網絡用戶群,一般來說網絡用戶群的人數為幾百到上萬不等。例如,現選取一個網絡用戶群,我們將其中的成員A作為目標用戶A,將與他有直接在線互動的其他網絡參與者(可以是本用戶群成員也可以不是)作為成員A的直接朋友(比如我們發現網絡參與者I瀏覽過成員A的帖子,那么這樣的行為為直接的在線互動),然后建立起目標用戶即成員A與其直接朋友的關系對:目標用戶A—〉直接朋友1、目標用戶A—〉直接朋友2、目標用戶A—〉直接朋友3、...、目標用戶A—〉直接朋友50。依次類推,一一將網絡用戶群中的成員作為目標用戶,發現其在網絡中的直接朋友并建立他們與其直接朋友的關系對。
[0020]從網站的統計數據中提取每個關系對的關系特征值,這里所述的關系特征值包括但不限于以下:目標用戶查看了多少次直接朋友的主頁;目標用戶查看了多少次直接朋友的帖子;目標用戶評論了多少次直接朋友的帖子;目標用戶轉載了多少次直接朋友的帖子;目標用戶贊了多少次直接朋友的帖子;直接朋友查看了多少次目標用戶的描述概要;直接朋友查看了多少次目標用戶的帖子;直接朋友評論了多少次目標用戶的帖子;直接朋友轉載了多少次目標用戶的帖子;直接朋友贊了多少次目標用戶的帖子;距離上次目標用戶與直接朋友交流多少小時;目標用戶和直接朋友之間有多少共同直接朋友;所述共同直接朋友占目標用戶的直接朋友總數的比例;所述共同直接朋友占直接朋友的直接朋友總數的比例。[0021]步驟2:使用K-Means聚類算法等分類算法根據關系對的關系特征值將所有的關系對分為η組,屬于同I個組中的關系對必然具有某種相似的特征,由于聚類算法依據關系特征值進行的分類,而關系特征值反應的是關系對的影響程度,因此每組中的關系對必然具有相似的或相同的影響程度,那么我們只需抽查每組中的若干關系對,將來自不同組的關系對的關系特征值進行比較,便能將η組的影響程度進行升序或降序排序,并按照順序將η組的影響程度標記為1、2...、η等級,在一個實施例中我們將影響程度最大的記為η等級,…,最小的記為I等級,在其他實施例中也可以將影響程度最大的記為I等級,…,最小的記為η等級。
[0022]當我們為每組標記上影響程度后,也即是為每個關系對標記上了影響程度。
[0023]圖2展示了本發明第二環節的流程圖,這一環節包括步驟3:選取一預測模型,利用每個關系對的關系特征值及其影響程度訓練所述預測模型;本發明一個實施例中選用的是支持向量機模型(Support Vector Machine),其配置為:
C = LO L=0.001 P=L 0E-12 N = O V=I W=I
Kernel - PolyKernel -C 250007 -E 1.0。
[0024]圖3展示了本發明第三環節的流程圖,包括:
步驟4:選定一新用戶B,識別網絡中該新用戶的所有直接朋友,建立所述新用戶相對其直接朋友的關系對,例如:新用戶B—〉直接朋友100,新用戶B—〉直接朋友101,新用戶B—〉直接朋友102等,從網站上獲取每個關系對的關系特征值。
[0025]步驟5:將新用戶B每個關系對的關系特征值帶入訓練好的預測模型中,通過訓練好的預測模型計算出新用戶的每個直接朋友對其的影響程度。
[0026]一旦得到新用戶B在網絡中的直接朋友對其的影響程度,我們便能夠容易的逆轉他們之間的關系獲知每個受到她/他影響的用戶。
[0027]本發明并不局限于前述的【具體實施方式】。本發明擴展到任何在本說明書中披露的新特征或任何新的組合,以及披露的任一新的方法或過程的步驟或任何新的組合。
【權利要求】
1.一種個性化的社交網絡影響識別方法,其特征在于,包括: 步驟101:選擇一網絡用戶群,將所述用戶群中每一個成員分別作為目標用戶識別其直接朋友,建立每個目標用戶相對其直接朋友的關系對,所述每個關系對包括一個目標用戶與其一位直接朋友;提取每個關系對的關系特征值; 步驟102:將影響程度按升序或降序分為1、2…、η等級,根據關系對的關系特征值將所有的關系對分類到所述的η個等級中形成η組;所述η為大于I的整數;在第m組中的關系對的影響程度為m等級,m取1、2、…或η; 步驟103:選取一預測模型,利用每個關系對的關系特征值及其影響程度訓練所述預測模型; 步驟104:選定一新用戶,識別網絡中該新用戶的所有直接朋友,建立所述新用戶相對其直接朋友的關系對,并提取每個關系對的關系特征值; 步驟105:將新用戶每個關系對的關系特征值帶入訓練好的預測模型中,通過訓練好的預測模型計算出新用戶的每個直接朋友對其的影響程度。
2.根據權利要求1所述的一種個性化的社交網絡影響識別方法,其特征在于,所述關系對的關系特征值包括以下特征值中的至少一個:目標用戶查看了多少次直接朋友的主頁;目標用戶查看了多少次直接朋友的帖子;目標用戶評論了多少次直接朋友的帖子;目標用戶轉載了多少次直接朋友的帖子;目標用戶贊了多少次直接朋友的帖子;直接朋友查看了多少次目標用戶的描述概要;直接朋友查看了多少次目標用戶的帖子;直接朋友評論了多少次目標用戶的帖 子;直接朋友轉載了多少次目標用戶的帖子;直接朋友贊了多少次目標用戶的帖子;距離上次目標用戶與直接朋友交流多少小時;目標用戶和直接朋友之間有多少共同直接朋友;所述共同直接朋友占目標用戶的直接朋友總數的比例;所述共同直接朋友占直接朋友的直接朋友總數的比例。
3.根據權利要求1或2所述的一種個性化的社交網絡影響識別方法,其特征在于,在步驟102中使用K-Means聚類算法根據關系對的關系特征值將所有的關系對分為η組;然后抽查每組中的若干關系對,根據從每組中抽查的關系對的關系特征值將η組的影響程度進行升序或降序排序,并按照順序將η組的影響程度標記為1、2...、η等級。
4.根據權利要求3所述的一種個性化的社交網絡影響識別方法,其特征在于,所述步驟103中,選用的預測模型為支持向量機模型。
5.一種個性化的社交網絡影響識別方法,其特征在于,包括: 步驟201:選定一新用戶,識別網絡中該新用戶的所有直接朋友,建立所述新用戶相對其直接朋友的關系對,并提取每個關系對的關系特征值; 步驟202:將新用戶每個關系對的關系特征值帶入訓練好的預測模型中,通過訓練好的預測模型計算出新用戶的每個直接朋友對其的影響程度; 所述步驟202中的預測模型是按照以下步驟訓練出來的: 步驟301:選擇一網絡用戶群,將所述用戶群中每一個成員分別作為目標用戶識別其直接朋友,建立每個目標用戶相對其直接朋友的關系對,所述每個關系對包括一個目標用戶與其一位直接朋友;提取每個關系對的關系特征值; 步驟302:將影響程度按升序或降序分為1、2…、η等級,根據步驟301中關系對的關系特征值將所有的關系對分類到所述的η個等級中形成η組;所述η為大于I的整數;在第m組中的關系對的影響程度為m等級,m取1、2、…或η ; 步驟303:利用步驟301及步驟302中所述的每個關系對的關系特征值及其影響程度訓練所述預測模型。
6.根據權利要求5所述的一種個性化的社交網絡影響識別方法,其特征在于,所述關系對的關系特征值包括以下特征值中的至少一個:目標用戶查看了多少次直接朋友的主頁;目標用戶查看了多少次直接朋友的帖子;目標用戶評論了多少次直接朋友的帖子;目標用戶轉載了多少次直接朋友的帖子;目標用戶贊了多少次直接朋友的帖子;直接朋友查看了多少次目標用戶的描述概要;直接朋友查看了多少次目標用戶的帖子;直接朋友評論了多少次目標用戶的帖子;直接朋友轉載了多少次目標用戶的帖子;直接朋友贊了多少次目標用戶的帖子;距離上次目標用戶與直接朋友交流多少小時;目標用戶和直接朋友之間有多少共同直接朋友;所述共同直接朋友占目標用戶的直接朋友總數的比例;所述共同直接朋友占直接朋友的直接朋友總數的比例。
7.根據權利要求5或6所述的一種個性化的社交網絡影響識別方法,其特征在于,所述步驟203中,選用的預測模型為支持向量機模型。
8.根據權利要求7所述的一種個性化的社交網絡影響識別方法,其特征在于,在步驟302中使用K-Means聚類算法根據關系對的關系特征值將所有的關系對分為η組;然后抽查每組中的若干關系對,根據從每組中抽查的關系對的關系特征值將η組的影響程度進行升序或降序排序,并按 照順序將η組的影響程度標記為1、2...、η等級。
【文檔編號】G06F17/30GK103955545SQ201410216618
【公開日】2014年7月30日 申請日期:2014年5月22日 優先權日:2014年5月22日
【發明者】張一文 申請人:成都品果科技有限公司