基于特征分析的用戶群確定方法
【技術領域】
[0001] 本發明涉及大數據,特別涉及一種基于特征分析的用戶群確定方法。
【背景技術】
[0002] 隨著移動互聯網的發展,將生活中的社交關系迀移到了互聯網上,帶來了信息交 換方式的變革,而且改變了傳統的人際溝通方式,對社會生活的各個領域具有深遠的意義。 用戶之間可以廣泛地溝通、互動,通過撰寫、中轉、收藏等手段對文本數據進行操作。在社交 網絡中,總存在部分節點連接比較緊密,而這些節點同其他節點之間的聯系則相對稀疏,由 此可將這部分連接緊密的節點歸為同一個群體。群體作為一種重要的社交關系屬性,無形 中給輿情控制以及網絡監管帶來了巨大的挑戰。如果沒有對群體關系進行充分識別識別, 則無法識別群體興趣,推薦感興趣內容,更無法及時發現危害信息,維護良好的網絡環境。
【發明內容】
[0003] 為解決上述現有技術所存在的問題,本發明提出了一種基于特征分析的用戶群確 定方法,包括:
[0004] 對社交網站服務器上的用戶信息和社交內容進行采集,分析用戶的特征,基于所 分析的特征來識別特定用戶群體。
[0005] 優選地,所述分析用戶的特征,基于所分析的來識別特定用戶群體,進一步包括:
[0006] 首先對待識別的群體進行描述,并按照群體特性抽象出一組關鍵詞列表,即群體 特征詞;其次,對檢測到的用戶進行識別,發現屬于該群體的用戶節點;在用戶行為過濾過 程中采用字符串正則匹配將用戶個人屬性與群體特征詞進行匹配,如果在用戶個人屬性或 用戶名稱文本數據中包含這些特征詞,則將該用戶劃分至待識別的群體;
[0007] 在用戶行為過濾中,利用以下過程處理由社交網絡中用戶產生的文本數據,計算 用戶與群體之間的相似度:
[0008] 首先建立一個基于群體特征詞的N維向量空間U,具體如下表示:
[0009] U=[Ti,T2,T3,· · ·,TN]
[0010 ]其中T代表在群體中某個特征詞出現的頻率向量,N表示特征詞的下標;
[0011] 其次,利用文本分割對用戶A的全部文本PA進行處理:
[0012] Pa= [keyi,key2, · · ·,keyN],
[0013 ]其中key值為用戶會話文本中每個特征詞出現的頻率向量 [0014]比較用戶文本數據與群體之間的行為特征是否相近:
[0015] sim(A,U) = (PA.U)/| |(PA| | | |U| |)
[0016] 若相似度sim(A,U)超過預定的閾值,則將該用戶節點A劃分至群體U內;
[0017]利用數據結構對會話過程進行描述;將參與會話的用戶以關系連接在一起,構建 成基于單個事件的群體;最后在社交關系拓撲中采用節點衡量指標識別強關系群體中的節 點,最后以樹形的層級結構將該事件存儲至文件;其中所述強關系群體具體定義為,如果已 知群體α滿足:對于群體α內的每個用戶節點i,均滿足i與群體α內節點構成的節點數量大于 該節點與群體α外節點構成的節點數量,則群體α被稱為強關系群體。
[0018]本發明相比現有技術,具有以下優點:
[0019]本發明提出了一種基于特征分析的用戶群確定方法,有效提高互聯網社交組群的 識別準確率和時效性。
【附圖說明】
[0020] 圖1是根據本發明實施例的基于特征分析的用戶群確定方法的流程圖。
【具體實施方式】
[0021] 下文與圖示本發明原理的附圖一起提供對本發明一個或者多個實施例的詳細描 述。結合這樣的實施例描述本發明,但是本發明不限于任何實施例。本發明的范圍僅由權利 要求書限定,并且本發明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節以 便提供對本發明的透徹理解。出于示例的目的而提供這些細節,并且無這些具體細節中的 一些或者所有細節也可以根據權利要求書實現本發明。
[0022] 本發明的一方面提供了一種基于特征分析的用戶群確定方法。圖1是根據本發明 實施例的基于特征分析的用戶群確定方法流程圖。
[0023] 為了完成對社交網絡的群體分析,首先建立數據采集系統對社交網站服務器上的 數據進行采集,其中數據類型包括:用戶信息如用戶ID、用戶名、文本數據如會話ID、會話文 本,以及關系數據如關注列表與關注者列表。該系統包含以下模塊:用戶信息獲取、文本數 據獲取、社交關系生成、去冗余、多線程、數據存儲、優先級選擇、令牌批量獲取。數據采集系 統中的主控線程進行權限認證、程序初始化、種子節點讀取、過濾、數據庫操作;數據獲取線 程借助API開放接口進行數據采集,采集過程包括接口請求、j son數據解析、指針更新,最終 返回給主控線程總數據列表。在去冗余計算的選擇上,本發明采用二進制向量和一系列隨 機映射函數。為抓取種子ID列表、用戶ID列表、關系列表、會話ID分別添加了去冗余函數,種 子列表,抓取用戶列表、社交列表均以其唯一標識ID進行,而關系的格式則將兩個用戶的ID 組合到一起,并區分兩者的先后順序,前者為被關注,后者為前者的關注者。系統在多個模 塊添加了相應操作:提取種子ID時,多線程對數據庫的操作添加互斥鎖;為每個線程分配抓 取任務,如線程1只負責文本的獲取;線程2獲取用戶個人信息;為每個線程令牌資源庫進行 區分式排列組合。并為每個線程單獨設置一個斷點文件,記錄抓取的位置。數據庫模塊將數 據庫連接、關閉、查詢、增加、刪除操作進行統一管理,抓取對象的ID首先由人工方式輸入至 文件,每次開始抓取任務之前都加載一遍優先級文件。在分任務處理中在抓取對象上,為每 個線程制定一套特定的抓取任務,從用戶信息獲取、文本獲取、關系獲取中選取的一個或多 個處理目標。從速度的控制上系統共提出了兩種調節方式,一是控制線程的數量,二是調整 API請求后獲取的數據量。
[0024] 用戶個人屬性可以反映出用戶的特性,而這種特性恰好提供了識別群體所需的強 特征。本發明首先通過人工方式對待識別的群體進行描述,并按照這些群體特性抽象出一 組關鍵詞列表,即群體特征詞。其次,利用用戶信息過濾模塊對檢測到的用戶進行識別,發 現屬于該群體的用戶節點。在過濾過程中采用字符串正則匹配將用戶個人屬性與群體特征 詞進行匹配,如果在用戶個人屬性或用戶名稱等文本數據中包含這些特征詞,則將該用戶 劃分至待識別的群體。
[0025] 用戶行為過濾模塊處理由社交網絡中用戶的主觀意愿而產生的文本數據,利用以 下過程計算用戶與群體之間的相似度。
[0026] 首先建立一個基于群體特征詞的N維向量空間U,具體如下表示:
[0027] U=[Ti,T2,T3,· · ·,TN]
[0028] 其中T代表在群體中某個特征詞出現的頻率向量,N表示特征詞的下標。
[0029]其次,利用文本分割對用戶A的全部文本Pa進行處理。
[0030] Pa= [keyi,key2,· · ·,keyN]
[0031] sim(A,U) = (PA.U)/| |(Pa| I I |U| I)
[0032] 這里的key值為用戶會話文本中每個特征詞出現的頻率向量,比較用戶文本數據 與群體之間的行為特征是否相近,如若相似度sim(A,U)超過預定的閾值,則將該用戶節點A 劃分至群體U內。當該節點加入群體后,群體特征詞會隨著群體內用戶集合所產生的文本數 據動態變化,識別當前群體內的潛在特征詞。
[0033] 在社交關系過濾模塊中,本發明應用了社交網絡中的關系屬性識別未知節點是否 屬于群體。如果已知群體α滿足以下要求,則群體α被稱為強關系群體:對于群體α內的每個 用戶節點i,均滿足i與群體α內節點構成的節點數量大于該節點與群體α外節點構成的節點 數量。
[0034] 采用以