多尺度空間下不確定行為語義的社交群體發現系統及方法
【技術領域】
[0001] 本發明屬于數據挖掘和知識發現領域,具體設及一種多尺度空間下不確定行為語 義的社交群體發現系統及方法。
【背景技術】
[0002] 隨著社交網應用的快速普及,越來越多的用戶融入到社交網中,比較典型的應用 有國內的新浪微博、國外的推特(Twitter)等,運些社交應用允許用戶將其最新動態和想法 W短信形式發布到手機或是網站,如果用戶愿意,還可發布微博-推文所處物理位置信息。 微博-推文內容雖然簡短,但卻蘊涵一定語義,在某種程度上可W用于推演用戶行為;而允 許公開物理位置信息則可W方便追蹤用戶最新動態,如果能將上述兩個方面加 W有效利 用,就能更好地為諸如商業銷售、旅游路線推薦、廣告精準投放W及城市功能規劃等領域進 行服務。
[0003] 令人遺憾的是,迄今為止,在行為語義研究方面,幾乎所有研究成果都認為行為語 義是確定性的,但事實上,行為語義本身往往具有一定的不確定性,運主要源于當用推文對 應的"詞條集合(a set ofterms)"表達行為所蘊涵的"活動(activity)"語義時,"詞條"與 "活動"之間存在著不確定的語義映射關系,比如一個"詞條"可隸屬于多個"活動",而一個 "活動"又可包含多個詞條,正是運種語義映射的不確定性在一定程度上影響了相似行為用 戶群體發現的精度,但目前該問題卻一直未能引起相關人員的高度重視。而另一方面,在利 用微博和推特等社交數據服務于各種應用時沒有充分考慮不同地理空間尺度對社交群體 聚類的影響。實際上,根據地理學第一定律,有理由認為位置相近用戶所產生的行為要比距 離較遠用戶產生的行為更相似;其次,在細粒度地理空間上共享相似位置的用戶具有更大 的行為相似可能性,比如,兩個用戶在同一大學發推文可能比在同一城市發推文更具行為 相似性,因此W分裂方式對位置軌跡進行不同空間度量尺度下的遞歸聚類,可W更有效地 區分相似行為用戶。
【發明內容】
[0004] 針對現有技術的不足,本發明提出一種多尺度空間下不確定行為語義的社交群體 發現系統及方法,基于用戶社交網Twitter行為軌跡,根據其發布推文地理位置的相似性W 及推文詞條所表達的不確定活動語義的相似性,來發現用戶是否具有相似行為關系。
[0005] -種多尺度空間下不確定行為語義的社交群體發現系統,包括社交網推文采集模 塊、多尺度空間下推文物理位置聚類模塊、推文物理位置相似度矩陣計算模塊、不確定行為 語義詞條庫構建模塊、推文詞條提取模塊、推文詞條表達活動概率值及相似性概率獲取模 塊和行為相似社交群體發現模塊,其中:
[0006] 社交網推文采集模塊:用于采集社交網站的推文數據集,包括發布內容、發布位 置、用戶ID、用戶名和文本發布時間,并經過數據清洗操作后進行存儲;
[0007] 多尺度空間下推文物理位置聚類模塊:用于將每個用戶推文形成的時空軌跡,按 照基于密度的聚類方式在不同地理空間尺度下進行濃密區聚類,W生成用戶多層次推文物 理位置聚類簇序列;
[0008] 推文物理位置相似度矩陣計算模塊:用于對聚類所得的任意一對用戶間的各層推 文軌跡簇序列進行物理位置的綜合性相似度獲取,即獲得推文軌跡物理位置相似度;
[0009] 不確定行為語義詞條庫構建模塊:用于構建社交網用戶行為活動詞條庫,并抽取 出每類活動包含的詞條,通過重要性權重分布曲線,確定活動相關詞條的判斷闊值和活動 半相關詞條的判斷闊值;將詞條權重概率值大小與闊值進行比較,將詞條分為活動相關詞 條、活動半相關詞條和活動不相關詞條=類,并賦予詞條表達活動的概率值,獲得不確定詞 條活動庫;
[0010] 推文詞條提取模塊:用于對所有用戶發布的推文文本進行詞條提取;
[0011] 推文詞條表達活動概率值及相似性概率獲取模塊:用于針對同層每一個最大位置 軌跡匹配,合并同一用戶不同物理位置簇的推文,生成推文語義詞條集合,獲得一對用戶間 推文語義活動的所有組合情況及各組合的概率值,進而獲得一對用戶間推文語義活動的同 層概率值,即獲得一對用戶間同層推文語義行為相似度的概率值,再根據不同粒度劃分層 對語義相似度的權重,獲得一對用戶間推文語義活動的多層概率值,即獲得一對用戶間多 層推文語義行為相似度的概率值;
[0012] 行為相似社交群體發現模塊:用于根據推文軌跡物理位置相似度和活動相似性概 率獲得軌跡行為相似度,通過構建連通圖的方式獲得推文相似行為群體。
[0013] 采用所述的多尺度空間下不確定行為語義的社交群體發現系統進行的發現方法, 包括W下步驟:
[0014] 步驟1、在樣本采集范圍內采用社交網推文采集模塊獲取社交網站的推文數據集;
[0015] 所述的推文數據集包括按照推文時間排序的推文物理位置和推文文本詞條;
[0016] 步驟2、采用計算機中的多尺度空間下推文物理位置聚類模塊,將每個用戶推文形 成的時空軌跡,按照基于密度的聚類方式在不同地理空間尺度下進行濃密區聚類,W生成 用戶多層次推文物理位置聚類簇序列;
[0017] 步驟3、采用多層次推文物理位置相似度矩陣計算模塊,對聚類所得的任意一對用 戶間的各層推文軌跡簇序列進行物理位置的綜合性相似度獲取;
[0018] 步驟4、采用計算機中的不確定行為語義詞條庫構建模塊,構建不確定詞條行為活 動庫,具體步驟如下:
[0019] 步驟4-1、劃分活動類別,并提取各類活動包含詞條;
[0020] 步驟4-2、賦予各種不確定詞條表達活動的概率值,具體步驟如下:
[0021] 步驟4-2-1、統計詞條的詞頻和詞條的逆向文本頻率,根據詞條的詞頻和詞條的逆 向文本頻率獲得詞條的重要性權重;
[0022] 步驟4-2-2、通過重要性權重分布曲線,確定活動相關詞條的判斷闊值和活動半相 關詞條的判斷闊值;
[0023] 步驟4-2-3、將詞條權重概率值大小與闊值進行比較,將詞條分為活動相關詞條、 活動半相關詞條和活動不相關詞條=類,并賦予詞條表達活動的概率值,獲得不確定詞條 行為活動庫;
[0024] 步驟5、采用推文詞條提取模塊對所有用戶發布的推文文本進行詞條提取;
[0025] 步驟6、采用推文詞條表達活動概率值及相似性概率獲取模塊,獲得一對用戶間推 文語義行為相似度的概率值,具體步驟如下:
[0026] 步驟6-1、針對同層每一個最大位置軌跡匹配,合并同一用戶不同物理位置簇的推 文,生成推文語義詞條集合;
[0027] 步驟6-2、獲得一對用戶間推文語義活動的所有組合情況及各組合的概率值,進而 獲得一對用戶間推文語義活動的同層概率值,即獲得一對用戶間同層推文語義行為相似度 的概率值;
[0028] 步驟6-3、根據不同粒度劃分層對語義相似度的權重,獲得一對用戶間推文語義活 動的多層概率值,即獲得一對用戶間多層推文語義行為相似度的概率值;
[0029] 步驟7、采用行為相似社交群體發現模塊,根據推文軌跡物理位置相似度和活動相 似性概率獲得軌跡行為相似度,通過構建連通圖的方式獲得推文相似行為群體。
[0030] 步驟1所述的在樣本采集范圍內采用社交網推文采集模塊獲取社交網站的推文數 據集,需要對所采集的數據經過數據清洗操作后進行存儲。
[0031] 步驟2所述的生成用戶多層次推文物理位置聚類簇序列,具體包括如下步驟:
[0032] 步驟2-1、確定多種聚類空間度量粒度,即確定多尺度空間的距離尺度;
[0033] 步驟2-2、采用聚類算法對處于每種粒度下的推文物理位置進行聚類;
[0034] 步驟2-3、按推文發送時間先后順序生成對應每個用戶的推文位置聚類簇序列。
[0035] 步驟3所述的對聚類所得的任意一對用戶間的各層推文軌跡簇序列進行物理位置 的綜合性相似度獲取,具體步驟如下:
[0036] 步驟3-1、獲得同層節點下一對用戶相似推文物理位置的相似度;
[0037] 同層節點下一對用戶相似推文物理位置的相似度佑,5';,)計算公式如下:
[00:3 引
[0039] 其中,寫表示用戶Ui在第1層的物理位置軌跡簇序列;&表示用戶Uj在第1層的物 理位置軌跡簇序列;r表示物理位置軌跡;1表示第1層物理位置軌跡簇聚類;k I表示最大匹 配的個數;nc(化CSq)表示第1層第q個最大推文軌跡簇公共子序列所包含的聚類簇個數,1< q< k| ;M表示同一聚類尺度下用戶軌跡聚類簇總數;Nu表示推文數據集中的總用戶數,U表 示用戶;nu(Cf)表示訪問第1層第q個最大推文軌跡簇公共子序列第f個公共位置簇Cf的用戶 數,1含f含nc(TLCSq); I爲I表示化在1層上的推文軌跡簇序列所包含的位置聚類簇個數;|S;; 表示W在1層上的推文軌跡簇序列所包含的位置聚類簇個數;
[0040] 步驟3-2、綜合獲得各層節點下一對用戶推文物理位置的相似度;
[0041 ] 計算公式如下:
[0042]
(2)
[0043] 其中,&'《巧%巧)表示用戶。1和11也置軌跡相似度;1'1嗦示用戶111的位置軌跡;17 表示用戶W的位置軌跡;r表示物理位置軌跡;Wi表示不同粒度劃分層對物理位置相似度的 影響權重,Wi = 2i-i,I y引11,111表示不同粒度劃分層的個數;
[0044] 步驟3-3、重復步驟3-1至步驟3-2,獲得所有用戶對的多層次相似推文物理位置的 相似度,并生成用戶對多層次推文物理位置相似度下=角矩陣。
[0045] 步驟6-2所述的進而獲得一對用戶間推文語義活動的同層概率值,即獲得一對用 戶間同層推文語義行為相似度的概率值,具體公式如下:
[0046]
(3)
[0047] 其中,況W(巧,荀0:表示用戶Ui和U迫第1層物理位置軌跡聚類簇序列上的推文行 為語義相似度,於(巧,&/)表示Ui和Uj間滿足第q個最大匹配的相似活動的概率值,I q|表 示最大匹配的個數。
[0048] 步驟6-3所述的根據不同粒度劃分層對語義相似度的權重,獲得一對用戶間推文 語義活動的多層概率值,即獲得一對用戶間多層推文語義行為相似度的概率值,具體公式 如下:
[0049]
(4)
[0化日]其中,表示用戶Ui和U非勺推文行為語義相似度;Tid表示用戶Ui的位置 軌跡所對應的推文軌跡;:T/表示用戶Uj的位置軌跡所對應的推文軌跡; < 表示第1層語義 相似度權重;d表示推文軌跡;111表示不同粒度劃分層的個數。
[0化1]本發明優點:
[0052] 本發明提出一種多尺度空間下不確定行為語義的社交群體發現系統及方法,本發 明基于用戶社交網Twitter行為軌跡,根據其發布推文地理位置的相似性W及推文詞條所 表達的不確定活動語義的相似性,來發現用戶是否具相似有行為關系,從而找到對應的相 似行為用戶群體;
[0053] 首先,本發明優點之一在于成功