一種移動(dòng)群智感知中社會(huì)事件的總結(jié)方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及移動(dòng)群智感知技術(shù)領(lǐng)域,尤其是涉及一種移動(dòng)群智感知中社會(huì)事件的總結(jié)方法。
【背景技術(shù)】
[0002]隨著以Foursquare為代表的移動(dòng)社交網(wǎng)絡(luò)的興起,以及以Facebook、Twitter和微博等為代表的傳統(tǒng)社交網(wǎng)絡(luò)在移動(dòng)端的廣泛應(yīng)用,人們線上的社交活動(dòng)已經(jīng)由PC端向移動(dòng)端大量?jī)A斜。特別是在社會(huì)事件爆發(fā)時(shí)(如波士頓爆炸案),人們?cè)絹?lái)越多的開(kāi)始使用移動(dòng)互聯(lián)網(wǎng)作為消息發(fā)布的渠道。例如,在類似于波士頓爆炸案等突發(fā)事件發(fā)生時(shí),現(xiàn)場(chǎng)的目擊者等往往比新聞?dòng)浾吒绲墨@悉事件相關(guān)情況。這些事件親歷者在利用移動(dòng)互聯(lián)網(wǎng)和移動(dòng)社交網(wǎng)絡(luò)發(fā)布事件信息時(shí),也在貢獻(xiàn)可以用于感知社會(huì)事件的數(shù)據(jù)。而用戶貢獻(xiàn)的感知數(shù)據(jù),即與社會(huì)事件相關(guān)的信息就可以作為我們了解社會(huì)事件的有價(jià)值的參考。因此,我們可以抓取社會(huì)性事件發(fā)生時(shí),用戶通過(guò)移動(dòng)互聯(lián)網(wǎng)或者移動(dòng)社交網(wǎng)絡(luò)發(fā)布的與社會(huì)事件相關(guān)的信息,并以此為基礎(chǔ)來(lái)形成對(duì)社會(huì)事件的自動(dòng)總結(jié),所得結(jié)果可以作為人們獲取事件相關(guān)信息的有價(jià)值參考。
[0003]專利201410406784.8提出了一種對(duì)新聞事件的動(dòng)態(tài)跟蹤和總結(jié)算法,但其數(shù)據(jù)來(lái)源是與事件相關(guān)的若干個(gè)新聞文檔,無(wú)法滿足新聞報(bào)道的時(shí)效性。專利201210250175.9提出了一種面向微博的突發(fā)事件發(fā)現(xiàn)方法,但該方法主要針對(duì)突發(fā)事件的檢測(cè),所得結(jié)果主要關(guān)鍵詞的形式呈現(xiàn),無(wú)法提供與事件相關(guān)的更豐富的信息。專利201310452806.X提出了一種識(shí)別微博突發(fā)熱點(diǎn)事件的方法及裝置,該方法從熱點(diǎn)事件的微博話題標(biāo)簽出發(fā),來(lái)判斷熱點(diǎn)事件是否是突發(fā)事件,但該方法只是在已有熱門事件的基礎(chǔ)上判斷事件是否熱門,沒(méi)有形成對(duì)事件發(fā)展過(guò)程的總結(jié)。本專利利用Tucker張量分解,可以得到對(duì)社會(huì)事件貢獻(xiàn)了較多有價(jià)值信息的用戶、事件發(fā)展過(guò)程中一系列重要的時(shí)間節(jié)點(diǎn)、以及用于描述事件發(fā)展過(guò)程的關(guān)鍵詞等,從用戶、時(shí)間、關(guān)鍵詞三個(gè)維度來(lái)對(duì)社會(huì)事件進(jìn)行總結(jié)。
【發(fā)明內(nèi)容】
[0004]為解決上述問(wèn)題,本發(fā)明提供了一種移動(dòng)群智感知中社會(huì)事件的總結(jié)方法,綜合利用用戶發(fā)布的與社會(huì)性事件相關(guān)的感知數(shù)據(jù),來(lái)形成對(duì)社會(huì)性事件的總結(jié),作為人們獲取事件相關(guān)信息的參考。
[0005]為實(shí)現(xiàn)上述目的,本發(fā)明采取的技術(shù)方案為:
[0006]一種移動(dòng)群智感知中社會(huì)事件的總結(jié)方法,包括如下步驟:
[0007]S1、在某個(gè)社會(huì)性事件發(fā)生之前,設(shè)置一些用戶在使用移動(dòng)社交網(wǎng)絡(luò)發(fā)布與該事件相關(guān)信息時(shí)可能會(huì)使用的一些關(guān)鍵詞;
[0008]S2、在社會(huì)性事件發(fā)生時(shí),利用移動(dòng)社交網(wǎng)絡(luò)的APIs,采集包含指定關(guān)鍵詞的感知信息;
[0009]S3、在得到全部的感知信息之后,從中選取信息發(fā)布地點(diǎn)與事件發(fā)生地點(diǎn)相吻合的感知?目息;
[0010]S4、根據(jù)每個(gè)用戶發(fā)布的感知信息數(shù)量進(jìn)行排序,選取發(fā)布信息個(gè)數(shù)大于閾值II1的用戶作為研宄對(duì)象;
[0011]S5、提取信息中的用戶、時(shí)間、正文三個(gè)字段,對(duì)正文進(jìn)行預(yù)處理,刪除表情符、標(biāo)簽符、用戶名等噪音數(shù)據(jù),只保留與正文相關(guān)的文本信息;
[0012]S6、對(duì)于每一條感知信息,利用自然語(yǔ)言處理中的詞性標(biāo)注提取具有名詞形式的詞,利用命名實(shí)體辨識(shí)提取有特定意義的實(shí)體,并將上述提取結(jié)果統(tǒng)一作為該條信息的關(guān)鍵詞;
[0013]S7、從全體用戶發(fā)布的信息中提取出關(guān)鍵詞之后,選取使用頻率最高的112個(gè)關(guān)鍵詞作為研宄對(duì)象;
[0014]S8、以第一條感知信息發(fā)出的時(shí)間作為開(kāi)始時(shí)間,以最后一條感知信息發(fā)出的時(shí)間作為結(jié)束時(shí)間,將全體時(shí)間T均勻地劃分為J個(gè)時(shí)間段;
[0015]S9、以時(shí)間、用戶和關(guān)鍵詞為三個(gè)維度,構(gòu)建張量,如果用戶Ui在時(shí)間t ^發(fā)表的感知信息正文中包含關(guān)鍵詞wk,則在所構(gòu)建的張量中,對(duì)應(yīng)的元素Hlijk為1,否則為O ;
[0016]S10、在張量構(gòu)建完成之后,利用Tensor Iab中的工具對(duì)張量進(jìn)行Tucker張量分解計(jì)算,得到在時(shí)間、用戶和關(guān)鍵詞三個(gè)維度上的因子矩陣;
[0017]S11、在得到三個(gè)維度的因子矩陣之后,利用K-means聚類算法對(duì)因子矩陣進(jìn)行行聚類,得聚類結(jié)果;
[0018]S12、分析聚類結(jié)果,得結(jié)果、
[0019]其中,所述步驟SlO中分解計(jì)算的公式為:
[0020]M ^ [G ;U,T,ff] = GX1UX2TX3W
[0021]其中,M e Rixjxk, U e Rixn, T e Rjxn, ff e RKXN;I為參與的用戶數(shù)量;J為時(shí)刻個(gè)數(shù);1(為關(guān)鍵詞的個(gè)數(shù);U,T,W為在時(shí)間、用戶和關(guān)鍵詞三個(gè)維度上的因子矩陣。
[0022]其中,所述步驟12所得的結(jié)果包括在該社會(huì)事件中具有較大影響力的用戶,這些用戶對(duì)該社會(huì)事件貢獻(xiàn)了較多有價(jià)值的信息;事件發(fā)展過(guò)程中一系列重要時(shí)刻,這些時(shí)刻與事件發(fā)展的不同階段相關(guān);一系列的關(guān)鍵詞,這些關(guān)鍵詞用來(lái)對(duì)事件的發(fā)展過(guò)程進(jìn)行描述。
[0023]本發(fā)明具有以下有益效果:
[0024]綜合利用用戶發(fā)布的與社會(huì)性事件相關(guān)的感知數(shù)據(jù),來(lái)形成對(duì)社會(huì)性事件的總結(jié),作為人們獲取事件相關(guān)信息的參考。
【附圖說(shuō)明】
[0025]圖1為本發(fā)明實(shí)施例1的流程圖。
【具體實(shí)施方式】
[0026]為了使本發(fā)明的目的及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合實(shí)施例對(duì)本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說(shuō)明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
[0027]如圖1所示,本發(fā)明實(shí)施例提供了一種移動(dòng)群智感知中社會(huì)事件的總結(jié)方法,包括如下步驟:
[0028]步驟一、采集社會(huì)性事件發(fā)生時(shí),大量用戶發(fā)布的與社會(huì)性事件相關(guān)的感知信息;由于隨著智能手機(jī)的普及,人們?cè)絹?lái)越多的開(kāi)始使用移動(dòng)互聯(lián)網(wǎng),特別是移動(dòng)社交網(wǎng)絡(luò)作為消息發(fā)布的渠道。因此,需要首先采集大量用戶貢獻(xiàn)的與社會(huì)性事件相關(guān)的感知數(shù)據(jù)?,F(xiàn)有的很多移動(dòng)社交網(wǎng)絡(luò),都提供了豐富的APIs供開(kāi)發(fā)者調(diào)用。例如,在Twitter中,可以事先指定與社會(huì)性事件相關(guān)的多個(gè)關(guān)鍵詞,在事件發(fā)生時(shí)利用Twitter Streaming APIs采集事件進(jìn)行過(guò)程中用戶發(fā)布的包含指定關(guān)鍵詞的推文,從這些推文中提取出從移動(dòng)端發(fā)出、且發(fā)布地點(diǎn)與事件發(fā)生地點(diǎn)向吻合的,作為用戶貢獻(xiàn)的事件相關(guān)感知數(shù)據(jù)。
[0029]步驟二、感知數(shù)據(jù)的預(yù)處理;
[0030]記用戶Ui在時(shí)刻t i發(fā)布的社會(huì)事件相關(guān)感知信息為text i,則一條感知信息可以表