專(zhuān)利名稱(chēng):一種網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng)和方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,具體涉及一種網(wǎng)絡(luò)輿情地理位置傳播、分布實(shí)時(shí)監(jiān)控技術(shù)。
背景技術(shù):
隨著網(wǎng)絡(luò)大力普及,人們?cè)絹?lái)越習(xí)慣在網(wǎng)絡(luò)表達(dá)自己的觀點(diǎn),并且由于網(wǎng)絡(luò)的龐大性和隱匿性,導(dǎo)致觀點(diǎn)的表達(dá)更加真實(shí)、大膽,網(wǎng)絡(luò)輿情逐漸引起人們的廣泛關(guān)注。網(wǎng)絡(luò)輿情具有一定地域特點(diǎn),網(wǎng)絡(luò)的熱點(diǎn)話(huà)題也是社會(huì)中的熱點(diǎn)話(huà)題,尋找網(wǎng)絡(luò)輿情和社會(huì)輿情的聯(lián)系,將輿情在網(wǎng)絡(luò)上的傳播和其在地理位置上的傳播聯(lián)系起來(lái),是網(wǎng)絡(luò)輿情的一個(gè)研究趨勢(shì)。但目前在輿情監(jiān)控應(yīng)用領(lǐng)域中,存在以下的問(wèn)題:I)數(shù)據(jù)來(lái)源的局限性;當(dāng)前輿情監(jiān)控系統(tǒng)大多局限在某種或者某類(lèi)特定的網(wǎng)絡(luò)形態(tài),導(dǎo)致輿情監(jiān)控不夠全面。2)網(wǎng)絡(luò)輿情和社會(huì)輿情的聯(lián)系性較弱;當(dāng)前大多輿情分析主要針對(duì)網(wǎng)絡(luò)行為開(kāi)展,忽略網(wǎng)絡(luò)輿情的地域特征,也就是說(shuō)沒(méi)有和社會(huì)輿情相聯(lián)系。申請(qǐng)?zhí)枮?01210216349.X的發(fā)明專(zhuān)利申請(qǐng)“一種輿情信息展示系統(tǒng)及方法”對(duì)包含輿情信息的網(wǎng)頁(yè)進(jìn)行地域識(shí)別,客觀、直觀地反映了不同地域的輿情信息,屬于輿情的統(tǒng)計(jì)分析靜態(tài)展示,沒(méi)有對(duì)特定輿情傳播過(guò)程的動(dòng)態(tài)展示;其地域識(shí)別模塊,適于對(duì)所述正文信息進(jìn)行地域識(shí)別,以獲得所述正文信息的所屬地域并對(duì)具有相同所屬地域的網(wǎng)頁(yè)進(jìn)行數(shù)量統(tǒng)計(jì),該模塊所完成的數(shù)據(jù)處理功能僅僅是對(duì)含有地域?qū)傩缘木W(wǎng)頁(yè)數(shù)量進(jìn)行統(tǒng)計(jì),不涉及用戶(hù)對(duì)話(huà)題的討論過(guò)程演變,對(duì)特定的某個(gè)輿情,缺乏針對(duì)性,無(wú)法完成對(duì)特定輿情熱點(diǎn)的監(jiān)控。申請(qǐng)?zhí)枮?01110127509.9的發(fā)明專(zhuān)利申請(qǐng)“網(wǎng)絡(luò)輿情危機(jī)預(yù)警方法”屬于對(duì)網(wǎng)絡(luò)熱點(diǎn)話(huà)題的監(jiān)測(cè)和預(yù)警,沒(méi)有對(duì)每一個(gè)熱點(diǎn)話(huà)題在網(wǎng)絡(luò)上的傳播態(tài)勢(shì)進(jìn)行分析,也沒(méi)有對(duì)
網(wǎng)絡(luò)熱點(diǎn)話(huà)題在現(xiàn)實(shí)社會(huì)城市之間的傳播態(tài)勢(shì)進(jìn)行分析,不適用于對(duì)社會(huì)輿情的觀察和預(yù)
m
目O
發(fā)明內(nèi)容
本發(fā)明針對(duì)現(xiàn)有技術(shù)存在的上述問(wèn)題,提供一種網(wǎng)絡(luò)輿情地理位置傳播、分布實(shí)時(shí)監(jiān)控系統(tǒng)。本發(fā)明解決上述技術(shù)問(wèn)題的技術(shù)方案是:一種網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng),其特征在于,包括:數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、動(dòng)態(tài)展示模塊、分析報(bào)告模塊;其中,數(shù)據(jù)采集模塊預(yù)先將含有用戶(hù)所在地的用戶(hù)注冊(cè)信息存到本地,獲取微博、博客、論壇的熱點(diǎn)關(guān)鍵詞,建立關(guān)鍵詞列表(可采用相似度檢測(cè)技術(shù)對(duì)關(guān)鍵詞去重),依次從微博、博客、論壇搜索每個(gè)關(guān)鍵詞并將網(wǎng)頁(yè)源碼保存到本地;數(shù)據(jù)處理模塊采用字符串首尾邊界切割技術(shù),統(tǒng)一微博、博客、論壇等各種網(wǎng)絡(luò)形態(tài)的數(shù)據(jù)處理方式,從搜索結(jié)果網(wǎng)頁(yè)源碼中截取時(shí)間及與地理位置有關(guān)的信息,并建立地理位置與經(jīng)緯度坐標(biāo)的映射;按照輿情傳播時(shí)間的先后順序?qū)λ@取的話(huà)題討論相關(guān)內(nèi)容排序,按用戶(hù)設(shè)定的時(shí)間間隔對(duì)排序后的內(nèi)容按照定長(zhǎng)時(shí)間段分批;動(dòng)態(tài)展示模塊讀取已分批內(nèi)容的地理位置信息并轉(zhuǎn)換為經(jīng)緯度坐標(biāo),按批依次載入GIS系統(tǒng)進(jìn)行傳播動(dòng)態(tài)展示,根據(jù)經(jīng)緯度坐標(biāo)動(dòng)態(tài)標(biāo)記定位網(wǎng)民對(duì)該熱點(diǎn)關(guān)鍵詞的討論傳播情況,并繪制該熱點(diǎn)關(guān)鍵詞各地網(wǎng)民關(guān)注數(shù)量隨時(shí)間變化的曲線(xiàn);分析報(bào)告模塊存儲(chǔ)演示結(jié)果并對(duì)網(wǎng)民地域分布人數(shù)做定量分析。具體為:所述數(shù)據(jù)采集模塊包括:用戶(hù)數(shù)據(jù)采集模塊、關(guān)鍵詞采集模塊、話(huà)題信息采集模塊。用戶(hù)數(shù)據(jù)采集模塊實(shí)時(shí)采集網(wǎng)絡(luò)信息,通過(guò)預(yù)處理把含有地理位置屬性的用戶(hù)注冊(cè)信息保存到用戶(hù)注冊(cè)信息表,當(dāng)參與某話(huà)題討論的用戶(hù)存在于表中時(shí),可直接提取其地理位置信息,若不存在,先進(jìn)入個(gè)人主頁(yè)提取其地理位置信息并更新用戶(hù)注冊(cè)信息表。關(guān)鍵詞采集模塊自動(dòng)獲取微博、博客、論壇的熱點(diǎn)關(guān)鍵詞,通過(guò)文本聚類(lèi)的方法進(jìn)行相似度檢測(cè)并去重,得到關(guān)鍵詞列表。話(huà)題信息采集模塊根據(jù)關(guān)鍵詞搜索所有話(huà)題并保存搜索結(jié)果網(wǎng)頁(yè)源碼。數(shù)據(jù)處理模塊包括:提取時(shí)間地點(diǎn)模塊、地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊、數(shù)據(jù)按時(shí)間分批模塊。提取時(shí)間地點(diǎn)模塊采用字符串首尾邊界切割技術(shù),直接鎖定待提取信息的位置,從網(wǎng)頁(yè)源碼中提取和地理位置傳播相關(guān)的信息,在不需要修改源程序的情況下,對(duì)各種網(wǎng)頁(yè)結(jié)構(gòu)進(jìn)行統(tǒng)一處理;地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊完成城市名稱(chēng)和其經(jīng)緯度坐標(biāo)的映射,用于GIS定位;數(shù)據(jù)按時(shí)間分批模塊對(duì)已獲取數(shù)據(jù),按照信息傳播時(shí)間先后排序,以用戶(hù)所設(shè)定的時(shí)間間隔對(duì)數(shù)據(jù)分批。動(dòng)態(tài)展示模塊包括:GIS系統(tǒng)動(dòng)態(tài)展示傳播模塊、網(wǎng)民地域分布實(shí)時(shí)變化模塊。GIS系統(tǒng)動(dòng)態(tài)展示傳播模塊將分批后的數(shù)據(jù)依次載入GIS系統(tǒng),按照經(jīng)緯度坐標(biāo)定位并動(dòng)態(tài)標(biāo)注其傳播位置,采用立方體或圓柱體等帶有高度的自定義地標(biāo),依次標(biāo)識(shí)每一批城市,同一批地理位置地標(biāo)具有相同的高度,處于不同批次同一地理位置的標(biāo)注點(diǎn)通過(guò)對(duì)經(jīng)緯度小量的改變,使地標(biāo)處于之前地標(biāo)的周?chē)恢?,地?biāo)的高度差用來(lái)區(qū)分不同的傳播批次,地標(biāo)的密度用來(lái)區(qū)分不同地域該特定輿情的密度,以便觀察。網(wǎng)民地域分布實(shí)時(shí)變化模塊,在χ-y坐標(biāo)系中繪制不同省市參與某關(guān)鍵詞討論網(wǎng)民的數(shù)量隨時(shí)間變化的趨勢(shì),可一條曲線(xiàn)代表一個(gè)城市的情況。動(dòng)態(tài)展示模塊和網(wǎng)民地域分布展示模塊同步動(dòng)態(tài)展示,前者從數(shù)據(jù)庫(kù)讀取分批次的經(jīng)緯度坐標(biāo)集,依次標(biāo)注傳播態(tài)勢(shì),后者將每一批每一個(gè)城市的網(wǎng)民數(shù)量繪制為一個(gè)點(diǎn),隨時(shí)間推移,動(dòng)態(tài)連接這些點(diǎn)。分析報(bào)告模塊包括:存檔演示結(jié)果圖模塊、數(shù)據(jù)分析模塊。存檔演示結(jié)果圖保存每一個(gè)關(guān)鍵詞所代表的熱點(diǎn)話(huà)題在地圖上標(biāo)注后的分布情況圖,以及網(wǎng)民分布曲線(xiàn)圖。數(shù)據(jù)分析模塊對(duì)演示結(jié)果進(jìn)行定量分析,如對(duì)網(wǎng)民省市分布情況以表格的形式量化。一種網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控方法,數(shù)據(jù)采集模塊預(yù)先將用戶(hù)注冊(cè)信息存儲(chǔ)到本地,獲取微博、博客、論壇的熱點(diǎn)關(guān)鍵詞,對(duì)關(guān)鍵詞進(jìn)行相似度檢測(cè)并去重,建立關(guān)鍵詞列表,依次從微博、博客、論壇搜索每個(gè)關(guān)鍵詞并將網(wǎng)頁(yè)源碼保存到本地;數(shù)據(jù)處理模塊使用字符串首尾邊界切割技術(shù),從微博、博客、論壇的搜索結(jié)果網(wǎng)頁(yè)源碼中提取時(shí)間和地理位置傳播相關(guān)信息,根據(jù)地理位置建立與經(jīng)緯度坐標(biāo)的映射,按照輿情傳播時(shí)間的先后順序?qū)λ@取的話(huà)題討論相關(guān)內(nèi)容排序,按用戶(hù)設(shè)定的時(shí)間間隔對(duì)排序后的內(nèi)容按照定長(zhǎng)時(shí)間段分批;動(dòng)態(tài)展示模塊讀取分批數(shù)據(jù),按批依次載入地理信息系統(tǒng),進(jìn)行地理坐標(biāo)標(biāo)識(shí),根據(jù)經(jīng)緯度坐標(biāo)定位標(biāo)記熱點(diǎn)關(guān)鍵詞,進(jìn)行信息傳播動(dòng)態(tài)演示,并繪制熱點(diǎn)關(guān)鍵詞隨時(shí)間變化的曲線(xiàn);分析報(bào)告模塊存儲(chǔ)演示結(jié)果并對(duì)網(wǎng)民地域分布人數(shù)做定量分析。
對(duì)信息字符串首尾邊界切割具體為,根據(jù)各網(wǎng)絡(luò)形態(tài)的網(wǎng)頁(yè)源碼,查找所要提取目標(biāo)字符串首和尾的唯一字符串標(biāo)識(shí),使用字符串切割功能,將目標(biāo)字符串提取出來(lái)。對(duì)于不提供IP的網(wǎng)站,預(yù)處理模塊搜索網(wǎng)站所有用戶(hù)的個(gè)人信息主頁(yè),使用字符串首尾邊界切割技術(shù)提取用戶(hù)名和注冊(cè)地點(diǎn)存入用戶(hù)注冊(cè)信息表。如果有IP地址,則查找IP地址和地理位置信息映射表,將IP地址轉(zhuǎn)換為城市名稱(chēng),保證待處理數(shù)據(jù)集中僅含有時(shí)間和城市名稱(chēng)兩個(gè)屬性。數(shù)據(jù)處理模塊從搜索結(jié)果網(wǎng)頁(yè)源碼中,根據(jù)目標(biāo)信息標(biāo)識(shí)表中對(duì)應(yīng)的該網(wǎng)站的各個(gè)標(biāo)識(shí),使用字符串首尾邊界切割技術(shù)提取其中的用戶(hù)名、話(huà)題內(nèi)容、IP、時(shí)間等信息存入數(shù)據(jù)庫(kù)。本發(fā)明相對(duì)于現(xiàn)有技術(shù),將微博、博客、論壇的數(shù)據(jù)處理方式進(jìn)行統(tǒng)一,通過(guò)熱榜建立關(guān)鍵詞列表,按關(guān)鍵詞搜索并獲取網(wǎng)頁(yè)內(nèi)容,包括傳播時(shí)間、地點(diǎn)/IP和發(fā)布、轉(zhuǎn)發(fā)和評(píng)論者,將網(wǎng)絡(luò)輿情的傳播和社會(huì)輿情的傳播對(duì)應(yīng),借助Gis軟件,動(dòng)態(tài)還原傳播過(guò)程。本發(fā)明在地理位置信息獲取的處理之上,把不能直接獲取城市或IP信息的網(wǎng)站,提前對(duì)用戶(hù)信息進(jìn)行預(yù)處理,保存用戶(hù)注冊(cè)城市,以保障系統(tǒng)運(yùn)行實(shí)時(shí)性。輸入關(guān)鍵詞列表和自動(dòng)獲取關(guān)鍵詞列表既可以滿(mǎn)足用戶(hù)對(duì)特定話(huà)題傳播動(dòng)向觀察的需求,也可以實(shí)現(xiàn)全網(wǎng)絡(luò)實(shí)時(shí)監(jiān)控。另一方面,在輿情的動(dòng)態(tài)展示上,借助Gis軟件的強(qiáng)大功能,以地標(biāo)的高度差表示傳播批次的不同,以地標(biāo)的密度區(qū)分不同地域該特定輿情的分布密度。
圖1是本發(fā)明的系統(tǒng)結(jié)構(gòu)組成圖;圖2是本發(fā)明的運(yùn)行流程圖。
具體實(shí)施例方式本發(fā)明網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng),統(tǒng)一微博、博客、論壇數(shù)據(jù)的處理方式,通過(guò)文本聚類(lèi)等技術(shù)進(jìn)行相似度檢測(cè)并去重,得到話(huà)題熱點(diǎn)關(guān)鍵詞列表,通過(guò)網(wǎng)站結(jié)構(gòu)表獲取待提取信息的首尾邊界,對(duì)熱點(diǎn)關(guān)鍵詞相關(guān)的地理位置和時(shí)間信息進(jìn)行首尾邊界切割提取地理位置和時(shí)間信息,根據(jù)每一個(gè)關(guān)鍵詞獲取數(shù)據(jù)并進(jìn)行數(shù)據(jù)處理,在GIS地理模型上動(dòng)態(tài)還原其傳播態(tài)勢(shì),分析各地網(wǎng)民參與人數(shù)。將地理位置轉(zhuǎn)換成經(jīng)緯度坐標(biāo),實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境和真實(shí)環(huán)境的映射,通過(guò)對(duì)數(shù)據(jù)按時(shí)間段分批在GIS系統(tǒng)中完成定位從而實(shí)現(xiàn)動(dòng)態(tài)演示傳播過(guò)程。最后存儲(chǔ)演示結(jié)果圖并對(duì)網(wǎng)民的地域分布人數(shù)做定量分析,生成報(bào)告。下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明進(jìn)一步詳細(xì)描述,但本發(fā)明的實(shí)施方式不限于此。如圖1所示為本發(fā)明系統(tǒng)結(jié)構(gòu)組成圖,本發(fā)明網(wǎng)絡(luò)輿情地理位置傳播、分布實(shí)時(shí)監(jiān)控系統(tǒng)包括:數(shù)據(jù)采集模塊100、數(shù)據(jù)處理模塊200、動(dòng)態(tài)展示模塊300、分析報(bào)告模塊400。數(shù)據(jù)采集模塊100包括:用戶(hù)數(shù)據(jù)采集模塊、關(guān)鍵詞采集模塊、話(huà)題信息采集模塊。數(shù)據(jù)采集模塊完成用戶(hù)注冊(cè)信息、熱點(diǎn)關(guān)鍵詞列表、特定話(huà)題相關(guān)信息三種數(shù)據(jù)的采集。對(duì)于信息的采集,對(duì)待采集信息字符串首尾邊界進(jìn)行切割獲得需要提取的數(shù)據(jù)。字符串首尾邊界切割技術(shù),具體可使用字符串的切割功能,查找所要提取目標(biāo)字符串首和尾的唯一字符串標(biāo)識(shí),將目標(biāo)字符串提取出來(lái)。如:字符串為“abcA用戶(hù)名Bdfd”,“A”和“B”為“用戶(hù)名”首尾的唯一標(biāo)識(shí),目標(biāo)信息是“用戶(hù)名”。具體做法為首先鎖定“A”和“B”在字符串中的索引位置,使用字符串的切割方法,將“用戶(hù)名”提取出來(lái)。對(duì)不同網(wǎng)絡(luò)形態(tài)而言,待提取信息的首尾標(biāo)識(shí)各有不同,故預(yù)先分析各網(wǎng)站源碼,將網(wǎng)站源碼的唯一標(biāo)識(shí)存入數(shù)據(jù)庫(kù),使得抓取過(guò)程只需從數(shù)據(jù)庫(kù)中讀入待提取內(nèi)容的首尾唯一標(biāo)識(shí)即可,避免了因網(wǎng)站結(jié)構(gòu)改變而不能正確提取的情況出現(xiàn)。用戶(hù)數(shù)據(jù)采集模塊101,實(shí)時(shí)采集用戶(hù)個(gè)人信息,以提高系統(tǒng)效率和保證系統(tǒng)實(shí)時(shí)性。由于部分網(wǎng)站通過(guò)帖子、博文不能直接獲取用戶(hù)的IP或地址信息,需要進(jìn)入用戶(hù)個(gè)人信息主頁(yè)進(jìn)行數(shù)據(jù)抓取,如果不進(jìn)行預(yù)處理,通過(guò)先找到帖子中用戶(hù)然后再根據(jù)用戶(hù)進(jìn)入其主頁(yè)抓取其IP或地址信息的方式獲取數(shù)據(jù)的話(huà),由于請(qǐng)求網(wǎng)頁(yè)需要一定的時(shí)間消耗,會(huì)影響系統(tǒng)效率。用戶(hù)數(shù)據(jù)采集模塊101通過(guò)預(yù)處理預(yù)先將用戶(hù)注冊(cè)信息保存到本地,建立用戶(hù)注冊(cè)信息表,對(duì)于不提供IP的網(wǎng)站進(jìn)行預(yù)處理,即預(yù)處理模塊搜索網(wǎng)站所有用戶(hù)的個(gè)人信息主頁(yè),使用字符串首尾邊界切割技術(shù)提取用戶(hù)名和注冊(cè)地點(diǎn)存入用戶(hù)注冊(cè)信息表。關(guān)鍵詞采集模塊102自動(dòng)獲取網(wǎng)絡(luò)話(huà)題熱點(diǎn)關(guān)鍵詞,通過(guò)網(wǎng)絡(luò)爬蟲(chóng)對(duì)微博、博客、論壇話(huà)題熱榜的關(guān)鍵詞進(jìn)行抓取,利用現(xiàn)有的文本聚類(lèi)技術(shù)進(jìn)行相似度檢測(cè)、去重,得到關(guān)鍵詞列表。話(huà)題信息采集模塊103使用微博、博客或論壇提供的搜索功能,搜索關(guān)鍵詞。將搜索的所有頁(yè)面的網(wǎng)頁(yè)源碼保存到本地。數(shù)據(jù)處理模塊200包括:提取時(shí)間地點(diǎn)模塊、地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊、數(shù)據(jù)按時(shí)間分批模塊。預(yù)先建立網(wǎng)站結(jié)構(gòu)表,分析網(wǎng)站源碼,找到所需信息的首尾唯一標(biāo)識(shí),存入網(wǎng)站結(jié)構(gòu)表。格式如:網(wǎng)站、目標(biāo)信息I首標(biāo)識(shí)、目標(biāo)信息I尾標(biāo)識(shí)、目標(biāo)信息2首標(biāo)識(shí)、目標(biāo)信息2尾標(biāo)識(shí)等。根據(jù)網(wǎng)站結(jié)構(gòu)表中對(duì)應(yīng)的該網(wǎng)站的各個(gè)標(biāo)識(shí)使用字符串首尾邊界切割技術(shù)提取其中的用戶(hù)名、話(huà)題內(nèi)容、IP、時(shí)間等信息存入數(shù)據(jù)庫(kù)中。通過(guò)將地理位置轉(zhuǎn)換為經(jīng)緯度坐標(biāo),并按照時(shí)間順序排序,按照用戶(hù)設(shè)定的時(shí)間間隔進(jìn)行分批,完成動(dòng)態(tài)演示數(shù)據(jù)集的建立。數(shù)據(jù)處理模塊完成三次遞進(jìn)式的數(shù)據(jù)處理。提取時(shí)間地點(diǎn)模塊201從搜索結(jié)果網(wǎng)頁(yè)源碼中提取時(shí)間和地點(diǎn)信息,在處理過(guò)程中,如果有IP地址,則查找IP地址和地理位置信息映射表,將IP地址轉(zhuǎn)換為城市名稱(chēng),以保證待處理數(shù)據(jù)集中僅含有時(shí)間和城市名稱(chēng)兩個(gè)屬性。IP地址和地理位置信息映射表,是根據(jù)現(xiàn)實(shí)中的IP與地點(diǎn)的對(duì)應(yīng)關(guān)系,建立存儲(chǔ)在數(shù)據(jù)庫(kù)中的表。地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊202通過(guò)讀取地點(diǎn)和經(jīng)緯度映射表,將提取出來(lái)的地理位置信息轉(zhuǎn)換為經(jīng)緯度。地點(diǎn)和經(jīng)緯度映射表,是根據(jù)不同GIS系統(tǒng)的地理坐標(biāo)系統(tǒng),在數(shù)據(jù)庫(kù)中所建立的城市和經(jīng)緯度對(duì)應(yīng)關(guān)系的映射表。數(shù)據(jù)按時(shí)間分批模塊203對(duì)地點(diǎn)轉(zhuǎn)換經(jīng)緯度模塊202所建立的時(shí)間地點(diǎn)表,根據(jù)“時(shí)間”字段,按時(shí)間先后排序,按照用戶(hù)指定的時(shí)間間隔,對(duì)數(shù)據(jù)分批。如對(duì)于周期比較短的熱點(diǎn)話(huà)題,可以采取10分鐘的時(shí)間間隔,10分鐘之內(nèi)的數(shù)據(jù)均認(rèn)為同屬一批,這樣可把一個(gè)小時(shí)之內(nèi)傳播的數(shù)據(jù)分為6批,依次類(lèi)推。動(dòng)態(tài)展示模塊300包括:GIS動(dòng)態(tài)展示傳播模塊、網(wǎng)民地域分布實(shí)時(shí)變化模塊,主要完成網(wǎng)絡(luò)輿情傳播到地理位置傳播的動(dòng)態(tài)展示。動(dòng)態(tài)展示傳播模塊301讀取按照時(shí)間分批的經(jīng)緯度坐標(biāo),在GIS上分批標(biāo)識(shí),地標(biāo)采用具有高度差異的覆蓋物,同一批數(shù)據(jù)采用相同高度的覆蓋物,面對(duì)同一地點(diǎn)多次傳播的情況,通過(guò)略微改變經(jīng)緯度坐標(biāo),使地標(biāo)被標(biāo)識(shí)在之前地標(biāo)的附近,以密度表示輿情在該地區(qū)的密集程度。如采用Google Earth進(jìn)行數(shù)據(jù)展示時(shí),可將分好批的數(shù)據(jù)按照批次寫(xiě)成若干kml演示文件,再通過(guò)Google Earth 二次開(kāi)發(fā)所提供的程序接口,使用OpenKmlFile方法依次讀入每一個(gè)kml演示文件,建立定時(shí)器讀取文件或者每讀取一次文件程序都休眠小段時(shí)間,以這樣的方式完成信息傳播動(dòng)態(tài)演示;采用百度地圖時(shí),利用官方提供的API程序接口,如Javascript版API,將對(duì)地圖進(jìn)行地標(biāo)標(biāo)注的函數(shù)用定時(shí)器控制其周期性執(zhí)行,以完成動(dòng)態(tài)演示。網(wǎng)民地域分布實(shí)時(shí)變化模塊302完成網(wǎng)民地域分布曲線(xiàn)的動(dòng)態(tài)變化,在χ-y坐標(biāo)系中,X軸屬性為時(shí)間,y軸屬性為網(wǎng)民人數(shù),省市之間的曲線(xiàn)用顏色區(qū)分,一批數(shù)據(jù)中的同一省市做一個(gè)點(diǎn),隨著數(shù)據(jù)批次的增加,將同一省市的點(diǎn)動(dòng)態(tài)連接起來(lái),產(chǎn)生動(dòng)畫(huà)效果。如,若對(duì)地域按照省市自治區(qū)來(lái)分,中國(guó)有34個(gè)獨(dú)立的單位,則在x-y坐標(biāo)系中,繪制34條不同顏色的曲線(xiàn),坐標(biāo)系中的點(diǎn)代表某一時(shí)間某一地點(diǎn)網(wǎng)民人數(shù)。圖2是本發(fā)明的網(wǎng)絡(luò)輿情地理位置傳播、分布實(shí)時(shí)監(jiān)控工作的流程圖,根據(jù)圖2,對(duì)本發(fā)明的網(wǎng)絡(luò)輿情地理位置傳播、分布實(shí)時(shí)監(jiān)控方法作進(jìn)一步的說(shuō)明。StepO:程序啟動(dòng);stepl:數(shù)據(jù)采集模塊判斷是否需要數(shù)據(jù)預(yù)處理,若不需要,跳到st印3 ;st印2:進(jìn)入微博、博客或論壇,提取所有網(wǎng)貼的URL。依次進(jìn)入各個(gè)網(wǎng)貼獲取出現(xiàn)的發(fā)帖者和回復(fù)者的個(gè)人主頁(yè)URLl (這里為了區(qū)分,用URLl表示),同時(shí)進(jìn)行去重處理,然后依次進(jìn)入每個(gè)URLl提取用戶(hù)名和地點(diǎn)信息,存入用戶(hù)注冊(cè)信息表;根據(jù)不同網(wǎng)站網(wǎng)頁(yè)源碼結(jié)構(gòu),分析待提取關(guān)鍵詞前后唯一標(biāo)識(shí),存入網(wǎng)絡(luò)結(jié)構(gòu)表;step3:手動(dòng)輸入關(guān)鍵詞或自動(dòng)獲取關(guān)鍵詞,關(guān)鍵詞列表個(gè)數(shù)為M,并設(shè)兩個(gè)控制變量i=j=l ;step4:獲取第i個(gè)關(guān)鍵詞;step5:在第j個(gè)微博、博客或者論壇中根據(jù)第i個(gè)關(guān)鍵詞,利用微博、博客或論壇提供的搜索功能,搜索關(guān)鍵詞;step6:將搜索結(jié)果的網(wǎng)頁(yè)源碼在本地保存;step7:根據(jù)網(wǎng)絡(luò)結(jié)構(gòu)表,利用字符串首尾邊界切割技術(shù),從本地網(wǎng)頁(yè)源碼中提取用戶(hù)名、發(fā)布時(shí)間,存入原始演示數(shù)據(jù)集;step8:判斷是否能直接獲取IP地址,如果否,跳到steplO ;st印9:將IP地址轉(zhuǎn)為城市名稱(chēng),跳到st印11 ;steplO:根據(jù)用戶(hù)名,查找用戶(hù)注冊(cè)信息表,獲取用戶(hù)注冊(cè)城市信息,若無(wú)記錄,則進(jìn)入用戶(hù)主頁(yè)得到注冊(cè)城市,并更新用戶(hù)注冊(cè)信息表;Stepll:完成在第j個(gè)微博、博客或者論壇的輿情采集,j++,N為微博、博客和論壇的總數(shù),如果j〈N,跳到step5 ;stepl2:根據(jù)經(jīng)緯度對(duì)應(yīng)關(guān)系,把城市信息轉(zhuǎn)換成經(jīng)緯度信息,存入演示數(shù)據(jù)集表;stepl3:對(duì)演示數(shù)據(jù)集表中的數(shù)據(jù)按照時(shí)間先后分批,供GIS軟件分批讀取演示數(shù)據(jù);st印14:選取一個(gè)GIS軟件,如百度地圖,利用API Flash,對(duì)讀取演示批數(shù)設(shè)置定時(shí)器,實(shí)現(xiàn)動(dòng)態(tài)演示;每讀取一批數(shù)據(jù),繪制對(duì)應(yīng)的網(wǎng)民省市分布曲線(xiàn)圖的點(diǎn),動(dòng)態(tài)連接屬于每個(gè)省市的點(diǎn);stepl5:保存此次話(huà)題演示的結(jié)果,并保存數(shù)據(jù)分析報(bào)告;stepl6:是否結(jié)束第i個(gè)關(guān)鍵詞的抓取及展示,如果不結(jié)束,i=i%M+l,跳到step5 ;stepl7:從關(guān)鍵詞列表中刪除此關(guān)鍵詞,M=M_1,i=i_l,i=i%M+l,跳到step4 ;上述實(shí)施方式為本發(fā)明較佳的實(shí)施方式,但是本發(fā)明的實(shí)施方式不受上述實(shí)施例的限制,其他任何在本發(fā)明思想、方法、流程、系統(tǒng)設(shè)計(jì)、原理下所作的改變、修飾、替代、組合、簡(jiǎn)化,均為等效的置換方式,都包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng),其特征在于,包括:數(shù)據(jù)采集模塊、數(shù)據(jù)處理模塊、動(dòng)態(tài)展示模塊、分析報(bào)告模塊,數(shù)據(jù)采集模塊預(yù)先將用戶(hù)注冊(cè)信息存儲(chǔ)到本地,獲取微博、博客、論壇的熱點(diǎn)關(guān)鍵詞,對(duì)關(guān)鍵詞進(jìn)行相似度檢測(cè)并去重,建立關(guān)鍵詞列表,依次將每個(gè)關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)源碼保存到本地;數(shù)據(jù)處理模塊采用字符串首尾邊界切割從搜索的網(wǎng)頁(yè)源碼中提取時(shí)間和地理位置信息,根據(jù)地理位置建立與經(jīng)緯度坐標(biāo)的映射,按照關(guān)鍵詞傳播時(shí)間的先后順序?qū)λ@取的內(nèi)容排序,按預(yù)定時(shí)間間隔對(duì)排序后的內(nèi)容按照定長(zhǎng)時(shí)間段分批;動(dòng)態(tài)展示模塊讀取分批數(shù)據(jù),按批次載入地理信息系統(tǒng),進(jìn)行地理坐標(biāo)標(biāo)識(shí),根據(jù)經(jīng)緯度坐標(biāo)繪制地標(biāo),以實(shí)現(xiàn)信息傳播動(dòng)態(tài)演示,并繪制熱點(diǎn)關(guān)鍵詞隨時(shí)間變化的曲線(xiàn);分析報(bào)告模塊存儲(chǔ)演示結(jié)果并對(duì)網(wǎng)民地域分布人數(shù)做定量分析。
2.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng),其特征在于,字符串首尾邊界切割具體為,查找所要提取目標(biāo)字符串首和尾的唯一字符串標(biāo)識(shí),使用字符串切割功能,將網(wǎng)頁(yè)源碼中的目標(biāo)字符串提取出來(lái)。
3.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng),其特征在于,對(duì)于不提供IP地址的網(wǎng)站,預(yù)處理模塊搜索網(wǎng)站所有用戶(hù)的個(gè)人信息主頁(yè),根據(jù)字符串首尾邊界切割提取用戶(hù)名和注冊(cè)地點(diǎn)存入用戶(hù)注冊(cè)信息表。
4.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng),其特征在于,數(shù)據(jù)采集模塊中話(huà)題信息采集模塊使用微博、博客或論壇提供的搜索功能,將搜索獲得的所有頁(yè)面的源碼保存在本地,提取時(shí)間地點(diǎn)模塊提取源碼中的用戶(hù)名、熱點(diǎn)詞相關(guān)內(nèi)容、IP地址、時(shí)間信息存入數(shù)據(jù)庫(kù)中。
5.根據(jù)權(quán)利要求1所述的網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng),其特征在于,如果有IP地址,則查找IP地址和地理位置信息映射表,將IP地址轉(zhuǎn)換為城市名稱(chēng),保證待處理數(shù)據(jù)集中僅含有時(shí)間和城市名稱(chēng)兩個(gè)屬性。
6.一種網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控方法,其特征在于,數(shù)據(jù)采集模塊預(yù)先將用戶(hù)注冊(cè)信息存儲(chǔ)到本地,獲取微博 、博客、論壇的熱點(diǎn)關(guān)鍵詞,對(duì)關(guān)鍵詞進(jìn)行相似度檢測(cè)并去重,建立關(guān)鍵詞列表,依次將每個(gè)關(guān)鍵詞對(duì)應(yīng)的網(wǎng)頁(yè)源碼保存到本地;數(shù)據(jù)處理模塊采用字符串首尾邊界切割從網(wǎng)頁(yè)源碼中提取時(shí)間和地理位置信息,根據(jù)地理位置建立與經(jīng)緯度坐標(biāo)的映射,按照關(guān)鍵詞傳播時(shí)間的先后順序?qū)λ@取的內(nèi)容排序,按用戶(hù)設(shè)定的時(shí)間間隔對(duì)排序后的內(nèi)容按照定長(zhǎng)時(shí)間段分批;動(dòng)態(tài)展示模塊讀取分批數(shù)據(jù),按批依次載入地理信息系統(tǒng),進(jìn)行地理坐標(biāo)標(biāo)識(shí),根據(jù)經(jīng)緯度坐標(biāo)繪制地標(biāo),以實(shí)現(xiàn)信息傳播動(dòng)態(tài)演示,并繪制關(guān)鍵詞隨時(shí)間變化的曲線(xiàn);分析報(bào)告模塊存儲(chǔ)演示結(jié)果并對(duì)網(wǎng)民地域分布人數(shù)做定量分析。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,對(duì)信息字符串首尾邊界切割具體為,查找所要提取目標(biāo)字符串首和尾的唯一字符串標(biāo)識(shí),使用字符串切割功能,從網(wǎng)頁(yè)源碼中將目標(biāo)字符串提取出來(lái)。
8.根據(jù)權(quán)利要求6所述的方法,其特征在于,對(duì)于不提供IP地址的網(wǎng)站,預(yù)處理模塊搜索網(wǎng)站所有用戶(hù)的個(gè)人信息主頁(yè),采用字符串首尾邊界切割方法提取用戶(hù)名和注冊(cè)地點(diǎn)存入用戶(hù)注冊(cè)信息表;如果有IP地址,則查找IP地址和地理位置信息映射表,將IP地址轉(zhuǎn)換為城市名稱(chēng),保證待處理數(shù)據(jù)集中僅含有時(shí)間和城市名稱(chēng)兩個(gè)屬性。
9.根據(jù)權(quán)利要求6所述的方法,其特征在于,數(shù)據(jù)采集模塊中話(huà)題信息采集模塊使用微博、博客或論壇提供的搜索功能,將搜索的所有頁(yè)面的純文本信息根據(jù)目標(biāo)信息標(biāo)識(shí)表中對(duì)應(yīng)的該網(wǎng)站的各個(gè)標(biāo)識(shí),提取其中的用戶(hù)名、熱點(diǎn)詞相關(guān)內(nèi)容、IP地址、時(shí)間存入數(shù)據(jù)庫(kù)中。
10.根據(jù)權(quán)利要求6所述的方法,其特征在于,如采用Google Earth進(jìn)行數(shù)據(jù)展示時(shí),將分批數(shù)據(jù)按照批次寫(xiě)成若干kml演示文件,使用OpenKmlFile方法依次讀入每一個(gè)kml演示文件,建立定 時(shí)器讀取文件,完成信息傳播動(dòng)態(tài)演示。
全文摘要
本發(fā)明公布了一種網(wǎng)絡(luò)輿情地理位置實(shí)時(shí)監(jiān)控系統(tǒng)和方法。通過(guò)統(tǒng)一微博、博客、論壇數(shù)據(jù)的獲取方式,相似度分析去重,得到話(huà)題關(guān)鍵詞列表;采取首尾邊界切割技術(shù)提取地理位置和時(shí)間信息,通過(guò)事先建立好的網(wǎng)站結(jié)構(gòu)表獲取首尾邊界,避免程序需要根據(jù)網(wǎng)站結(jié)構(gòu)進(jìn)行調(diào)整的情況出現(xiàn);根據(jù)每一個(gè)關(guān)鍵詞獲取數(shù)據(jù)并進(jìn)行數(shù)據(jù)處理,在GIS地理模型上動(dòng)態(tài)還原其傳播態(tài)勢(shì),分析網(wǎng)民參與人數(shù)。通過(guò)將網(wǎng)絡(luò)地理位置轉(zhuǎn)換成經(jīng)緯度坐標(biāo),實(shí)現(xiàn)網(wǎng)絡(luò)環(huán)境和真實(shí)環(huán)境的映射,對(duì)數(shù)據(jù)按時(shí)間段分批輸入GIS軟件實(shí)現(xiàn)動(dòng)態(tài)演示傳播過(guò)程。
文檔編號(hào)G06F17/30GK103092950SQ20131001435
公開(kāi)日2013年5月8日 申請(qǐng)日期2013年1月15日 優(yōu)先權(quán)日2013年1月15日
發(fā)明者吳渝, 李紅波, 耿文靜, 李強(qiáng) 申請(qǐng)人:重慶郵電大學(xué)