數據處理方法及裝置的制造方法
【專利摘要】本發明公開了一種數據處理方法及裝置,所述方法包括:接收用戶輸入的關鍵詞、邏輯表達式;根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據,所述第一類微博網站為微博主注冊量大于預設閾值的微博網站;采用預設的分析規則對所述微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯;將所述分析結果和/或所述全文檢索索引向所述用戶展示。上述方法能夠解決現有技術中僅通過關鍵詞獲取數據,受到微博客網站的限制,信息覆蓋范圍較小的問題。
【專利說明】
數據處理方法及裝置
技術領域
[0001]本發明涉及計算機技術,具體涉及一種數據處理方法及裝置。
【背景技術】
[0002]近幾年微博客爆發式增長,據不完全統計,國內網民使用較多的幾家微博客網站注冊用戶數已超3億,每秒產生數千條微博信息,高峰期每秒更是會產生數萬條信息,發布自由、信息量大,網狀的人際關系使得微博內容病毒式傳播,微博客異軍突起成為備受追捧的輿論新陣地,其中的言論及話題井噴涌現,對社會輿論導向已產生重大影響。
[0003]隨著海量的微博消息不斷地被創造出來,如何有效監測微博客上有價值的言論及其傳播軌跡,快速準確判別重點微博主的微影響力和人物關系,并從特定內容、微博主、話題等多角度挖掘和分析,是擺在微博客輿情監測和分析工作面前的一個新的難題。
[0004]目前,關于微博客監測和分析的方式主要是在某一微博網站中實現簡單的關鍵詞監測,無法實現微博主監測、話題跟蹤等更深入的功能;僅通過關鍵詞獲取數據,受到微博客網站的限制,信息覆蓋范圍較小。
【發明內容】
[0005]針對現有技術中的缺陷,本發明提供了一種數據處理方法及裝置,解決現有技術中僅通過關鍵詞獲取數據,受到微博客網站的限制,信息覆蓋范圍較小的問題。
[0006]第一方面,本發明提供一種數據處理方法,包括:
[0007]接收用戶輸入的關鍵詞、邏輯表達式;
[0008]根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據,所述第一類微博網站為微博主注冊量大于預設閾值的微博網站,所述微博數據包括:原創信息、轉發信息和評論信息;
[0009]采用預設的分析規則對所述微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯;
[0010]將所述分析結果和/或所述全文檢索索引向所述用戶展示。
[0011]可選地,所述接收用戶輸入的關鍵詞、邏輯表達式,包括:
[0012]接收用戶輸入的關鍵詞、邏輯表達式和微博主信息,所述微博主信息包括:微博主標識和/或微博主昵稱;
[0013]相應地,根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取微博數據;
[0014]根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的微博數據。
[0015]可選地,所述根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的微博數據,包括:
[0016]根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的第一微博數據,所述第一微博數據為與所述微博主信息相關的所有第一類微博網站中的數據;
[0017]根據所述第一微博數據,確定與所述關鍵詞對應的衍生詞/熱詞;
[0018]根據所述衍生詞/熱詞及所述邏輯表達式,在第一類微博網站和第二類微博網站獲取預設時間段內的第二微博數據,所述第二微博數據為與所述衍生詞/熱詞對應的微博數據;
[0019]所述微博數據包括所述第一微博數據和所述第二微博數據;所述第一微博數據和第二微博數據包括原創信息、轉發信息、評論信息、發布時間、類型、轉發數量、評論數量和/或涉及的微博主標識。
[0020]可選地,所述采用預設的分析規則對所述微博數據進行分析之前,所述方法還包括:
[0021]采用預設的篩選分類規則,對所述微博數據進行篩選,并對篩選后的微博數據進行分類,獲得分類后的微博數據;
[0022]和/ 或,
[0023]在各類別數據庫中存儲對應類別的分類后的微博數據。
[0024]相應地,采用預設的分析規則對所述微博數據進行分析,包括:
[0025]采用預設的分析規則對分類后的微博數據進行分析。
[0026]可選地,根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據,包括:
[0027]根據所述關鍵詞和所述邏輯表達式,周期性的在第一類微博網站獲取預設時間段內的微博數據。
[0028]可選地,所述分析結果包括下述的一項或多項:
[0029]與關鍵詞對應的輿情的言論傾向、所述輿情的發展態勢、關鍵詞對應至少一個信息的傳播軌跡、與關鍵詞對應的大V微博主的數量和分布區域,以及所述大V微博主的粉絲增長區域和粉絲分布區域,所述大V微博主的層次分布拓撲結構。
[0030]可選地,所述第一類微博網站包括:
[0031 ] 新浪微博、騰訊微博、搜狐微博、網易微博和推特Twitter和微信。
[0032]第二方面,本發明提供一種數據處理裝置,包括:
[0033]接收單元,用于接收用戶輸入的關鍵詞、邏輯表達式;
[0034]微博數據獲取單元,用于根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據,所述第一類微博網站為微博主注冊量大于預設閾值的微博網站;
[0035]分析單元,用于采用預設的分析規則對所述微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯;
[0036]展示單元,用于將所述分析結果和/或所述全文檢索索引向所述用戶展示。
[0037]可選地,所述接收單元,具體用于
[0038]接收用戶輸入的關鍵詞、邏輯表達式和微博主信息,所述微博主信息包括:微博主標識和/或微博主昵稱;
[0039]微博數據獲取單元,具體用于
[0040]根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的微博數據。
[0041 ] 可選地,所述微博數據獲取單元,具體用于
[0042]根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的第一微博數據,所述第一微博數據為與所述微博主信息相關的所有第一類微博網站中的數據;
[0043]根據所述第一微博數據,確定與所述關鍵詞對應的衍生詞/熱詞;
[0044]根據所述衍生詞/熱詞及所述邏輯表達式,在第一類微博網站和第二類微博網站獲取預設時間段內的第二微博數據,所述第二微博數據為與所述衍生詞/熱詞對應的微博數據;
[0045]所述微博數據包括所述第一微博數據和所述第二微博數據;所述第一微博數據和第二微博數據包括原創信息、轉發信息、評論信息、發布時間、類型、轉發數量、評論數量和/或涉及的微博主標識。
[0046]由上述技術方案可知,本發明的數據處理方法及裝置,通過接收用戶輸入的關鍵詞和邏輯表達式,進而在微博網站中獲取用戶關注的微博數據,進而對微博數據分析獲得分析結果,并將分析結果展示,可較好的解決現有技術中僅通過關鍵詞獲取數據,受到微博客網站的限制,信息覆蓋范圍較小的問題。
【附圖說明】
[0047]圖1為本發明一實施例提供的數據處理方法的流程示意圖;
[0048]圖2為本發明另一實施例提供的數據處理方法的流程示意圖;
[0049]圖3為本發明一實施例提供的數據處理裝置的結構示意圖;
[0050]圖4為本發明一實施例提供的數據處理裝置的結構示意圖;
[0051]圖5為本發明另一實施例提供的數據處理裝置的結構示意圖。
【具體實施方式】
[0052]下面結合附圖,對發明的【具體實施方式】作進一步描述。以下實施例僅用于更加清楚地說明本發明的技術方案,而不能以此來限制本發明的保護范圍。本發明實施例中所使用的“第一”、“第二”僅為更清楚的說明本申請的內容,不具有特定含義,也不限定任何內容。
[0053]本發明實施例中較好的擴大了微博客輿情監測及分析的數據覆蓋范圍,將多種采集方式相結合,利用微博客網站的開放平臺和網頁抓取技術,實現對更多微博客數據的采集。
[0054]圖1示出了一實施例提供的數據處理方法的流程示意圖,如圖1所示,本實施例的數據處理方法如下所述。
[0055]101、接收用戶輸入的關鍵詞、邏輯表達式;
[0056]102、根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據。
[0057]舉例來說,可采用網頁抓取方式在第一類微博網站抓取符合預設時間段的微博數據。
[0058]在本實施例中,所述第一類微博網站為微博主注冊量大于預設閾值的微博網站;例如,新浪微博、騰訊微博、搜狐微博、網易微博和推特Twitter等。
[0059]所述微博數據可包括原創信息、轉發信息、評論信息、發布時間、類型、轉發數量、評論數量和/或涉及的微博主標識等。本實施例不對其進行限定,均為舉例說明。
[0060]在具體應用中,上述步驟可具體為:根據所述關鍵詞和所述邏輯表達式,周期性的在第一類微博網站獲取預設時間段內的微博數據。
[0061]103、采用預設的分析規則對所述微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯。
[0062]例如,可采用自然數據處理算法對所述微博數據進行分析,獲得分析結果。
[0063]104、將所述分析結果和/或所述全文檢索索引向所述用戶展示。
[0064]在實際應用中,由于獲取分析結果的時間較長,由此,在獲取到分析結果和/或所述全文檢索索引之后,向用戶發送提示有分析結果和/或全文檢索索引的提示信息,以使用戶根據提示信息查看分析結果和/或全文檢索索引。
[0065]或者,在另一例子中,可在用戶界面彈出獲得分析結果和/或所述全文檢索索引的提示信息,以便用戶根據提示信息查看分析結果和/或全文檢索索引。
[0066]或者,在第三種例子中,可在用戶界面直接展示部分的分析結果以及全文檢索索引的部分內容。
[0067]上述向用戶展示分析結果和全文檢索索引的內容僅為舉例,本實施例不對其進行限定。
[0068]舉例來說,分析結果可包括下述的一項或多項:
[0069]與關鍵詞對應的輿情的言論傾向、所述輿情的發展態勢、關鍵詞對應至少一個信息的傳播軌跡、與關鍵詞對應的大V微博主的數量和分布區域,以及所述大V微博主的粉絲增長區域和粉絲分布區域,所述大V微博主的層次分布拓撲結構。
[0070]在一種具體的例子中,上述數據處理方法的步驟101還可為下述的圖中未示出的步驟1la:
[0071]101a、接收用戶輸入的關鍵詞、邏輯表達式和微博主信息,所述微博主信息包括:微博主標識和/或微博主昵稱;
[0072]相應地,步驟102還可為下述的圖中未示出的步驟102a:
[0073]102a、根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的微博數據。
[0074]本實施例的數據處理方法,通過接收用戶輸入的關鍵詞和邏輯表達式,進而在微博網站中獲取用戶關注的微博數據,進而對微博數據分析獲得分析結果,并將分析結果展示,可較好的解決現有技術中僅通過關鍵詞獲取數據,受到微博客網站的限制,信息覆蓋范圍較小的問題。
[0075]上述方法通過對用戶所關心的微博主、微博和話題持續監控,定期分析其變化規律,為引領輿論導向,提供科學有效的依據。上述方法還可針對事務的發展趨勢,及時制定解決方案,實現安全便捷的實時調控,可擴大微博客輿情監測及分析的數據覆蓋范圍,將多種采集方式相結合,利用微博客網站的開放平臺和網頁抓取技術,實現對更多微博客數據的采集。
[0076]圖2示出了一實施例提供的數據處理方法的流程示意圖,如圖2所示,本實施例的數據處理方法如下所述。
[0077]201、接收用戶輸入的關鍵詞、邏輯表達式和微博主信息。
[0078]本實施例中,微博主信息可包括:微博主標識和/或微博主昵稱、是否屬于認證微博主等等。
[0079]202、根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的第一微博數據,所述第一微博數據為與所述微博主信息相關的所有第一類微博網站中的數據;
[0080]在實際應用中,可定期如周期性的在第一類微博網站獲取預設時間段內的微博數據。
[0081]也就是說,由于微博轉發、輿情發展具有時間持續性,為此,獲取微博數據可持續的獲取微博網站中的微博數據。
[0082]203、根據所述第一微博數據,確定與所述關鍵詞對應的衍生詞/熱詞;
[0083]204、根據所述衍生詞/熱詞及所述邏輯表達式,在第一類微博網站和第二類微博網站獲取預設時間段內的第二微博數據,所述第二微博數據為與所述衍生詞/熱詞對應的微博數據;
[0084]在本實施例中,微博數據可包括所述第一微博數據和所述第二微博數據;所述第一微博數據和第二微博數據包括原創信息、轉發信息、評論信息、發布時間、類型、轉發數量、評論數量和/或涉及的微博主標識。
[0085]通常,第一類微博網站可包括:新浪微博、騰訊微博、搜狐微博、網易微博和推特Twitter ;第二類微博網站可包括soopat微博等,本實施例僅為舉例說明,不對其限定。
[0086]205、采用預設的篩選分類規則,對所述微博數據進行篩選,并對篩選后的微博數據進行分類,獲得分類后的微博數據。
[0087]在具體應用中,可將重復的微博數據的信息篩選統計,以及對垃圾數據進行過濾,進而提尚后續分析的效率。
[0088]206、在各類別數據庫中存儲對應類別的分類后的微博數據。
[0089]207、采用預設的分析規則對分類后的微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯。
[0090]208、將所述分析結果和/或所述全文檢索索引向所述用戶展示。
[0091]本實施例中的分析結果可包括下述的一項或多項:
[0092]與關鍵詞對應的輿情的言論傾向、所述輿情的發展態勢、關鍵詞對應至少一個信息的傳播軌跡、與關鍵詞對應的大V微博主的數量和分布區域,以及所述大V微博主的粉絲增長區域和粉絲分布區域,所述大V微博主的層次分布拓撲結構。
[0093]本實施例的數據處理方法,可較好的解決現有技術中僅通過關鍵詞獲取數據,受至IJ微博客網站的限制,信息覆蓋范圍較小的問題。
[0094]圖3示出了一實施例提供的數據處理裝置的結構示意圖,如圖3所示,本實施例的數據處理裝置包括:接收單元31、微博數據獲取單元32、分析單元33和展示單元34 ;
[0095]接收單元31用于接收用戶輸入的關鍵詞、邏輯表達式;
[0096]微博數據獲取單元32用于根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據,所述第一類微博網站為微博主注冊量大于預設閾值的微博網站,例如新浪微博、騰訊微博、搜狐微博、網易微博和Twitter等;
[0097]分析單元33用于采用預設的分析規則對所述微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯;
[0098]展示單元34用于將所述分析結果和/或所述全文檢索索引向所述用戶展示。
[0099]本實施例中的分析結果可包括下述的一項或多項:
[0100]與關鍵詞對應的輿情的言論傾向、所述輿情的發展態勢、關鍵詞對應至少一個信息的傳播軌跡、與關鍵詞對應的大V微博主的數量和分布區域,以及所述大V微博主的粉絲增長區域和粉絲分布區域,所述大V微博主的層次分布拓撲結構。
[0101]在一種具體的例子中,所述接收單元31可具體用于,接收用戶輸入的關鍵詞、邏輯表達式和微博主信息,所述微博主信息包括:微博主標識和/或微博主昵稱;
[0102]微博數據獲取單元32可具體用于,根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的微博數據。
[0103]在具體應用中,所述微博數據獲取單元32具體用于,根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的第一微博數據,所述第一微博數據為與所述微博主信息相關的所有第一類微博網站中的數據;
[0104]根據所述第一微博數據,確定與所述關鍵詞對應的衍生詞/熱詞;
[0105]根據所述衍生詞/熱詞及所述邏輯表達式,在第一類微博網站和第二類微博網站獲取預設時間段內的第二微博數據,所述第二微博數據為與所述衍生詞/熱詞對應的微博數據;
[0106]所述微博數據包括所述第一微博數據和所述第二微博數據;所述第一微博數據和第二微博數據包括原創信息、轉發信息、評論信息、發布時間、類型、轉發數量、評論數量和/或涉及的微博主標識。
[0107]可選地,本實施例的數據處理裝置還可包括圖中未示出的篩選分類單元,該篩選分類單元,用于采用預設的篩選分類規則,對所述微博數據進行篩選,并對篩選后的微博數據進行分類,獲得分類后的微博數據,相應地,分析單元33可采用預設的分析規則對分類后的微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯。
[0108]本實施例的數據處理裝置,能夠實現微博客特定內容監測、重點微博主挖掘、熱門話題追蹤、人物關系繪制、傳播軌跡分析和輿情數據展示等多角度的微博客監測及分析,可較好的解決現有技術中僅通過關鍵詞獲取數據,受到微博客網站的限制,信息覆蓋范圍較小的問題。
[0109]上述的數據處理裝置可執行前述圖1和圖2所示的方法流程示意圖,能夠擴大微博客輿情監測及分析的數據覆蓋范圍,將多種采集方式相結合,利用微博客網站的開放平臺和網頁抓取技術,實現對更多微博數據的采集。
[0110]圖4示出了本發明另一實施例提供的數據處理裝置的結構示意圖,如圖4所示,本實施例的數據處理裝置可包括數據采集模塊41、海量數據存儲和分析模塊42、數據檢索模塊43、分析結果管理模塊44、應用系統模塊45、配置管理模塊46。
[0111]其中,所述數據采集模塊41可用于網頁模擬登陸,如通過賬號模擬真實用戶登陸各微博網站,采集網站中相關的信息,例如關鍵詞采集,如向各微博網站(如上所述的第一類微博網站)發送查詢請求獲取查詢結果頁面;又例如網頁數據提取,提取網頁中的各項微博信息的元數據,包括微博信息、微博主信息和圖片;還可以API采集,如通過微博客的開放平臺采集關注用戶的微博;
[0112]在具體應用中所述數據采集模塊41還包括:賬戶管理/輪詢調度單元,該賬戶管理/輪詢調度單元用于控制每個賬號向開放平臺發送請求的頻率。
[0113]所述海量數據存儲和分析模塊42可用于分布式存儲,例如對原始微博數據采用列存儲的方式,對不變的元數據采用JSON格式封裝并壓縮;
[0114]所述海量數據存儲和分析模塊42還用于數據獲取,如根據微博唯一標識快速批量獲取微博原始數據;
[0115]所述海量數據存儲和分析模塊42還用于數據更新,如實時更新指定微博的轉發數評論數;
[0116]所述海量數據存儲和分析模塊42還用于分布式挖掘,例如采用自然語言處理算法利用并行運算對微博數據進行分析和挖掘。
[0117]所述數據檢索模塊43可用于通過分布式全文檢索技術實現對海量微博數據多域的檢索,具體地,用于索引服務,如接收外部傳入的數據,對各域建立索引,并和原有索引庫進行合并;還用于檢索服務,對外提供各屬性項的復雜條件檢索。也就是說,分布式索引控制服務接收需要建立索引的數據,利用負載均衡技術分發到不同的子集群中,子集群中的索引服務根據獲取到的數據創建索引;檢索服務,索引庫數據在不同的服務器上進行副本備份,通過檢索服務器將檢索結果返回給檢索控制服務,由分布式檢索控制服務對結果進行歸并處理后呈現給應用層,如圖5所示,最終實現分布式檢索。
[0118]所述分析結果管理模塊44用于存儲并管理各種分析方法所產生的結果,對結果較多的數據進行分區管理,并對歷史數據定期淘汰。
[0119]所述應用系統模塊45可用于特定內容監測,如通過給定特征詞庫,系統利用檢索模塊自動對采集到的微博客信息增量式篩選和分析,準確的發現信息中的關注內容,存入專用數據庫,自動識別庫中相同或相似的信息,通過界面把相關信息提供給用戶,實現對特定內容的監測和處理;
[0120]所述應用系統模塊45還用于重點博主挖掘,對重點關注微博主近期所發的微博進行分析,了解意見領袖的言論傾向,對微博主提供多維度的分析,包括微博發布規律、原發轉發比、受眾響應狀態、粉絲增長趨勢、粉絲地域分布、主要關注點、人物關系等;
[0121]所述應用系統模塊45還用于熱門話題追蹤,結合微博自身特征及短文本分析的相關方法,利用海量數據存儲和分析模塊的功能提取出當前網民關注的熱點話題,對重要度較高的話題自動追蹤其演化趨勢,包括信息溯源、評論變化等,對網站、時間、發布方式、地域、意見領袖等多角度進行分析;
[0122]所述應用系統模塊45還用于人物關系繪制,根據微博主之間的關系,自動挖掘其中的人際網絡,生成指定微博主的人物關系圖,以圖形化的方式進行展現;
[0123]所述應用系統模塊45還用于傳播軌跡分析,構建微博信息的傳播路徑,對微博的傳播軌跡、人物對傳播的影響進行分析,挖掘傳播規律及信息傳播過程中起放大作用的傳播主體、傳播時間上的軌跡、引發傳播量突變的賬戶、時間節點等關鍵因素,通過圖形化的方式直觀呈現。
[0124]所屬配置管理模塊46可用于關注規則配置,管理用戶所關心的特定內容對應的邏輯表達式規則;
[0125]所屬配置管理模塊46還用于關注用戶配置,分類別管理用戶關心的重點微博主;用戶和權限管理,管理使用本系統的用戶及權限。
[0126]上述的數據處理裝置具體實現中,可通過配置管理模塊46建立各使用用戶,在用戶登錄數據處理裝置之后,通過配置管理模塊46配置該用戶所關心的業務規則,包括關注規則和關注微博主;此時,數據采集模塊41可采用用戶配置的關注規則和關注微博主在境內外主流微博網站獲取微博數據,數據采集模塊41可采用多種采集方式相結合獲取微博數據。
[0127]進一步地,通過海量數據存儲和分析模塊42對采集到的數據進行分布式存儲管理和智能分析,并更新微博的最新轉發數評論數。數據檢索模塊43對采集的數據建立索弓I,提供全文檢索功能。分析結果管理模塊44對智能分析的結果進行存儲。應用系統模塊實時分析數據處理裝置中獲取的數據,提取用戶所關心的輿情信息,通過多種方式進行展不O
[0128]可選地,數據處理裝置還可根據用戶輸入的熱門話題的關鍵詞自動獲取關鍵詞的衍生詞/熱詞,進而進一步采用衍生詞/熱詞獲取相關的微博數據,以擴展獲取的微博數據,進而可針對性的獲取更多的有效微博數據,輔助用戶判斷微博熱點的真實輿情價值。
[0129]舉例來說,前述的關注規則可指用戶用于發現特定內容的關鍵詞邏輯表達式,關注微博可指用戶重點關心的微博客的使用者。
[0130]本實施例中獲取的微博數據可指微博的內容、發布時間、URL、類型、轉發數、評論數、作者昵稱、作者Id等。
[0131]前述的智能分析可包括提取關鍵詞、自動分類、自動發現熱點話題、垃圾信息過濾等。
[0132]分析結果管理模塊44對智能分析的結果進行存儲,具體地,分析結果管理模塊44可充分利用數據庫表空間,建立多個數據文件,部署到不同的物理磁盤或RAID盤陣,以提高對分析結果的讀取和寫入能力。
[0133]所述應用系統模塊45可實時分析最新采集到的微博數據,再和原有的分析結果進行綜合計算,最終得到基于全部數據的分析結果。
[0134]上述數據處理裝置有效擴大監測范圍,對熱點話題、熱點微博持續追蹤,對重點博主深度分析,包括人物關系繪制、傳播軌跡分析、熱門話題趨勢追蹤等,以圖文結合的方式展現給使用用戶,從而輔助用戶更好地實現對微博客的監測及分析。
[0135]本發明的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。
[0136]類似地,應當理解,為了精簡本發明公開并幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋呈反映如下意圖:即所要求保護的本發明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。因此,遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發明的單獨實施例。
[0137]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0138]本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處理器上運行的軟件模塊實現,或者以它們的組合實現。應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
[0139]最后應說明的是:以上各實施例僅用以說明本發明的技術方案,而非對其限制;盡管參照前述各實施例對本發明進行了詳細的說明,本領域的普通技術人員應當理解:其依然可以對前述各實施例所記載的技術方案進行修改,或者對其中部分或者全部技術特征進行等同替換;而這些修改或者替換,并不使相應技術方案的本質脫離本發明各實施例技術方案的范圍,其均應涵蓋在本發明的權利要求和說明書的范圍當中。
【主權項】
1.一種數據處理方法,其特征在于,包括: 接收用戶輸入的關鍵詞、邏輯表達式; 根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據,所述第一類微博網站為微博主注冊量大于預設閾值的微博網站,所述微博數據包括:原創信息、轉發信息和評論信息; 采用預設的分析規則對所述微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯; 將所述分析結果和/或所述全文檢索索引向所述用戶展示。2.根據權利要求1所述的方法,其特征在于,所述接收用戶輸入的關鍵詞、邏輯表達式,包括: 接收用戶輸入的關鍵詞、邏輯表達式和微博主信息,所述微博主信息包括:微博主標識和/或微博主昵稱; 相應地,根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取微博數據; 根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的微博數據。3.根據權利要求2所述的方法,其特征在于,所述根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的微博數據,包括: 根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的第一微博數據,所述第一微博數據為與所述微博主信息相關的所有第一類微博網站中的數據; 根據所述第一微博數據,確定與所述關鍵詞對應的衍生詞/熱詞; 根據所述衍生詞/熱詞及所述邏輯表達式,在第一類微博網站和第二類微博網站獲取預設時間段內的第二微博數據,所述第二微博數據為與所述衍生詞/熱詞對應的微博數據; 所述微博數據包括所述第一微博數據和所述第二微博數據;所述第一微博數據和第二微博數據包括原創信息、轉發信息、評論信息、發布時間、類型、轉發數量、評論數量和/或涉及的微博主標識。4.根據權利要求1所述的方法,其特征在于,所述采用預設的分析規則對所述微博數據進行分析之前,所述方法還包括: 采用預設的篩選分類規則,對所述微博數據進行篩選,并對篩選后的微博數據進行分類,獲得分類后的微博數據; 和/或, 在各類別數據庫中存儲對應類別的分類后的微博數據。 相應地,采用預設的分析規則對所述微博數據進行分析,包括: 采用預設的分析規則對分類后的微博數據進行分析。5.根據權利要求1所述的方法,其特征在于,根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據,包括: 根據所述關鍵詞和所述邏輯表達式,周期性的在第一類微博網站獲取預設時間段內的微博數據。6.根據權利要求1所述的方法,其特征在于,所述分析結果包括下述的一項或多項: 與關鍵詞對應的輿情的言論傾向、所述輿情的發展態勢、關鍵詞對應至少一個信息的傳播軌跡、與關鍵詞對應的大V微博主的數量和分布區域,以及所述大V微博主的粉絲增長區域和粉絲分布區域,所述大V微博主的層次分布拓撲結構。7.根據權利要求1所述的方法,其特征在于,所述第一類微博網站包括: 新浪微博、騰訊微博、搜狐微博、網易微博和推特Twitter。8.一種數據處理裝置,其特征在于,包括: 接收單元,用于接收用戶輸入的關鍵詞、邏輯表達式; 微博數據獲取單元,用于根據所述關鍵詞和所述邏輯表達式,在第一類微博網站獲取預設時間段內的微博數據,所述第一類微博網站為微博主注冊量大于預設閾值的微博網站; 分析單元,用于采用預設的分析規則對所述微博數據進行分析,獲取分析結果,并建立所述微博數據的全文檢索索引,所述全文檢索索引與所述分析結果關聯; 展示單元,用于將所述分析結果和/或所述全文檢索索引向所述用戶展示。9.根據權利要求8所述的裝置,其特征在于,所述接收單元,具體用于 接收用戶輸入的關鍵詞、邏輯表達式和微博主信息,所述微博主信息包括:微博主標識和/或微博主昵稱; 微博數據獲取單元,具體用于 根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的微博數據。10.根據權利要求9所述的裝置,其特征在于,所述微博數據獲取單元,具體用于 根據所述關鍵詞和所述邏輯表達式、所述微博主信息,在第一類微博網站獲取預設時間段內的第一微博數據,所述第一微博數據為與所述微博主信息相關的所有第一類微博網站中的數據; 根據所述第一微博數據,確定與所述關鍵詞對應的衍生詞/熱詞; 根據所述衍生詞/熱詞及所述邏輯表達式,在第一類微博網站和第二類微博網站獲取預設時間段內的第二微博數據,所述第二微博數據為與所述衍生詞/熱詞對應的微博數據; 所述微博數據包括所述第一微博數據和所述第二微博數據;所述第一微博數據和第二微博數據包括原創信息、轉發信息、評論信息、發布時間、類型、轉發數量、評論數量和/或涉及的微博主標識。
【文檔編號】G06F17/30GK105989176SQ201510098394
【公開日】2016年10月5日
【申請日】2015年3月5日
【發明人】張丹, 楊建武
【申請人】北大方正集團有限公司, 北京大學, 北京北大方正電子有限公司