新聞事件的聚類方法及裝置的制造方法
【專利摘要】本發明公開了一種新聞事件的聚類方法及裝置。其中方法包括:挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞;根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構成一個新聞事件;從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。本發明提供的是新聞事件的自動聚類方法,相對于現有技術來說,效率大大提高。另外,本發明一方面考慮到頁面標題之間的關聯性,另一方面考慮到搜索詞的關聯性,利用兩方面的關聯性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
【專利說明】
新聞事件的聚類方法及裝置
技術領域
[0001]本發明涉及互聯網技術領域,具體涉及一種新聞事件的聚類方法及裝置。【背景技術】
[0002]隨著信息化技術的迅速發展,每時每刻都會產生大量的新聞,新聞是指最新發生的、人們未知、欲知、應知的事實的報道,如何將新聞快速而有效的傳播出去,成為當今社會一個非常重要的問題。除了傳統的報紙、電視等可以用來作為新聞傳播的媒介之外,網絡也是新聞傳播的一個重要媒介。
[0003]由于互聯網的開放特征,導致互聯網絡上面的新聞具有異構、冗余、動態多變等特性,描述同一新聞的信息通常分散在不同網站上,表現形式也各不相同。為了能從雜亂無章的數據洪流中快速、準確地找到用戶需要的信息,新聞事件聚類技術是最重要的工具之一。 現有技術提供的新聞事件聚類大多采用人工專題的形式進行全景展現,以人工編輯為主, 效率低下。
【發明內容】
[0004]鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的新聞事件的聚類方法及裝置。
[0005]根據本發明的一個方面,提供了一種新聞事件的聚類方法,包括:
[0006]挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;
[0007]根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞;
[0008]根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構成一個新聞事件;
[0009]從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0010]根據本發明的另一方面,提供了一種新聞事件的聚類裝置,包括:
[0011]數據挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;
[0012]數據查找模塊,適于根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞;
[0013]聚類模塊,適于根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理, 其中,聚為一類的新聞頁面構成一個新聞事件;
[0014]事件描述模塊,適于從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0015]根據本發明提供的新聞事件的聚類方法,在挖掘得到新聞頁面的URL之后,提取新聞頁面的頁面標題;又根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞。將頁面標題和/或搜索詞作為新聞頁面的內容描述信息,根據這些內容描述信息來對新聞頁面進行聚類處理,并且最終得到新聞事件的描述信息。本發明提供的是新聞事件的自動聚類方法,相對于現有技術來說,效率大大提高。另外,本發明一方面考慮到頁面標題之間的關聯性,另一方面考慮到搜索詞的關聯性,利用兩方面的關聯性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
[0016]上述說明僅是本發明技術方案的概述,為了能夠更清楚了解本發明的技術手段, 而可依照說明書的內容予以實施,并且為了讓本發明的上述和其它目的、特征和優點能夠更明顯易懂,以下特舉本發明的【具體實施方式】。【附圖說明】
[0017]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0018]圖1示出了根據本發明一個實施例的新聞事件的聚類方法的流程圖;
[0019]圖2示出了根據本發明另一個實施例的新聞事件的聚類方法的流程圖;
[0020]圖3示出了根據本發明一個實施例的新聞事件的聚類裝置的功能框圖。【具體實施方式】
[0021]下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例,然而應當理解,可以以各種形式實現本公開而不應被這里闡述的實施例所限制。相反,提供這些實施例是為了能夠更透徹地理解本公開,并且能夠將本公開的范圍完整的傳達給本領域的技術人員。
[0022]圖1示出了根據本發明一個實施例的新聞事件的聚類方法的流程圖。如圖1所示, 該方法包括如下步驟:[〇〇23]步驟S101,挖掘新聞頁面的URL,提取新聞頁面的頁面標題。
[0024]首先,通過數據挖掘技術從各大新聞站點爬取新聞頁面的信息,新聞站點是專門提供新聞信息的網站,可以包括國家大型新聞門戶(如新華網、人民網等)、商業門戶(新浪新聞、網易新聞等)、地方新聞門戶(長江網、大洋網等)、以及行業門戶網站;還可以包括一些社交平臺(新浪微博等)。這些新聞站點的新聞信息包羅萬象,用戶訪問量很大,通過挖掘這些新聞站點的新聞頁面,可以獲取較為全面的新聞數據。
[0025]本發明一個實施例中,可預先維護新聞站點列表,其中記錄了幾千個訪問量較高的新聞站點,通過爬蟲定期爬取這些新聞站點的新聞頁面的URL。本發明另一個實施例中, 也可利用客戶端中安裝的客戶端程序收集用戶訪問行為數據,從這些用戶訪問行為數據中篩選出新聞頁面,獲取新聞頁面的URL。在挖掘得到新聞頁面的URL之后,提取這些新聞頁面的頁面標題。
[0026]步驟S102,根據搜索點擊日志數據,查找新聞頁面的URL對應的搜索詞。
[0027]考慮到有些新聞頁面的頁面標題五花八門,但內容是很相似的。舉例來說,“海口" 拆違毆打群眾"區長引咎辭職”、“海口市委:毆打手無寸鐵婦女兒童黨紀國法不容”、“評論-海口召開緊急會議問責“毆打婦孺”事件”這三個新聞頁面的頁面標題相關度不大,但實際上是同一新聞事件的報道。為了能將類似這樣的新聞聚到一類,本發明實施例利用了搜索點擊日志數據,搜索點擊日志數據記錄了用戶使用搜索引擎輸入搜索詞后所選擇點擊的搜索結果URL的相關數據。假如用戶輸入某個搜索詞,得到若干個搜索結果,用戶點擊打開了其中的網頁A和網頁B,則認為網頁A和網頁B都是與搜索詞存在關聯的,是用戶的搜索行為協助建立了這種關聯。[〇〇28]基于上述關聯,在挖掘得到新聞頁面的URL之后,調取搜索引擎服務器提供的搜索點擊日志數據。在搜索點擊日志數據中查找上述挖掘得到的新聞頁面的URL對應的搜索詞, 即查找用戶點擊新聞頁面的URL時所輸入的搜索詞,該搜索詞與新聞頁面的URL存在關聯。 [〇〇29]步驟S103,根據頁面標題和/或搜索詞,對新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構成一個新聞事件。
[0030]在通過步驟S101和步驟S102得到頁面標題和搜索詞后,可以統一將頁面標題和搜索詞看做是新聞頁面的URL的內容描述信息。一個新聞頁面的URL對應一個頁面標題和/或多個搜索詞,一個搜索詞也可對應多個新聞頁面的URL。根據這些內容描述信息來對新聞頁面進行聚類處理,使得聚成一類的新聞頁面構成一個新聞事件。
[0031]步驟S104,從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到新聞事件的描述信息。[〇〇32]在完成聚類后,一個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞又構成了該新聞事件的內容描述,這里包含了多個頁面標題和/或多個搜索詞。這個內容描述顯得很冗長,本發明從其中選取一些有代表性的頁面標題和/或搜索詞作為新聞事件的描述fg息。
[0033]根據本發明提供的新聞事件的聚類方法,在挖掘得到新聞頁面的URL之后,提取新聞頁面的頁面標題;又根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞。將頁面標題和/或搜索詞作為新聞頁面的內容描述信息,根據這些內容描述信息來對新聞頁面進行聚類處理,并且最終得到新聞事件的描述信息。本發明提供的是新聞事件的自動聚類方法,相對于現有技術來說,效率大大提高。另外,本發明一方面考慮到頁面標題之間的關聯性,另一方面考慮到搜索詞的關聯性,利用兩方面的關聯性完成新聞事件的聚類,提升了新聞事件聚類的精確性。
[0034]圖2示出了根據本發明另一個實施例的新聞事件的聚類方法的流程圖。如圖2所示,該方法包括如下步驟:[〇〇35]步驟S201,挖掘新聞頁面的URL,提取新聞頁面的頁面標題。[〇〇36] 步驟S201至步驟S203為數據準備的過程。在步驟S201中,首先通過數據挖掘技術挖掘新聞頁面的URL。在一個實施例中,可預先維護新聞站點列表,其中記錄了幾千個訪問量較高的新聞站點,通過爬蟲定期爬取這些新聞站點的新聞頁面的URL。在另一個實施例中,也可利用客戶端中安裝的客戶端程序收集用戶訪問行為數據,從這些用戶訪問行為數據中篩選出新聞頁面,獲取新聞頁面的URL。[〇〇37] 可選地,在挖掘新聞頁面的URL之后,方法還包括:對新聞頁面的URL進行歸一化或消重處理。具體來說可分幾步進行處理:1)對新聞頁面的URL作歸一化處理,比如一些帶錨點標記的URL會被歸一化處理為無錨點標記;2)將內容分頁的一組URL做首頁歸一處理,比如一組圖片新聞的URL歸一處理為首頁URL。經過上述處理后,提取新聞頁面的頁面標題。
[0038]可選地,在提取新聞頁面的頁面標題之后,方法還包括:去除頁面標題的后綴信息。比如一些新聞頁面的頁面標題往往加有網站或頻道的后綴,本方法可將這些后綴信息去除,留下更具特征性的頁面標題,便于后續聚類處理。
[0039]步驟S202,根據新聞事件的統計事件粒度確定預設時間范圍。
[0040]由于新聞具有較高的時效性要求,而搜索點擊日志數據記錄了很長時間范圍內的用戶搜索點擊數據,因此本方法可根據新聞事件的統計事件粒度確定預設時間范圍,以得到更具時效性的數據。例如,新聞事件的統計事件粒度設置為1天,那么所確定的預設時間范圍為1天內。
[0041]步驟S203,在屬于預設時間范圍的搜索點擊日志數據中查找用戶點擊新聞頁面的 URL時所輸入的搜索詞。[〇〇42]搜索點擊日志數據包含搜索詞、搜索時間以及用戶點擊的搜索結果URL,將所挖掘出的新聞頁面的URL與用戶點擊的搜索結果URL進行匹配,若匹配一致,則查找得到對應的搜索詞和搜索時間。進一步的,查看搜索時間是否屬于預設時間范圍,若是則確定搜索詞即為新聞頁面的URL對應的搜索詞。如果新聞事件的統計事件粒度為1天,則查找1天內的用戶點擊新聞頁面的URL時所輸入的搜索詞;如果新聞事件的統計事件粒度為1小時,則查找1小時內用戶點擊新聞頁面的URL時所輸入的搜索詞。
[0043]可選地,在查找到搜索詞后還需將表達含糊、表達力較弱的搜索詞去掉,留下更具特定新聞指向的搜索詞。本發明中通過制定黑名單規則或正則表達式實現搜索詞的過濾。 具體來說,可從以下幾個方面進行過濾:
[0044](1)去除搜索詞長度小于預設長度值的搜索詞,這類搜索詞含義寬泛,不具指向性,比如,預設長度值為3,去除搜索詞長度小于3的搜索詞。
[0045](2)去除位于黑名單中的搜索詞。可將某些與網站或頻道相關的詞加入黑名單,比如騰訊新聞、新浪體育等。如發現搜索詞落入黑名單,則直接去除。
[0046](3)去除與多個新聞分類的新聞頁面的URL關聯的搜索詞。如果某個搜索詞與很多新聞分類的URL關聯,則考慮去掉。具體規則可以為:如果跨新聞分類的搜索詞的長度小于某個閾值(如8),則去掉;如果大于或等于該閾值,則考慮保留。
[0047](4)去除屬于干擾詞的搜索詞。在搜索點擊日志數據中會發現一些干擾詞,干擾詞是指用戶點擊的URL的具體內容與搜索詞的涵義毫無關聯。一種做法是定時挖掘這類干擾詞,如果一個搜索詞對應的用戶點擊的URL超過15個,即可認定為干擾詞。
[0048]步驟S204,通過計算頁面標題和/或搜索詞的文本相似度,和/或比較搜索詞,對新聞頁面進行聚類處理。
[0049]新聞頁面的聚類是根據頁面標題之間的關聯性和搜索詞之間的關聯性進行聚類的。首先,計算頁面標題和/或搜索詞的文本相似度。根據上面的描述可知,一個新聞頁面的 URL對應一個頁面標題和/或多個搜索詞,按照文本相似度進行聚類,如果兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預設閾值,則將兩個新聞頁面聚為一類。具體的說,將頁面標題和/或搜索詞進行分詞處理,利用詞袋模型將頁面標題和/或搜索詞轉化為向量,通過相似度算法計算向量的相似度,若相似度高于預設閾值,則進行聚類處理。
[0050]除了通過計算文本相似度進行聚類外,還通過比較搜索詞進行聚類。若兩個新聞頁面的URL對應的搜索詞相同,則將兩個新聞頁面聚為一類。[〇〇51 ] 舉例來說,共有5個URL,分別為URL1、URL2、URL3、URL4和URL5,通過計算文本相似度將URL1、URL2和URL3聚為一類,再通過比較搜索詞得知URL1和URL5具有相同的搜索詞,則將URL5也聚到該類別中。最終聚為一類的新聞頁面構成一個新聞事件。[〇〇52]步驟S205,采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為新聞事件的描述信息。
[0053]通過以上的描述可知,一個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞構成了該新聞事件的內容描述,則一個新聞事件具有很多個頁面標題和搜索詞,這個描述顯得很冗長,因此本實施例采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為新聞事件的描述信息。比如,一個簡單的聚類,有兩個新聞頁面的URL,對應的內容描述包括:兩個新聞頁面的URL的頁面標題及一個搜索詞。如果這個搜索詞已經關聯了兩個URL,則可丟掉原來兩個頁面標題,只用這個搜索詞作為新聞事件的描述信息。對于復雜的情況,一個聚類對應多個搜索詞、多個頁面標題,那先選能關聯最多URL的搜索詞或頁面標題,再從剩余中選關聯次最多的搜索詞或頁面標題。選擇過程一直持續到可以將一個聚類中所有的URL 都關聯到,這時,已選擇出來的搜索詞或頁面標題,就構成了描述新聞事件的最小描述子集。
[0054]根據本實施例提供的新聞事件的聚類方法,通過提取新聞頁面的頁面標題,查找新聞頁面對應的搜索詞,計算頁面標題和/或搜索詞的文本相似度,和/或比較搜索詞,對新聞頁面進行聚類處理。該聚類過程既考慮頁面標題之間的關聯性,又考慮搜索詞之間的關聯性,提升了新聞事件聚類的精確性。另外,采用最小覆蓋集算法得到描述新聞事件的最小描述子集,保證了對新聞事件的描述的準確性和全面性。進一步的,在查找搜索點擊日志數據時參考新聞事件的統計事件粒度,滿足了新聞事件的時效性要求。
[0055]圖3示出了根據本發明一個實施例的新聞事件的聚類裝置的功能框圖。如圖3所示,該裝置包括:數據挖掘模塊301,數據查找模塊302,聚類模塊303,以及事件描述模塊 304〇[〇〇56]數據挖掘模塊301,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題。在一個實施例中,裝置預先維護新聞站點列表,其中記錄了幾千個訪問量較高的新聞站點,數據挖掘模塊301通過爬蟲定期爬取這些新聞站點的新聞頁面的URL。在另一個實施例中,利用客戶端中安裝的客戶端程序收集用戶訪問行為數據,數據挖掘模塊301從這些用戶訪問行為數據中篩選出新聞頁面,獲取新聞頁面的URL。[〇〇57]數據查找模塊302,適于根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞。進一步的,數據查找模塊302適于:在搜索點擊日志數據中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。[〇〇58]數據查找模塊302調取搜索引擎服務器提供的搜索點擊日志數據,搜索點擊日志數據記錄了用戶使用搜索引擎輸入搜索詞后所選擇點擊的搜索結果URL的相關數據。在搜索點擊日志數據中查找上述挖掘得到的新聞頁面的URL對應的搜索詞,即查找用戶點擊新聞頁面的URL時所輸入的搜索詞,該搜索詞與新聞頁面的URL存在關聯。
[0059]聚類模塊303,適于根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構成一個新聞事件。
[0060]事件描述模塊304,適于從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0061]進一步的,本裝置還包括:時間粒度控制模塊305,適于根據新聞事件的統計事件粒度確定預設時間范圍。由于新聞具有較高的時效性要求,而搜索點擊日志數據記錄了很長時間范圍內的用戶搜索點擊數據,因此時間粒度控制模塊305可根據新聞事件的統計事件粒度確定預設時間范圍,以得到更具時效性的數據。例如,新聞事件的統計事件粒度設置為1天,那么所確定的預設時間范圍為1天內。數據查找模塊302進一步適于:在屬于所述預設時間范圍的搜索點擊日志數據中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。 搜索點擊日志數據包含搜索詞、搜索時間以及用戶點擊的搜索結果URL,將所挖掘出的新聞頁面的URL與用戶點擊的搜索結果URL進行匹配,若匹配一致,則查找得到對應的搜索詞和搜索時間。進一步的,查看搜索時間是否屬于預設時間范圍,若是則確定搜索詞即為新聞頁面的URL對應的搜索詞。如果新聞事件的統計事件粒度為1天,則查找1天內的用戶點擊新聞頁面的URL時所輸入的搜索詞;如果新聞事件的統計事件粒度為1小時,則查找1小時內用戶點擊新聞頁面的URL時所輸入的搜索詞。
[0062]聚類模塊303進一步適于:通過計算所述頁面標題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對所述新聞頁面進行聚類處理。
[0063]聚類模塊303進一步適于:若兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預設閾值,則將所述兩個新聞頁面聚為一類;和/或,若兩個新聞頁面的URL對應的搜索詞相同,則將所述兩個新聞頁面聚為一類。
[0064]新聞頁面的聚類是根據頁面標題之間的關聯性和搜索詞之間的關聯性進行聚類的。首先,計算頁面標題和/或搜索詞的文本相似度。根據上面的描述可知,一個新聞頁面的 URL對應一個頁面標題和/或多個搜索詞,按照文本相似度進行聚類,如果兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預設閾值,則將兩個新聞頁面聚為一類。具體的說,將頁面標題和/或搜索詞進行分詞處理,利用詞袋模型將頁面標題和/或搜索詞轉化為向量,通過相似度算法計算向量的相似度,若相似度高于預設閾值,則進行聚類處理。
[0065]除了通過計算文本相似度進行聚類外,還通過比較搜索詞進行聚類。若兩個新聞頁面的URL對應的搜索詞相同,則將兩個新聞頁面聚為一類。
[0066]事件描述模塊304進一步適于:采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為所述新聞事件的描述信息。
[0067]—個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞構成了該新聞事件的內容描述,則一個新聞事件具有很多個頁面標題和搜索詞,這個描述顯得很冗長,因此本裝置采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為新聞事件的描述信息。比如,一個簡單的聚類,有兩個新聞頁面的URL,對應的內容描述包括:兩個新聞頁面的URL的頁面標題及一個搜索詞。如果這個搜索詞已經關聯了兩個URL,則可丟掉原來兩個頁面標題,只用這個搜索詞作為新聞事件的描述信息。對于復雜的情況,一個聚類對應多個搜索詞、多個頁面標題,那先選能關聯最多URL的搜索詞或頁面標題,再從剩余中選關聯次最多的搜索詞或頁面標題。選擇過程一直持續到可以將一個聚類中所有的URL都關聯到,這時,已選擇出來的搜索詞或頁面標題,就構成了描述新聞事件的最小描述子集。
[0068]進一步的,本裝置還包括:數據處理模塊306,適于對所述新聞頁面的URL進行歸一化或消重處理;或者,適于去除所述頁面標題的后綴信息;或者,適于去除搜索詞長度小于預設長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個新聞分類的新聞頁面的URL關聯的搜索詞;和/或,去除屬于干擾詞的搜索詞。有關數據處理的具體內容可參見方法實施例的描述。
[0069]根據本實施例提供的新聞事件的聚類裝置,通過提取新聞頁面的頁面標題,查找新聞頁面對應的搜索詞,計算頁面標題和/或搜索詞的文本相似度,和/或比較搜索詞,對新聞頁面進行聚類處理。該聚類過程既考慮頁面標題之間的關聯性,又考慮搜索詞之間的關聯性,提升了新聞事件聚類的精確性。另外,采用最小覆蓋集算法得到描述新聞事件的最小描述子集,保證了對新聞事件的描述的準確性和全面性。進一步的,在查找搜索點擊日志數據時參考新聞事件的統計事件粒度,滿足了新聞事件的時效性要求。[〇〇7〇]在此提供的算法和顯示不與任何特定計算機、虛擬系統或者其它設備固有相關。 各種通用系統也可以與基于在此的示教一起使用。根據上面的描述,構造這類系統所要求的結構是顯而易見的。此外,本發明也不針對任何特定編程語言。應當明白,可以利用各種編程語言實現在此描述的本發明的內容,并且上面對特定語言所做的描述是為了披露本發明的最佳實施方式。
[0071]在此處所提供的說明書中,說明了大量具體細節。然而,能夠理解,本發明的實施例可以在沒有這些具體細節的情況下實踐。在一些實例中,并未詳細示出公知的方法、結構和技術,以便不模糊對本說明書的理解。[〇〇72]類似地,應當理解,為了精簡本公開并幫助理解各個發明方面中的一個或多個,在上面對本發明的示例性實施例的描述中,本發明的各個特征有時被一起分組到單個實施例、圖、或者對其的描述中。然而,并不應將該公開的方法解釋成反映如下意圖:即所要求保護的本發明要求比在每個權利要求中所明確記載的特征更多的特征。更確切地說,如下面的權利要求書所反映的那樣,發明方面在于少于前面公開的單個實施例的所有特征。因此, 遵循【具體實施方式】的權利要求書由此明確地并入該【具體實施方式】,其中每個權利要求本身都作為本發明的單獨實施例。[〇〇73]本領域那些技術人員可以理解,可以對實施例中的設備中的模塊進行自適應性地改變并且把它們設置在與該實施例不同的一個或多個設備中。可以把實施例中的模塊或單元或組件組合成一個模塊或單元或組件,以及此外可以把它們分成多個子模塊或子單元或子組件。除了這樣的特征和/或過程或者單元中的至少一些是相互排斥之外,可以采用任何組合對本說明書(包括伴隨的權利要求、摘要和附圖)中公開的所有特征以及如此公開的任何方法或者設備的所有過程或單元進行組合。除非另外明確陳述,本說明書(包括伴隨的權利要求、摘要和附圖)中公開的每個特征可以由提供相同、等同或相似目的的替代特征來代替。[〇〇74]此外,本領域的技術人員能夠理解,盡管在此所述的一些實施例包括其它實施例中所包括的某些特征而不是其它特征,但是不同實施例的特征的組合意味著處于本發明的范圍之內并且形成不同的實施例。例如,在下面的權利要求書中,所要求保護的實施例的任意之一都可以以任意的組合方式來使用。
[0075]本發明的各個部件實施例可以以硬件實現,或者以在一個或者多個處理器上運行的軟件模塊實現,或者以它們的組合實現。本領域的技術人員應當理解,可以在實踐中使用微處理器或者數字信號處理器(DSP)來實現根據本發明實施例的新聞事件的聚類裝置中的一些或者全部部件的一些或者全部功能。本發明還可以實現為用于執行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣的實現本發明的程序可以存儲在計算機可讀介質上,或者可以具有一個或者多個信號的形式。 這樣的信號可以從因特網網站上下載得到,或者在載體信號上提供,或者以任何其他形式提供。
[0076] 應該注意的是上述實施例對本發明進行說明而不是對本發明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施例。在權利要求中, 不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。[〇〇77]本發明公開了:[〇〇78] A1、一種新聞事件的聚類方法,包括:
[0079]挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;
[0080]根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞;
[0081]根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新聞頁面構成一個新聞事件;
[0082]從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0083]A2、根據A1所述的方法,所述根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞進一步包括:在搜索點擊日志數據中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。
[0084]A3、根據A2所述的方法,所述在搜索點擊日志數據中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞進一步包括:
[0085]根據新聞事件的統計事件粒度確定預設時間范圍;
[0086]在屬于所述預設時間范圍的搜索點擊日志數據中查找用戶點擊所述新聞頁面的 URL時所輸入的搜索詞。
[0087]A4、根據A1或A2或A3所述的方法,所述根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理進一步包括:通過計算所述頁面標題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對所述新聞頁面進行聚類處理。
[0088]A5、根據A4所述的方法,所述通過計算所述頁面標題和/或搜索詞的文本相似度, 和/或比較搜索詞,對所述新聞頁面進行聚類處理進一步包括:
[0089]若兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預設閾值,則將所述兩個新聞頁面聚為一類;
[0090]和/或,若兩個新聞頁面的URL對應的搜索詞相同,則將所述兩個新聞頁面聚為一類。
[0091]A6、根據A1-A5任一項所述的方法,所述從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息進一步包括:
[0092]采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為所述新聞事件的描述信息。[〇〇93]A7、根據A1所述的方法,在所述挖掘新聞頁面的URL之后,所述方法還包括:對所述新聞頁面的URL進行歸一化或消重處理。
[0094]A8、根據A1所述的方法,在所述提取新聞頁面的頁面標題之后,所述方法還包括:去除所述頁面標題的后綴信息。[〇〇95]A9、根據A1所述的方法,在所述查找新聞頁面的URL對應的搜索詞之后,所述方法還包括:
[0096]去除搜索詞長度小于預設長度值的搜索詞;
[0097]和/或,去除位于黑名單中的搜索詞;[〇〇98]和/或,去除與多個新聞分類的新聞頁面的URL關聯的搜索詞;[〇〇99]和/或,去除屬于干擾詞的搜索詞。[〇1〇〇] B10、一種新聞事件的聚類裝置,包括:
[0101]數據挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;
[0102]數據查找模塊,適于根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞;
[0103]聚類模塊,適于根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理, 其中,聚為一類的新聞頁面構成一個新聞事件;
[0104]事件描述模塊,適于從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息。
[0105]B11、根據B10所述的裝置,所述數據查找模塊進一步適于:在搜索點擊日志數據中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。
[0106]B12、根據B11所述的裝置,還包括:時間粒度控制模塊,適于根據新聞事件的統計事件粒度確定預設時間范圍;
[0107]所述數據查找模塊進一步適于:在屬于所述預設時間范圍的搜索點擊日志數據中查找用戶點擊所述新聞頁面的URL時所輸入的搜索詞。
[0108]B13、根據B10或B11或B12所述的裝置,所述聚類模塊進一步適于:通過計算所述頁面標題和/或搜索詞的文本相似度,和/或比較搜索詞,對所述新聞頁面進行聚類處理。
[0109]B14、根據B13所述的裝置,所述聚類模塊進一步適于:若兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預設閾值,則將所述兩個新聞頁面聚為一類;和/或,若兩個新聞頁面的URL對應的搜索詞相同,則將所述兩個新聞頁面聚為一類。
[0110]B15、根據B10-B14任一項所述的裝置,所述事件描述模塊進一步適于:采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為所述新聞事件的描述信息。B16、根據B10所述的裝置,還包括:數據處理模塊,適于對所述新聞頁面的URL進行歸一化或消重處理。
[0112]B17、根據B10所述的裝置,還包括:數據處理模塊,適于去除所述頁面標題的后綴fg息。[〇113]B18、根據B10所述的裝置,還包括:數據處理模塊,適于去除搜索詞長度小于預設長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個新聞分類的新聞頁面的URL關聯的搜索詞;和/或,去除屬于干擾詞的搜索詞。
【主權項】
1.一種新聞事件的聚類方法,包括:挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞;根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中,聚為一類的新 聞頁面構成一個新聞事件;從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中查找得到所述新聞事 件的描述信息。2.根據權利要求1所述的方法,所述根據搜索點擊日志數據,查找所述新聞頁面的URL 對應的搜索詞進一步包括:在搜索點擊日志數據中查找用戶點擊所述新聞頁面的URL時所 輸入的搜索詞。3.根據權利要求2所述的方法,所述在搜索點擊日志數據中查找用戶點擊所述新聞頁 面的URL時所輸入的搜索詞進一步包括:根據新聞事件的統計事件粒度確定預設時間范圍;在屬于所述預設時間范圍的搜索點擊日志數據中查找用戶點擊所述新聞頁面的URL時 所輸入的搜索詞。4.根據權利要求1或2或3所述的方法,所述根據所述頁面標題和/或搜索詞,對所述新 聞頁面進行聚類處理進一步包括:通過計算所述頁面標題和/或搜索詞的文本相似度,和/ 或比較搜索詞,對所述新聞頁面進行聚類處理。5.根據權利要求4所述的方法,所述通過計算所述頁面標題和/或搜索詞的文本相似 度,和/或比較搜索詞,對所述新聞頁面進行聚類處理進一步包括:若兩個新聞頁面的頁面標題和/或搜索詞的文本相似度高于預設閾值,則將所述兩個 新聞頁面聚為一類;和/或,若兩個新聞頁面的URL對應的搜索詞相同,則將所述兩個新聞頁面聚為一類。6.根據權利要求1-5任一項所述的方法,所述從每個新聞事件的所有新聞頁面對應的 頁面標題和/或搜索詞中查找得到所述新聞事件的描述信息進一步包括:采用最小覆蓋集算法,從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞 中查找覆蓋最多新聞頁面的URL的頁面標題和/或搜索詞作為所述新聞事件的描述信息。7.根據權利要求1所述的方法,在所述挖掘新聞頁面的URL之后,所述方法還包括:對所 述新聞頁面的URL進行歸一化或消重處理。8.根據權利要求1所述的方法,在所述提取新聞頁面的頁面標題之后,所述方法還包 括:去除所述頁面標題的后綴信息。9.根據權利要求1所述的方法,在所述查找新聞頁面的URL對應的搜索詞之后,所述方 法還包括:去除搜索詞長度小于預設長度值的搜索詞;和/或,去除位于黑名單中的搜索詞;和/或,去除與多個新聞分類的新聞頁面的URL關聯的搜索詞;和/或,去除屬于干擾詞的搜索詞。10.—種新聞事件的聚類裝置,包括:數據挖掘模塊,適于挖掘新聞頁面的URL,提取所述新聞頁面的頁面標題;數據查找模塊,適于根據搜索點擊日志數據,查找所述新聞頁面的URL對應的搜索詞;聚類模塊,適于根據所述頁面標題和/或搜索詞,對所述新聞頁面進行聚類處理,其中, 聚為一類的新聞頁面構成一個新聞事件;事件描述模塊,適于從每個新聞事件的所有新聞頁面對應的頁面標題和/或搜索詞中 查找得到所述新聞事件的描述信息。
【文檔編號】G06F17/30GK106021418SQ201610319385
【公開日】2016年10月12日
【申請日】2016年5月13日
【發明人】彭力揚, 韓明輝, 王肖磊, 陳勁, 魏自立, 李 浩
【申請人】北京奇虎科技有限公司, 奇智軟件(北京)有限公司