專利名稱:基于排名網站的互聯網排行榜抓取系統的制作方法
技術領域:
本發明涉及一種互聯網數據挖掘技術領域的系統,具體是一種基于排名網站的互聯網排行榜抓取系統。
背景技術:
互聯網是目前世界上最龐大的信息源,它包含著海量的數據和知識。這些信息可以有多種方式在網頁上予以呈現,如純文本,圖片,列表以及表格等。其中,后兩者相對于其他方式具有結構化的組織形式,因而其包含的信息更有實際應用價值。因此,網絡列表及表格的提取和處理已經成為互聯網和數據挖掘領域一個重要的課題。排行榜(英文名Top_k List)是一種特殊的網絡列表。其定義為對一個領域根據固定的標準進行的固定個數的排名。典型的例子有,“世界上最有影響力的20個科學家”,“北京最高的十棟樓”等等。領域可以包括各種概念(如,汽車、城市、作家等等);標準可以是根據主觀的評價(如最好的,最美的),也可以是基于客觀的事實(如最高的,最快的等等);固定個數是指排名列表的表項數目是由列表標題中指定的(如十大,前20等等)。包含排行榜內容的網頁被稱為排名網頁,典型的排名網頁包括“世界十大海灘”,“你不能錯過的十部經典電影”等。相比于一般的網絡列表,網絡排行榜具有更高的價值。首先,網絡排行榜數量龐大,種類豐富。據估計,目前僅英文網站中就包含超過200萬個網絡排行榜,這個數字還在隨著網絡的快速發展急速生長。第二,網絡排行榜的質量很高。普通的網絡列表只有很少一部分包含有用的信息,并且沒有固定的含義。相比之下,排行榜語義清楚,形式規范,信息量更大。第三,排行榜包含排名的信息,因此我們可以比較一個榜單中不同位置上的列表項的優劣。最后,排行榜的信息更有影響力,一般而言,排行榜的作者或編輯往往是該領域的專家,因此享有一定的權威;另一方面,人們對排名的信息更感興趣。因此,網絡排行榜的批量獲取和分析是一項非常有意義的工作,其數據可以用來幫助建立一個知識數據庫(knowledge base)或者自動問題回答系統(Q/A machine)。然而,目前針對這方面的工作相對較少,而現有的網絡表格抓取系統并不能有效地用來處理排行榜網頁。
發明內容
針對現有技術中的缺陷,本發明的目的是提供一種基于排名網站的互聯網排行榜抓取系統。根據本發明的一個方面,提供一種基于排名網站的互聯網排行榜抓取系統,包括依次連接的網頁預處理模塊、網頁標題識別模塊、候選列表抓取模塊、排行榜選取模塊以及排行榜內容后期處理模塊,候選列表抓取模塊的輸入為網頁預處理模塊和網頁標題識別模塊的輸出,其中網頁預處理模塊,用于將HTML格式的輸入網頁解析成為基于文件物件模型的樹狀數據結構,以便提供給網頁標題識別模塊和候選列表抓取模塊進行后續處理;網頁標題識別模塊,用于對網頁標題進行語法分析,然后用基于機器學習方法生成的模型進行分類,判斷該網頁是否為一個排名網頁,其中如果判斷該網頁為普通網頁,則系統輸出判斷結果,中斷退出;如果判斷該網頁為排名網頁,則提取該網頁中排行榜的領域、標準、列表項個數和時間地點信息,并提供給候選列表抓取模塊進行后續處理;候選列表抓取模塊,用于在網頁預處理模塊中得到的樹狀數據結構進行基于HTML標簽路徑的聚類分析,獲得多個候選列表,候選列表的列表項個數應當與網頁標題識別模塊中提取到的列表項個數相同,如果沒有合適的候選列表,則判定該排行榜抓取失敗,系統輸結果,中斷退出,否則由排行榜選取模塊進行后續處理;排行榜選取模塊,用于通過多種評價標準對多個候選列表進行打分,并選擇得分最高的候選列表為該輸入網頁的排行榜列表,評價標準包括網頁標題的關聯程度、在網頁中的空間位置、規則模式匹配;排行榜內容后期處理模塊,用于對排行榜選取模塊選取獲得的排行榜內容進行進一步處理,將每一個列表項的實例名與其對應的屬性特征來進行分離,最終得到一個關系數據表。優選地,網頁標題識別模塊在對網頁進行分類之前,對標題進行預處理,預處理具體為用正則表達式匹配的方式,去掉標題中的次要部分,確定標題的主要部分;對主要部分進行英文詞法分析,獲得單詞序列中每一個單詞的詞性和原型,并將單詞、詞性、原型構成特征表格。優選地,網頁標題識別模塊包括分類器,分類器利用事先訓練好的模型將對輸入的特征表格進行分析,其結果為對輸入單詞序列對應的標注序列,其中K代表列表項的個數,F代表排行榜的領域,C表示排行榜的標準,對于分類結果的處理分為兩種情況如果標注序列中包含K,則說明輸入網頁為一個排名網頁,則需要將結果整理為〈個數,領域,標準,時間,地點 > 的五元組的形式,并觸發候選列表抓取模塊執行;否則判定該網頁非排名網頁,系統退出。優選地,分類器的模型是基于條件隨機域訓練獲得的。優選地,HTML標簽路徑的含義為,在樹狀數據結構中,任意一個節點到根節點的路徑,具體表示為路徑中各個節點的HTML標簽的連接;基于HTML標簽路徑的聚類分析由通過對網頁中所有節點進行遍歷,將具有相同標簽路徑的節點進行聚類,形成多個類,其中,包含K個節點的類即為候選的排行榜列表,K為網頁標題識別模塊中得到的排行榜列表項個數;如果沒有找到任何候選列表,則判定列表抓取失敗,系統退出。優選地,網頁標題的關聯程度,具體為根據網頁中排行榜所涉及的領域,得到該領域的全部或者部分實例,其中,具體對每一個候選列表L的計算公式為
權利要求
1.一種基于排名網站的互聯網排行榜抓取系統,其特征在于,包括依次連接的網頁預處理模塊、網頁標題識別模塊、候選列表抓取模塊、排行榜選取模塊以及排行榜內容后期處理模塊,候選列表抓取模塊的輸入為網頁預處理模塊和網頁標題識別模塊的輸出,其中 網頁預處理模塊,用于將HTML格式的輸入網頁解析成為基于文件物件模型的樹狀數據結構,以便提供給網頁標題識別模塊和候選列表抓取模塊進行后續處理; 網頁標題識別模塊,用于對網頁標題進行語法分析,然后用基于機器學習方法生成的模型進行分類,判斷該網頁是否為一個排名網頁,其中如果判斷該網頁為普通網頁,則系統輸出判斷結果,中斷退出;如果判斷該網頁為排名網頁,則提取該網頁中排行榜的領域、標準、列表項個數和時間地點信息,并提供給候選列表抓取模塊進行后續處理; 候選列表抓取模塊,用于在網頁預處理模塊中得到的樹狀數據結構進行基于HTML標簽路徑的聚類分析,獲得多個候選列表,候選列表的列表項個數應當與網頁標題識別模塊中提取到的列表項個數相同,如果沒有合適的候選列表,則判定該排行榜抓取失敗,系統輸結果,中斷退出,否則由排行榜選取模塊進行后續處理; 排行榜選取模塊,用于通過多種評價標準對多個候選列表進行打分,并選擇得分最高的候選列表為該輸入網頁的排行榜列表,評價標準包括網頁標題的關聯程度、在網頁中的空間位置、規則模式匹配; 排行榜內容后期處理模塊,用于對排行榜選取模塊選取獲得的排行榜內容進行進一步處理,將每一個列表項的實例名與其對應的屬性特征來進行分離,最終得到一個關系數據表。
2.根據權利要求1所述的基于排名網站的互聯網排行榜抓取系統,其特征在于,網頁標題識別模塊在對網頁進行分類之前,對標題進行預處理,預處理具體為用正則表達式匹配的方式,去掉標題中的次要部分,確定標題的主要部分;對主要部分進行英文詞法分析,獲得單詞序列中每一個單詞的詞性和原型,并將單詞、詞性、原型構成特征表格。
3.根據權利要求2所述的基于排名網站的互聯網排行榜抓取系統,其特征在于,網頁標題識別模塊包括分類器,分類器利用事先訓練好的模型將對輸入的特征表格進行分析,其結果為對輸入單詞序列對應的標注序列,其中K代表列表項的個數,F代表排行榜的領域,C表示排行榜的標準,對于分類結果的處理分為兩種情況如果標注序列中包含K,則說明輸入網頁為一個排名網頁,則需要將結果整理為〈個數,領域,標準,時間,地點 > 的五元組的形式,并觸發候選列表抓取模塊執行;否則判定該網頁非排名網頁,系統退出。
4.根據權利要求3所述的基于排名網站的互聯網排行榜抓取系統,其特征在于,分類器的模型是基于條件隨機域訓練獲得的。
5.根據權利要求1所述的基于排名網站的互聯網排行榜抓取系統,其特征在于,HTML標簽路徑的含義為,在樹狀數據結構中,任意一個節點到根節點的路徑,具體表示為路徑中各個節點的HTML標簽的連接;基于HTML標簽路徑的聚類分析由通過對網頁中所有節點進行遍歷,將具有相同標簽路徑的節點進行聚類,形成多個類,其中,包含K個節點的類即為候選的排行榜列表,K為網頁標題識別模塊中得到的排行榜列表項個數;如果沒有找到任何候選列表,則判定列表抓取失敗,系統退出。
6.根據權利要求1所述的基于排名網站的互聯網排行榜抓取系統,其特征在于,網頁標題的關聯程度,具體為根據網頁中排行榜所涉及的領域,得到該領域的全部或者部分實例,其中,具體對每一個候選列表L的計算公式為
7.根據權利要求1所述的基于排名網站的互聯網排行榜抓取系統,其特征在于,在網頁中的空間位置,具體為根據候選列表的字體大小和字符長度估算候選列表在網頁中占據的大小,具體的計算公式為
8.根據權利要求1所述的基于排名網站的互聯網排行榜抓取系統,其特征在于,排行榜內容后期處理模塊,具體為統計排行榜的每一個列表項中一些常見的分隔符號的個數, 如果發現某一個分隔符號在各個列表項中出現的頻率相同,則以此為分隔符將列表項進行拆分,然后對拆分后的每一列繼續進行下一輪同樣的操作,直到無法找到頻率相同的分隔符號為止。
9.根據權利要求1所述的基于排名網站的互聯網排行榜抓取系統,其特征在于,規則模式匹配,具體為根據一些基于經驗的規則,對候選列表進行模式匹配,并根據匹配的結果判斷該候選列表是否為一個排行榜列表,該規則包括獎勵和懲罰獎勵包括I)候選列表的標簽路徑中包含表不強調的標簽<b>、〈h2>、以及〈strong〉;2)候選列表中每一個列表項以序號開頭;3)候選列表是以表格的形式組織的;懲罰包括1)候選列表中出現多次的重復列表項;2)候選列表中某一列表項的內容過多或者過少。
全文摘要
本發明公開了一種互聯網排行榜抓取系統,包括將HTML格式的網頁解析成為基于文件物件模型的樹狀數據結構(DOM Tree)的網頁預處理模塊;判斷該網頁是否為一個排名網頁的標題識別模塊;基于HTML標簽路徑的聚類分析的候選列表排行榜選取模塊;基于內容匹配和網頁布局的排行榜選取模塊;以及排行榜內容后期處理模塊。本發明可以針對互聯網排行榜這種特殊的網絡列表進行快速準確的自動提取,有效挖掘其潛在價值。
文檔編號G06F17/30GK103020286SQ20121058097
公開日2013年4月3日 申請日期2012年12月27日 優先權日2012年12月27日
發明者朱其立, 張至先 申請人:上海交通大學