一種提取網頁正文的方法【專利摘要】一種提取網頁正文的方法,包括:根據待提取的網頁的域名,判斷預置的站點知識庫中是否存儲有對應于該域名的用于提取正文的提取信息;若有,則根據所述提取信息對所述網頁的正文進行提取;若所述站點知識庫中沒有對應于該域名的提取信息,或,根據該提取信息對所述網頁的正文提取失敗,則確定所述網頁的正文節點,并通過提取所述正文節點中的文本獲取所述網頁的正文。徹底解放人工處理,減少了人工操作和干預成本;提高了程序提取網頁正文的效率;實現了針對多種語言類的網站的自動提取,并且提取難度也會大大降低。【專利說明】一種提取網頁正文的方法【
技術領域:
】[0001]本發明屬于通信領域,尤其涉及一種提取網頁正文的方法。【
背景技術:
】[0002]目前提取網站內容信息都是針對當前網站,人工去分析網站結構,然后針對網站主體內容結構去制定相應的模板,當網站改版后,則需要人工去判斷,并修改以前的模板,每個不同站點的內容,甚至同個網站不同類型的站點內容,都需要配置一套相應的模板,當網站數量越來越多的時候,模板制定和維護的工作量也會越來越大,人工干預成本也會越來越高,效率也會越來越低。【
發明內容】[0003]有鑒于此,為了解決現有技術中存在提取網頁內容信息時需要大量的人工操作和干預成本的問題,本發明的目的是提出一種提取網頁正文的方法。為了對披露的實施例的一些方面有一個基本的理解,下面給出了簡單的概括。該概括部分不是泛泛評述,也不是要確定關鍵/重要組成元素或描繪這些實施例的保護范圍。其唯一目的是用簡單的形式呈現一些概念,以此作為后面的詳細說明的序言。[0004]在一些可選的實施例中,所述方法,包括:[0005]根據待提取的網頁的域名,判斷預置的站點知識庫中是否存儲有對應于該域名的用于提取正文的提取信息;[0006]若有,則根據所述提取信息對所述網頁的正文進行提取;若所述站點知識庫中沒有對應于該域名的提取信息,或,根據該提取信息對所述網頁的正文提取失敗,則,[0007]確定所述網頁的正文節點,并通過提取所述正文節點中的文本獲取所述網頁的正文。[0008]采用上述實施例,可達到以下效果:[0009]徹底解放人工處理,減少了人工操作和干預成本,不需要人工去判斷網站是否改版;[0010]提取內容成功后,會記錄當前網頁結構并保存到站點知識庫中,當下次再提取相同站點則自動從站點知識庫中調取以前的經驗來提取正文,提高了程序提取網頁正文的效率;[0011]預先根據不同的語言體系設置相應的提取網頁正文時所需的統計算法和閾值,實現了針對多種語言類的網站的自動提取,并且提取難度也會大大降低。[0012]為了上述以及相關的目的,一個或多個實施例包括后面將詳細說明并在權利要求中特別指出的特征。下面的說明以及附圖詳細說明某些示例性方面,并且其指示的僅僅是各個實施例的原則可以利用的各種方式中的一些方式。其它的益處和新穎性特征將隨著下面的詳細說明結合附圖考慮而變得明顯,所公開的實施例是要包括所有這些方面以及它們的等同。【專利附圖】【附圖說明】[0013]此處所說明的附圖用來提供對本發明的進一步理解,構成本申請的一部分,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。在附圖中:[0014]圖1示出了本發明實施例的一種提取網頁正文的方法的流程示意圖;[0015]圖2示出了本發明實施例的一種提取網頁正文的方法的流程示意圖。【具體實施方式】[0016]以下描述和附圖充分地示出本發明的具體實施方案,以使本領域的技術人員能夠實踐它們。其他實施方案可以包括結構的、邏輯的、電氣的、過程的以及其他的改變。實施例僅代表可能的變化。除非明確要求,否則單獨的部件和功能是可選的,并且操作的順序可以變化。一些實施方案的部分和特征可以被包括在或替換其他實施方案的部分和特征。本發明的實施方案的范圍包括權利要求書的整個范圍,以及權利要求書的所有可獲得的等同物。在本文中,本發明的這些實施方案可以被單獨地或總地用術語“發明”來表示,這僅僅是為了方便,并且如果事實上公開了超過一個的發明,不是要自動地限制該應用的范圍為任何單個發明或發明構思。[0017]圖1示出了本發明實施例的一種提取網頁正文的方法的流程示意圖,[0018]如圖1所示,在一些說明性的實施例中,所述提取網頁正文的方法,包括以下幾個步驟:[0019]步驟S101,根據待提取的網頁的域名,判斷預置的站點知識庫中是否存儲有對應于該域名的用于提取正文的提取信息;[0020]步驟S102,若有,則根據所述提取信息對所述網頁的正文進行提取;若所述站點知識庫中沒有對應于該域名的提取信息,或,根據該提取信息對所述網頁的正文提取失敗,則確定所述網頁的正文節點,并通過提取所述正文節點中的文本獲取所述網頁的正文;[0021]上述實施例描述了一種自動提取網頁正文的方法,在該方法中,站點知識庫是預置的,該站點知識庫專門用于存儲用于提取各種網站的網頁正文的提取信息,該提取信息包括對應于該域名下的多個網頁的正文提取經驗;因此若需要對某網頁的正文進行提取時,首先根據該網頁的域名,從站點知識庫中查詢是否有相應的提取信息,若有,則依次調取所述提取信息中的提取經驗(即正文結構信息)并根據該提取經驗對所述網頁的正文進行提取;若提取失敗,證明站點知識庫未記錄該網頁的提取經驗或該網頁已改版;或,若當前的站點知識庫中未存儲對應于該域名的提取信息,則因此觸發智能識別模塊執行智能提取流程,首先確定所述網頁的正文節點,然后提取該正文節點中的文本;[0022]在上述提取網頁正文的過程中,徹底解放人工處理,程序通過預置的站點知識庫和智能識別模塊來提取網頁正文內容,可對任意主題類網頁進行提取,完全自動化,不需要人工干預;不用人工事先對具體網站生成模板,也不需要人工去判斷網站是否改版,提高了程序提取網頁正文的效率;[0023]在一些說明性的實施例中,所述確定所述網頁的正文節點的操作,包括以下幾個步驟:[0024]對所述網頁進行預處理;[0025]建立正文候選池列表;[0026]根據所述正文候選池列表推測正文區域;[0027]根據所述正文區域,判斷出所述正文節點;[0028]在一些說明性的實施例中,所述提取信息包括對應于該域名下多個網頁的正文結構信息,并且所述正文結構信息按照成功提取次數從高到低進行排序;根據所述提取信息對所述網頁的正文進行提取,具體包括:[0029]按照所述正文結構信息的排列順序,依次調取相應的正文結構信息,并根據該正文結構信息對所述網頁的正文進行提取,直到提取成功;[0030]在所述提取成功后,還包括:記錄該正文結構信息的成功提取次數,并根據當前的各所述正文結構信息的成功提取次數進行排序;[0031]從該實施例中可以看出,在站點知識庫中存儲的對應于網站域名的提取信息包括多個網頁提取經驗,即正文結構信息;并且這些正文結構信息是按照成功提取次數排列的,當從站點知識庫搜索到對應于所述網站域名的提取信息后,會優先調取成功次數高的正文結構信息來對該網站進行提取,以加快網站提取效率;此外,在每次成功提取后,都會刷新相應的正文結構信息的成功提取次數,并重新對該提取信息中的所有正文結構信息進行排序;[0032]在一些說明性的實施例中,在通過提取所述正文節點中的文本獲取所述網頁的正文之后,還包括:[0033]將所述確定所述網頁的正文節點的過程中獲取的正文結構信息添加到所述站點知識庫中;[0034]上述實施例中,若提取網頁的正文是通過智能識別模塊執行智能提取流程實現的,則在成功提取網頁正文后,本程序都會自動將獲取的網頁提取經驗(即正文結構信息)添加到站點知識庫中,可以理解為站點知識庫自動累積經驗的過程,以便下次提取該網頁或與其結構相似的域名相同的網頁時,可以調取提取經驗中的正文結構信息,成功提取正文;此外,在上述過程中,若站點知識庫中已存儲了對應于該網頁域名的提取信息,則直接將所述正文結構信息添加到提取信息中即可;若站點知識庫中未存儲對應于該網頁域名的提取信息,即站點知識庫中從未存儲對應于該網站的提取經驗時,則將獲取的正文結構信息和域名同時存儲與站點知識庫中;[0035]在一些說明性的實施例中,對所述網頁進行預處理,包括:獲取所述網頁的DOM樹,并根據已創建的標簽類型庫,識別并刪除該網頁中的移除類節點和非移除類節點中的移除類內容,獲取預處理后的所述網頁的DOM樹;所述標簽類型庫包括用于判斷網頁中節點類型的策略和判斷移除類內容的策略,所述節點類型包括容器類、文本類和移除類;[0036]所述標簽類型庫可以是人工預先在本系統內創建的,在該標簽類型庫中,將網頁DOM樹中的節點類型按照標簽的類型分為3類,分別是容器類、文本類和移除類;其中,容器類節點主要是指類似于table,form,div等類型的標簽稱為容器類節點;文本類節點主要是指類似于td,span,br,p等純文本類型的標簽稱為文本類節點,移除類節點主要是指與正文無關的類似于script,frame,style,object等類型的標簽稱為移除類節點;根據上述策略,可以快速判斷網頁DOM樹中的節點屬于哪種節點類型;此外,在標簽類型庫中還包括用于判斷移除類內容的策略,根據該策略可以將非移除類節點中的與正文無關的內容移除,移除類內容包括頁面注釋內容、一些非html標簽、腳本等信息;在預處理過程中,通過該標簽類型庫可以有效的去除移除類節點和非移除類節點中的移除類內容,以加快后續在循環DOM樹的速度;[0037]所述建立正文候選池列表,具體包括:[0038]根據所述標簽類型庫和預設的閾值,判斷預處理后的所述網頁的DOM樹中的父節點為容器類節點的文本類節點是否有效;[0039]刪除該DOM樹中判斷結果為無效的節點,并將該DOM樹中判斷結果為的有效的所述文本類節點以及該節點的父節點到所述正文候選池列表中;[0040]在上述建立正文候選池列表的過程中,循環經過預處理后的網頁DOM樹,遇到容器類節點,繼續遞歸循環該節點的子節點,如遇到文本類節點,則先是判斷該節點是否有效,如果是無效節點,則直接刪除;如果是有效節點,則保存到文正候選池,并記錄該文本的父節點對象;[0041]在一些說明性的實施例中,判斷預處理后的所述網頁的DOM樹中的父節點為容器類節點的文本類節點是否有效的過程,具體包括:[0042]識別所述網頁的字符集編碼,調取預設的算法,計算出所述文本類節點的有效節點特征值;[0043]根據所述有效節點特征值和所述預設的閾值,判斷該文本類節點是否有效;其中,所述閾值對應于所述有效節點特征值;[0044]不同的網頁可能語言類型不同,針對多語網站的網頁正文的提取是十分復雜的,在本系統中,首先人工將不同語言體系的網頁的網頁調取過程中所用到的算法和閾值設置好,在上述判斷文本類節點是否有效時,通過識別所述網頁的字符集編碼,判斷出該網頁的語言體系,然后從數據庫中調取相應的統計算法,計算該文本類節點的有效節點特征值;然后再調取相應的預置的閾值和上述計算出的有效節點特征值進行比較,從而判斷該節點是否有效;[0045]在一些說明性的實施例中,所述有效節點特征值包括:文本數(Al)、文本比例(A2)和超鏈接比例(A3);[0046]其中,[0047]文本數(Al):節點中不含HTML標簽的文本字節數;[0048]文本比例(A2):節點中不含HTML標簽的文本字節數與節點總字節數的比值;[0049]超鏈接比例(A3):節點中超鏈接的字節數與總字節數的比值;[0050]分別對根據上述有效節點特征值對所述文本類節點進行判斷,在上述判斷的過程中,若其中一項的判斷結果為無效,則結束判斷,并刪除該節點;反之,則繼續判斷,直到所有有效節點特征值的判斷結果均為有效后,將該節點以及該節點的父節點到所述正文候選池列表中;[0051]進一步的,上述特征值的判斷順序是Al、A2和A3;[0052]其中,根據Al進行判斷的過程包括:若所述文本類節點的Al小于對應于所述文本數的閾值,則判斷結果為無效;反之,則判斷結果為有效;[0053]根據A2進行判斷的過程包括:若所述文本類節點的A2小于對應于所述文本比例的閾值,則判斷結果為無效;反之,則判斷結果為有效;[0054]根據A3進行判斷的過程包括:若所述文本類節點的A3大于對應于所述超鏈接比例的閾值,則判斷結果為無效;反之,則判斷結果為有效;[0055]在一些說明性的實施例中,根據所述正文候選池列表推測正文區域,具體包括:[0056]首先,將所述正文候選池列表中存儲的第一位的文本類節點的文本字節數保存于第一變量BI中,將該文本類節點的父節點保存于第二變量B2中;[0057]然后,依次循環所述正文候選池列表中的其它文本類節點,若父節點一致,則將該文本類節點的文本字節數累加到所述BI中;若父節點不一致,則判斷該文本類節點的文本字節數是否大于BI,若大于,則將BI在值替換為該節點的文本字節數,并將B2替換為該節點的父節點,反之,則跳過該節點,繼續循環;[0058]最后,當循環完所述正文候選池列表中的所有數據后,所述B2中所記錄的父節點為所述推測的正文區域;[0059]在一些說明性的實施例中,根據所述正文區域,判斷出所述正文節點,具體包括:[0060]將所述變量B2中所述記錄的父節點保存于正文節點對象Cl中,然后以該節點為對象,分別向前逆序和向后順序解析所述預處理后的所述網頁的DOM樹,獲取該節點的所有兄弟節點,并比較所述兄弟節點與本節點是否相似,若不存在與本節點相似的兄弟節點,則停止解析,并判斷當前的Cl為所述正文節點;[0061]若存在于本節點相似的兄弟節點,則將Cl中存儲的節點替換為本節點與所述兄弟節點的父節點,并繼續重復所述解析所述預處理后的所述網頁的DOM樹的過程,直到不存在與當前的Cl中存儲的節點相似的兄弟節點,則該Cl為所述正文節點;[0062]可選的,在判斷出正文節點與根據正文節點獲取最終正文信息之間,還包括:清洗正文節點對象Cl的過程;在該過程中,獲取的Cl對象進行遞歸循環,上述有效節點特征值進行判斷,將Cl中存在的跟正文無關信息的無效節點過濾掉,并將節點下的隱藏(hidden屬性)信息也過濾掉,得到最終內容則為正文信息;[0063]在一些說明性的實施例中,通過比較所述兄弟節點是否滿足以下3個特征,判斷所述兄弟節點與本節點是否相似,所述3個特征依次為:[0064]是否有相同的根節點;標簽名稱是否相同;子節點結構是否相同,是否都為同一類標簽;[0065]若滿足,則所述兄弟節點與本節點相似;反之,則不相似。[0066]圖2是網頁正文智能提取的流程示意圖;在該流程示意圖中,可以看出本系統主要分為兩個模塊:站點知識庫模塊,用于站點知識庫的提取信息累積;智能識別模塊,用于智能提取流程;如圖2所示,具體流程如下:[0067]步驟S201,獲取待提取的網頁;[0068]步驟S202,調取站點知識庫,并判斷是否存在相應的提取/[目息;[0069]若不存在,則觸發步驟S203;反之,則觸發步驟S207;[0070]其中,所述站點知識庫通過站點知識庫模塊進行提取信息累積;具體可以通過以下兩種方式:[0071]步驟S2021:人工指導,即人工將提取信息輸入到站點知識庫中;[0072]步驟S2022:機器學習,即在智能識別模塊成功提取正文后,將提取經驗(如正文結構信息)和該網頁所在網站的域名,存儲于站點知識庫中;其中,步驟S2021和S2022是站點知識庫模塊執行的;[0073]步驟S203,頁面預處理;[0074]將該網頁DOM樹結構中的移除類節點和移除類內容移除;[0075]步驟S204,建立正文候選池列表;[0076]循環預處理后得到的網頁DOM樹,遇到容器類節點,繼續遞歸循環該節點的子節點,如遇到文本類節點,則先是判斷該節點是否有效,如果是無效節點,則直接刪除;如果是有效節點,則保存到文正候選池,并記錄該文本的父節點對象;其中,根據3個有效節點特征值進行上述判斷是否有效的過程,分別是文本數、文本比例和超鏈接比例;[0077]步驟S205,推測正文區域;[0078]先假設候選池列表中第一位節點數據為正文,則將該節點文本長度BI和該父節點對象B2保存在全局變量中,然后依次循環候選列表池中其他節點數據,如果父節點對象一致,則累加文本長度到全局變量BI,如果父節點不一致,當文本長度小于全局變量BI時,則直接跳過;當大于BI時候,則將該節點文本長度替換BI,該節點父對象替換B2;當候選池列表中數據循環完成后,這個B2對象就為推測正文區域;[0079]步驟S206,獲取正文節點;[0080]將通過步驟S205得出的B2對象保存到Cl(正文節點對象)中,以Cl為中心開始分別向前逆序和向后順序解析DOM樹,解析出Cl對象的兄弟節點,并比較兄弟節點所代表的子節點,如果存在跟Cl對象非常相似子節點,則斷定該父節點為文本節點,并繼續重復步驟S206的操作;當沒有兄弟節點存在跟Cl相似子節點,則停止解析,并斷定當前Cl則為正文節點對象;[0081]步驟S207,輸出正文內容;[0082]若該步驟在步驟S206后執行,則根據獲取的正文節點,從網頁中提取該正文節點中的正文信息;[0083]若該步驟在步驟S202判斷出站點知識庫中存在提取信息后執行,則根據提取信息中提取經驗(正文結構信息)的排列順序,依次調取正文結構信息,并提取正文,若提取成功,則結束流程;若不成功,則繼續調用下一個正文結構信息,并進行提取;若調取全部正文結構信息都無法成功提取正文,則觸發步驟S203,指示智能識別模塊執行智能提取流程,重新分析該網頁提取其正文,并在提取成功后將探測結果數據(正文結構信息和域名)發送到站點知識庫模塊,以便站點知識庫模板通過機器學習的方式,將正文結構信息添加到站點知識庫中。[0084]采用上述實施例,可達到以下效果:[0085]徹底解放人工處理,減少了人工操作和干預成本,不需要人工去判斷網站是否改版;[0086]提取內容成功后,會記錄當前網頁結構并保存到站點知識庫中,當下次再提取相同站點則自動從站點知識庫中調取以前的經驗來提取正文,提高了程序提取網頁正文的效率;[0087]預先根據不同的語言體系設置相應的提取網頁正文時所需的統計算法和閾值,實現了針對多種語言類的網站的自動提取,并且提取難度也會大大降低。[0088]本領域技術人員還應當理解,結合本文的實施例描述的各種說明性的邏輯框、模塊、電路和算法步驟均可以實現成電子硬件、計算機軟件或其組合。為了清楚地說明硬件和軟件之間的可交換性,上面對各種說明性的部件、框、模塊、電路和步驟均圍繞其功能進行了一般地描述。至于這種功能是實現成硬件還是實現成軟件,取決于特定的應用和對整個系統所施加的設計約束條件。熟練的技術人員可以針對每個特定應用,以變通的方式實現所描述的功能,但是,這種實現決策不應解釋為背離本公開的保護范圍。[0089]以上所述僅為本發明的優選實施例而已,并不用于限制本發明,對于本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。【權利要求】1.一種提取網頁正文的方法,其特征在于,包括:根據待提取的網頁的域名,判斷預置的站點知識庫中是否存儲有對應于該域名的用于提取正文的提取信息;若有,則根據所述提取信息對所述網頁的正文進行提取;若所述站點知識庫中沒有對應于該域名的提取信息,或,根據該提取信息對所述網頁的正文提取失敗,則,確定所述網頁的正文節點,并通過提取所述正文節點中的文本獲取所述網頁的正文。2.如權利要求1所述的方法,其特征在于,所述確定所述網頁的正文節點的操作,包括以下幾個步驟:對所述網頁進行預處理;建立正文候選池列表;根據所述正文候選池列表推測正文區域;根據所述正文區域,判斷出所述正文節點。3.如權利要求1所述的方法,其特征在于,所述提取信息包括對應于該域名下多個網頁的正文結構信息,并且所述正文結構信息按照成功提取次數從高到低進行排序;根據所述提取信息對所述網頁的正文進行提取,具體包括:按照所述正文結構信息的排列順序,依次調取相應的正文結構信息,并根據該正文結構信息對所述網頁的正文進行提取,直到提取成功;在所述提取成功后,還包括:記錄該正文結構信息的成功提取次數,并根據當前的各所述正文結構信息的成功提取次數進行排序。4.如權利要求3所述的方法,其特征在于,在通過提取所述正文節點中的文本獲取所述網頁的正文之后,還包括:將所述確定所述網頁的正文節點的過程中獲取的正文結構信息添加到所述站點知識庫中。5.如權利要求2所述的方法,其特征在于,對所述網頁進行預處理,包括:獲取所述網頁的DOM樹,并根據已創建的標簽類型庫,識別并刪除該網頁中的移除類節點和非移除類節點中的移除類內容,獲取預處理后的所述網頁的DOM樹;所述標簽類型庫包括用于判斷網頁中節點類型的策略和判斷移除類內容的策略,所述節點類型包括容器類、文本類和移除類;所述建立正文候選池列表,具體包括:根據所述標簽類型庫和預設的閾值,判斷預處理后的所述網頁的DOM樹中的父節點為容器類節點的文本類節點是否有效;刪除該DOM樹中判斷結果為無效的節點,并將該DOM樹中判斷結果為的有效的所述文本類節點以及該節點的父節點到所述正文候選池列表中。6.如權利要求5所述的方法,其特征在于,判斷預處理后的所述網頁的DOM樹中的父節點為容器類節點的文本類節點是否有效的過程,具體包括:識別所述網頁的字符集編碼,調取預設的算法,計算出所述文本類節點的有效節點特征值;根據所述有效節點特征值和所述預設的閾值,判斷該文本類節點是否有效;其中,所述閾值對應于所述有效節點特征值。7.如權利要求6所述的方法,其特征在于,所述有效節點特征值包括:文本數、文本比例和超鏈接比例;分別對根據上述有效節點特征值對所述文本類節點進行判斷,在上述判斷的過程中,若其中一項的判斷結果為無效,則結束判斷,并刪除該節點;反之,則繼續判斷,直到所有有效節點特征值的判斷結果均為有效后,將該節點以及該節點的父節點到所述正文候選池列表中;其中,根據文本數進行判斷的過程包括:若所述文本類節點的文本數小于對應于所述文本數的閾值,則判斷結果為無效;反之,則判斷結果為有效;根據文本比例進行判斷的過程包括:若所述文本類節點的文本比例小于對應于所述文本比例的閾值,則判斷結果為無效;反之,則判斷結果為有效;根據超鏈接比例進行判斷的過程包括:若所述文本類節點的超鏈接比例大于對應于所述超鏈接比例的閾值,則判斷結果為無效;反之,則判斷結果為有效。8.如權利要求5所述的方法,其特征在于,根據所述正文候選池列表推測正文區域,具體包括:首先,將所述正文候選池列表中存儲的第一位的文本類節點的文本字節數保存于第一變量中,將該文本類節點的父節點保存于第二變量中;其次,依次循環所述正文候選池列表中的其它文本類節點,若父節點一致,則將該文本類節點的文本字節數累加到所述第一變量中;若父節點不一致,則判斷該文本類節點的文本字節數是否大于第一變量,若大于,則將第一變量在值替換為該節點的文本字節數,并將第二變量替換為該節點的父節點,反之,則跳過該節點,繼續循環;最后,當循環完所述正文候選池列表中的所有數據后,所述第二變量中所記錄的父節點為所述推測的正文區域。9.如權利要求8所述的方法,其特征在于,根據所述正文區域,判斷出所述正文節點,具體包括:將所述第二變量中所述記錄的父節點保存于正文節點對象中,然后以該節點為對象,分別向前逆序和向后順序解析所述預處理后的所述網頁的DOM樹,獲取該節點的所有兄弟節點,并比較所述兄弟節點與本節點是否相似,若不存在與本節點相似的兄弟節點,則停止解析,并判斷當前的正文節點對象為所述正文節點;若存在于本節點相似的兄弟節點,則將正文節點對象中存儲的節點替換為本節點與所述兄弟節點的父節點,并繼續重復所述解析所述預處理后的所述網頁的DOM樹的過程,直到不存在與當前的正文節點對象中存儲的節點相似的兄弟節點,則該正文節點對象為所述正文節點。10.如權利要求9所述的方法,其特征在于,通過比較所述兄弟節點是否滿足以下3個特征,判斷所述兄弟節點與本節點是否相似,所述3個特征依次為:是否有相同的根節點;標簽名稱是否相同;子節點結構是否相同,是否都為同一類標簽;若滿足,則所述兄弟節點與本節點相似;反之,則不相似。【文檔編號】G06F17/30GK104376061SQ201410629258【公開日】2015年2月25日申請日期:2014年11月10日優先權日:2014年11月10日【發明者】江潮,賀建華,蔣漢華申請人:武漢傳神信息技術有限公司