一種頁面資源結構化的方法和裝置的制造方法
【專利摘要】本發明提供了一種頁面資源結構化的方法和裝置,其包括創建網頁內容抓取模塊,獲取網頁對應的html文件;定義Schema文件用以規范結構化后生成的XML結果文檔;建立標簽映射文件,根據html標簽,文字屬性,段落屬性建立與Schema所定義標簽的映射。根據映射關系進行內容識別并生成對應的結構化文檔,從而完成頁面資源的結構化。傳統的網頁數據采集一般只涉及到網頁元數據的采集,相對于傳統的處理方法,該方法及裝置能夠快速、智能、準確地完成網頁元數據及有效內容的采集,且將所采集的內容片段化,結構化,所涉及的內容相比傳統方法更加全面,范圍更廣。
【專利說明】
一種頁面資源結構化的方法和裝置
技術領域
[0001]本發明涉及數字內容加工領域,具體而言,涉及一種頁面資源結構化的方法和裝置。
【背景技術】
[0002]出版社在建立可復用的資源庫數據時,,常常面臨的問題是將已發表或者出版的成品內容進行入庫,但絕大部分內容往往不符合新的入庫格式規范,這就涉及到成品內容難以入庫的問題。
[0003]傳統技術中,網頁數據采集一般只涉及到網頁元數據的采集,涉及到具體內容,往往需要人工干預。相對于傳統的處理方法,該方法及裝置能夠快速、智能、準確地完成網頁元數據及有效內容的采集,且將所采集的內容片段化,結構化,所涉及的內容相比傳統方法更加全面,范圍更廣。
[0004]發明人發現上述傳統方法,獲取信息有限,缺乏內容的結構化,所采集到的數據實用性較低。
【發明內容】
[0005]本發明旨在提供頁面資源結構化的方法和裝置,以解決上述通過傳統數據采集中,信息有限、無結構化內容的問題。
[0006]為解決上述技術問題,本發明包括一種頁面資源結構化的方法,包括如下步驟:
[0007]a.抓取網頁內容,獲取網頁對應的html文件;
[0008]b.定義Schema文件用以規范結構化后生成的XML結果文檔;
[0009]c.建立標簽映射文件,根據html標簽、文字屬性、段落屬性建立與Schema所定義標簽的映射;
[0010]d.根據映射關系進行內容識別并生成對應的結構化文檔,頁面資源結構化程序結束。
[0011]作為上述技術方案的進一步優化,所述a步驟還包括:
[0012]al.抓取網頁內容后定義掃描頁面地址范圍;
[0013]a2.再建立掃描模塊,完成定義范圍內頁面的掃描,并提取頁面所對應的html源文件;
[0014]a3.建立存儲模塊并完成對html源文件的存儲。
[0015]作為上述技術方案的進一步優化,所述b步驟還包含如下步驟:
[0016]bl.定義Schema結構規范文件;
[0017]b2.建立驗證模塊,用以對結構化后輸出的XML文件進行準確性驗證。
[0018]作為上述技術方案的進一步優化,所述c步驟的過程還包含如下步驟:
[0019]cl.根據HTML標準,結合步驟c所定義的Schema文件,提取html文檔中關鍵數據節點及屬性;
[0020]c2.建立映射文件,將節點及屬性與所述結構化標簽一一對應。
[0021]作為上述技術方案的進一步優化,所述d步驟的過程包含如下步驟:
[0022]dl.建立文檔生成模塊,根據html所提取的節點內容結合映射文件及schema所定義結構,生成結構化文檔。
[0023]在本發明中,還提供了一種頁面資源結構化的方法的裝置,其裝置包括有如下:
[0024]—掃描模塊,掃描指定范圍內的html文件,將掃描所得的html源文件放入緩存區;
[0025]—存儲模塊,用于將緩存區的源文件存儲到文件系統;
[0026]—生成模塊,結合html文件、Schema及映射文件,提取html文檔中的有效數據及Schema文件中的結構信息,根據算法產生符合Schema規范的XML文檔。
[0027]—驗證模塊,用于對生成模塊所產生的最終XML文件進行準確性驗證,并返回驗證結果。
[0028]本發明一種頁面資源結構化的方法和裝置的有益效果主要體現為:快速、智能、準確地完成網頁元數據及有效內容的采集,且將所采集的內容片段化,結構化,所涉及的內容相比傳統方法更加全面,范圍更廣。
【附圖說明】
[0029]圖1為本發明一種頁面資源結構化的方法的流程方框圖。
【具體實施方式】
[0030]下面將參考附圖并結合實施例,來詳細說明本發明。首先說明本發明的實施例,參見圖1,包括以下步驟:
[0031]a.抓取網頁內容,獲取網頁對應的html文件;
[0032]b.定義Schema文件用以規范結構化后生成的XML結果文檔;
[0033]c.建立標簽映射文件,根據html標簽、文字屬性、段落屬性建立與Schema所定義標簽的映射;
[0034]d.根據映射關系進行內容識別并生成對應的結構化文檔,頁面資源結構化程序結束。
[0035]作為上述技術方案的進一步優化,所述a步驟還包括:
[0036]al.抓取網頁內容后定義掃描頁面地址范圍;
[0037]a2.再建立掃描模塊,完成定義范圍內頁面的掃描,并提取頁面所對應的html源文件;
[0038]a3.建立存儲模塊并完成對html源文件的存儲。
[0039]作為上述技術方案的進一步優化,所述b步驟還包含如下步驟:
[0040]bl.定義Schema結構規范文件;
[0041 ] b2.建立驗證模塊,用以對結構化后輸出的XML文件進行準確性驗證。
[0042]作為上述技術方案的進一步優化,所述c步驟的過程還包含如下步驟:
[0043]cl.根據HTML標準,結合步驟c所定義的Schema文件,提取html文檔中關鍵數據節點及屬性;
[0044]c2.建立映射文件,將節點及屬性與所述結構化標簽一一對應。
[0045]作為上述技術方案的進一步優化,所述d步驟的過程包含如下步驟:
[0046]dl.建立文檔生成模塊,根據html所提取的節點內容結合映射文件及schema所定義結構,生成結構化文檔。
[0047]以上是系統的實施步驟,本實施例在具體實施時,可以細化為:
[0048]先抓取網頁內容,獲取網頁對應的html文件;
[0049]定義掃描頁面地址范圍;
[0050]建立掃描模塊,完成定義范圍內頁面的掃描,并提取頁面所對應的html源文件。
[0051]建立存儲模塊并完成對html源文件的存儲。
[0052]在本實施例中,可使用C#語言完成模塊的創建,通過掃描模塊輸入參數將掃描的支持范圍輸入,掃描模塊通過遍歷指定范圍下的頁面文件,并將頁面文件元數據讀入到緩沖區;存儲模塊依次讀取緩沖區內容并將所讀取內容依次存入所設定的文件路徑中,從而完成頁面源文檔的儲存。
[0053]定義Schema文件用以規范結構化后生成的XML結果文檔;
[0054]定義Schema結構規范文件;
[0055]建立驗證模塊,用以對結構化后輸出的XML文件進行準確性驗證。
[0056]在本實施例中,可使用XMLSpy工具對Schema進行編寫,編寫的規范結合業務實際情況需要定義,參加《教育大百科》對應Schema。
[0057]建立標簽映射文件。根據html標簽,文字屬性,段落屬性建立與Schema所定義標簽的映射。
[0058]根據HTML標準,結合S2所定義的Schema文件,提取html文檔中關鍵數據節點及屬性;
[0059]建立映射文件,將節點及屬性與結構化標簽一一對應;
[0060]在本實施例中,提取HTML源文件中title,keywords,Descript1n,Hl,H2,等節點及屬性,將其與Schema文件中的各節點元素--對應,并通過xml語言對該對應關系進行描述。
[0061]創建結構化文檔生成模塊。
[0062]建立文檔生成模塊,根據html所提取的節點內容結合映射文件及schema所定義結構,生成結構化文檔。
[0063]在本實施例中,提取HTML源文件中title,keywords,Descript1n,Hl,H2,等節點內容,并結合映射文件轉為采用Schema所定義節點的XML文件;結合Schema文件中各節點層次關系,生成結構化文檔。
[0064]通過上述的處理過程,可通過快速、智能、準確地完成網頁元數據及有效內容的采集,且將所采集的內容片段化,結構化,所涉及的內容相比傳統方法更加全面,范圍更廣。
[0065]顯然,本領域的技術人員應該明白,上述的本發明的各模塊或各步驟可以用通用的計算裝置來實現,它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網絡上,可選地,它們可以用計算裝置可執行的程序代碼來實現,從而可以將它們存儲在存儲裝置中由計算裝置來執行,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現。這樣,本發明不限制于任何特定的硬件和軟件結合。
[0066]以上所述僅為本發明的優選實施例而已,并不用于限制本發明,對于本領域的技術人員來說,本發明可以有各種更改和變化。凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
【主權項】
1.一種頁面資源結構化的方法,其特征在于,包括如下步驟: a.抓取網頁內容,獲取網頁對應的html文件; b.定義Schema文件用以規范結構化后生成的XML結果文檔; c.建立標簽映射文件,根據html標簽、文字屬性、段落屬性建立與Schema所定義標簽的映射; d.根據映射關系進行內容識別并生成對應的結構化文檔,頁面資源結構化程序結束。2.根據權利要求1所述的一種頁面資源結構化的方法,其特征在于,所述a步驟還包括: al.抓取網頁內容后定義掃描頁面地址范圍; a2.再建立掃描模塊,完成定義范圍內頁面的掃描,并提取頁面所對應的html源文件; a3.建立存儲模塊并完成對html源文件的存儲。3.根據權利要求1所述的一種頁面資源結構化的方法,其特征在于,所述b步驟還包含如下步驟: bl.定義Schema結構規范文件; b2.建立驗證模塊,用以對結構化后輸出的XML文件進行準確性驗證。4.根據權利要求1所述的一種頁面資源結構化的方法,其特征在于,所述c步驟的過程還包含如下步驟: cl.根據HTML標準,結合步驟c所定義的Schema文件,提取html文檔中關鍵數據節點及屬性; c2.建立映射文件,將節點及屬性與所述結構化標簽一一對應。5.根據權利要求1所述的一種頁面資源結構化的方法,其特征在于,所述d步驟的過程包含如下步驟: dl.建立文檔生成模塊,根據html所提取的節點內容結合映射文件及schema所定義結構,生成結構化文檔。6.一種頁面資源結構化裝置,其特征在于,包括: 一掃描模塊,所述掃描模塊掃描指定范圍內的html文件,將掃描所得的html源文件放入緩存區; 一存儲模塊,用于將緩存區的源文件存儲到文件系統; 一生成模塊,所述生成模塊包括結合html文件、Schema及映射文件,提取html文檔中的有效數據及Schema文件中的結構信息,根據算法產生符合Schema規范的XML文檔;一驗證模塊,用于對所述生成模塊所產生的最終XML文件進行準確性驗證,并返回驗證結果。
【文檔編號】G06F17/30GK105989178SQ201510100103
【公開日】2016年10月5日
【申請日】2015年3月6日
【發明人】施宏俊, 周建寶, 胡大衛, 賈立群, 段學儉, 周怡, 劉懿, 吳棄疾, 翁志軒, 何勇, 楊文華, 謝冬華, 朱丹瑾, 陳力勇, 易英華, 張少杰, 程艷
【申請人】上海世紀出版股份有限公司