互聯網案例信息提取方法及裝置的制造方法
【專利摘要】本發明公開了一種互聯網案例信息提取方法及裝置,涉及互聯網技術領域,所述方法包括:抓取預設網站中的各目標網頁;根據預設模板從各目標網頁中獲取網頁內容;從所述網頁內容中提取案例信息。本發明通過抓取預設網站中的各目標網頁,根據預設模板從各目標網頁中獲取網頁內容,從所述網頁內容中提取案例信息,實現了從互聯網中提出案例信息,克服了無法收集互聯網上案例信息的問題。
【專利說明】
互聯網案例信息提取方法及裝置
技術領域
[0001]本發明涉及互聯網技術領域,特別涉及一種互聯網案例信息提取方法及裝置。
【背景技術】
[0002]互聯網已成為世界上最大的公開信息源。由全球范圍內的各類各級機構主體和各種自媒體所主動發布的信息,已經成為重要的網絡信息資源。
[0003]互聯網上可以找到的信息中,有一類是類似于流感爆發的案例信息,比如“宣城市新增I例H7N9流感病例。患者李某,男,45歲,宣城市人,3月25日確診,發病前有活禽接觸史,病情危重,在宣城市某醫院治療,宣城市已啟動聯防聯控工作機制。”對于開展流行病學研究而言,這些具體的流感案例信息非常有價值,可以用于研究傳播特征,分析傳播規律,預測傳播趨勢等。
[0004]然而,收集整理互聯網上的這類信息非常困難。現有的技術方法并不能解決從互聯網頁中提出類似于流感爆發案例的詳細信息的難題。
【發明內容】
[0005]鑒于上述問題,提出了本發明以便提供一種克服上述問題或者至少部分地解決上述問題的一種互聯網案例信息提取方法及裝置。
[0006]依據本發明的一個方面,提供了一種互聯網案例信息提取方法,所述方法包括:
[0007]抓取預設網站中的各目標網頁;
[0008]根據預設模板從各目標網頁中獲取網頁內容;
[0009]從所述網頁內容中提取案例信息。
[0010]可選地,所述抓取預設網站中的各目標網頁之前,所述方法還包括:
[0011]根據所述預設網站的頁面布局生成所述預設模板。
[0012]可選地,所述根據預設模板從各目標網頁中獲取網頁內容之前,所述方法還包括:
[0013]根據網頁鏈接對抓取的目標網頁進行去重處理。
[0014]可選地,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡;
[0015]相應地,所述從所述網頁內容中提取案例信息之后,所述方法還包括:
[0016]依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進tx去重處理。
[0017]可選地,所述依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進行去重處理之前,所述方法還包括:
[0018]對所述案例地址進行統一化處理,以使各案例地址包含相同地址級數。
[0019]依據本發明的另一個方面,提供了一種互聯網案例信息提取裝置,所述裝置包括:
[0020]網頁抓取單元,用于抓取預設網站中的各目標網頁;
[0021]內容獲取單元,用于根據預設模板從各目標網頁中獲取網頁內容;
[0022]信息提取單元,用于從所述網頁內容中提取案例信息。
[0023]可選地,所述裝置還包括:
[0024]模板生成單元,用于根據所述預設網站的頁面布局生成所述預設模板。
[0025]可選地,所述裝置還包括:
[0026]網頁去除單元,用于根據網頁鏈接對抓取的目標網頁進行去重處理。
[0027]可選地,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡;
[0028]相應地,所述裝置還包括:
[0029]案例去重單元,用于依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進行去重處理。
[0030]可選地,所述裝置還包括:
[0031]統一處理單元,用于對所述案例地址進行統一化處理,以使各案例地址包含相同地址級數。
[0032]本發明通過抓取預設網站中的各目標網頁,根據預設模板從各目標網頁中獲取網頁內容,從所述網頁內容中提取案例信息,實現了從互聯網中提出案例信息,克服了無法收集互聯網上案例信息的問題。
【附圖說明】
[0033]通過閱讀下文優選實施方式的詳細描述,各種其他的優點和益處對于本領域普通技術人員將變得清楚明了。附圖僅用于示出優選實施方式的目的,而并不認為是對本發明的限制。而且在整個附圖中,用相同的參考符號表示相同的部件。在附圖中:
[0034]圖1是本發明一種實施方式的互聯網案例信息提取方法的流程圖;
[0035]圖2是全球流感資訊網的網頁示意圖;
[0036]圖3是本發明一種實施方式的互聯網案例信息提取裝置的結構框圖。
【具體實施方式】
[0037]下面結合附圖和實施例,對本發明的【具體實施方式】作進一步詳細描述。以下實施例用于說明本發明,但不用來限制本發明的范圍。
[0038]圖1是本發明一種實施方式的互聯網案例信息提取方法的流程圖;參照圖1,所述方法包括:
[0039]SlOl:抓取預設網站中的各目標網頁;
[0040]需要說明的是,所述預設網站為一個或多個網站,其可由用戶選擇決定,也就是說,可由用戶先通過google、bing、百度等搜索引擎搜索含有案例信息的網站,最終定位到一個或多個具有高質量案例信息的網站,并將定位到的網站作為預設網站,以案例為流感案例為例,可由用戶將“全球流感資訊網”作為預設網站,“全球流感資訊網”是由很多志愿者把全國各地的流感爆發的新聞報道收集起來而后匯總到這個網站上,供自己或者他人的后續參考或者研究的網站,其網址是http://www.flu.0rg.cn/scn/default.html,其內容如圖2所示。
[0041]并且,所述預設網站也可為默認網站,也就是說,默認設置有一個網站,在抓取時,僅能抓取該網站中的各目標網頁,而無法由用戶選取其他網站,以案例為流感案例為例,可直接將“全球流感資訊網”作為默認網站。
[0042]S102:根據預設模板從各目標網頁中獲取網頁內容;
[0043]可理解的是,為了從各目標網頁中獲取網頁內容,本實施方式中,通過預設模板從各目標網頁中網頁內容的位置,并根據所述網頁內容的位置從各目標網頁中獲取網頁內容。
[0044]S103:從所述網頁內容中提取案例信息。
[0045]需要說明的是,所述網頁內容中通常包括但不限于標題和相關段落,根據案例的常用詞語及其出現順序從所述標題和相關段落中定位并提取案例信息。
[0046]本實施方式通過抓取預設網站中的各目標網頁,根據預設模板從各目標網頁中獲取網頁內容,從所述網頁內容中提取案例信息,實現了從互聯網中提出案例信息,克服了無法收集互聯網上案例信息的問題。
[0047]由于不同網站的頁面布局情況不同,針對不同網站需要分別生成預設模板,故而,在步驟SlOl之前還包括:
[0048]S100:根據所述預設網站的頁面布局生成所述預設模板;
[0049]也就是說,預先對預設網站的頁面不同區域分別進行標注,以生成所述預設模板,故而,所述預設模板可理解為對頁面不同區域的內容標注。
[0050]由于在對預設網站進行目標網頁抓取時,通常都是直接抓取預設網站中所有的目標網頁,但這些目標網頁可能在上一次抓取時已經抓取過,若仍然對所有目標網頁進行案例信息提取,會導致資源浪費、案例信息重復,為避免該問題,所述S102之前,所述方法還可包括:
[0051]根據網頁鏈接對抓取的目標網頁進行去重處理。
[0052]也就是說,本次抓取的目標網頁(當本次是第一次抓取時,則不存在上一次,無需進行去重處理)和上一次抓取的目標網頁可能存在重復的網頁,在上一次抓取了相同網頁的情況下,本次無需再次抓取,本實施方式中,將具有相同網頁鏈接的網頁作為重復的網頁。
[0053]在具體實現中,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡;
[0054]相應地,由于不同網頁中可能存在對相同案例信息的介紹,導致案例信息可能存在重復的信息,為避免該問題,所述步驟S103之后,所述方法還包括:
[0055]S104:依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例f目息進彳丁去重處理。
[0056]由于不同病人的案例確診日期通常不同,若案例確診日期不同,則認定為不同病人,無需進行去重;
[0057]在案例確診日期相同時,則需要進行病人年齡比較,若病人年齡不同,則認定為不同病人,無需進行去重;
[0058]在病人年齡也相同時,則需要進行案例地址比較,若案例地址不同,則認定為不同病人,無需進行去重;
[0059]在案例地址也相同時,則需要進行病人名字比較,若病人名字不同,則認定為不同病人,無需進行去重。
[0060]當然,在進行病人名字比較時,可能會存在叫法不同,例如:有些網頁可能以全稱形式稱呼病人,也可能以簡稱形式(如:“姓”+“某”的稱呼方式,例:譚某等)稱呼病人,這樣可能會存在病人名字不同,但實際上為一個病人的情況,為避免該問題,本實施方式中,會通過病人名字中的“姓”來比較病人名字是否相同,也就是說,只要“姓”相同,即認定為相同病人。
[0061]在進行案例信息去重時,通常只保留相同病人的一個案例信息。
[0062]由于案例地址的表達方式可能存在不同,例如:海龍大廈,其可能會表達為:北京市海淀區中關村大街I號,也可能會表達為:北京市海淀區中關村大街和北四環交界處西南角,這兩種表達方式代表的是相同地址,為表明該問題,本實施方式中,步驟S104之前,所述方法還包括:
[0063]對所述案例地址進行統一化處理,以使各案例地址包含相同地址級數。
[0064]對于海龍大廈,可將案例地址統一化處理為:北京市海淀區,此時,無論案例地址采用哪種表達方式,均可識別為相同地址。
[0065]對于方法實施方式,為了簡單描述,故將其都表述為一系列的動作組合,但是本領域技術人員應該知悉,本發明實施方式并不受所描述的動作順序的限制,因為依據本發明實施方式,某些步驟可以采用其他順序或者同時進行。其次,本領域技術人員也應該知悉,說明書中所描述的實施方式均屬于優選實施方式,所涉及的動作并不一定是本發明實施方式所必須的。
[0066]圖3是本發明一種實施方式的互聯網案例信息提取裝置的結構框圖;參照圖3,所述裝置包括:
[0067]網頁抓取單元301,用于抓取預設網站中的各目標網頁;
[0068]內容獲取單元302,用于根據預設模板從各目標網頁中獲取網頁內容;
[0069]信息提取單元303,用于從所述網頁內容中提取案例信息。
[0070]在本發明的一種可選實施方式中,所述裝置還包括:
[0071]模板生成單元,用于根據所述預設網站的頁面布局生成所述預設模板。
[0072]在本發明的一種可選實施方式中,所述裝置還包括:
[0073]網頁去除單元,用于根據網頁鏈接對抓取的目標網頁進行去重處理。
[0074]在本發明的一種可選實施方式中,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡;
[0075]相應地,所述裝置還包括:
[0076]案例去重單元,用于依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進行去重處理。
[0077]在本發明的一種可選實施方式中,所述裝置還包括:
[0078]統一處理單元,用于對所述案例地址進行統一化處理,以使各案例地址包含相同地址級數。
[0079]對于裝置實施方式而言,由于其與方法實施方式基本相似,所以描述的比較簡單,相關之處參見方法實施方式的部分說明即可。
[0080]應當注意的是,在本發明的裝置的各個部件中,根據其要實現的功能而對其中的部件進行了邏輯劃分,但是,本發明不受限于此,可以根據需要對各個部件進行重新劃分或者組合。
[0081]本發明的各個部件實施方式可以以硬件實現,或者以在一個或者多個處理器上運行的軟件模塊實現,或者以它們的組合實現。本裝置中,PC通過實現因特網對設備或者裝置遠程控制,精準的控制設備或者裝置每個操作的步驟。本發明還可以實現為用于執行這里所描述的方法的一部分或者全部的設備或者裝置程序(例如,計算機程序和計算機程序產品)。這樣實現本發明的程序可以存儲在計算機可讀介質上,并且程序產生的文件或文檔具有可統計性,產生數據報告和cpk報告等,能對功放進行批量測試并統計。應該注意的是上述實施方式對本發明進行說明而不是對本發明進行限制,并且本領域技術人員在不脫離所附權利要求的范圍的情況下可設計出替換實施方式。在權利要求中,不應將位于括號之間的任何參考符號構造成對權利要求的限制。單詞“包含”不排除存在未列在權利要求中的元件或步驟。位于元件之前的單詞“一”或“一個”不排除存在多個這樣的元件。本發明可以借助于包括有若干不同元件的硬件以及借助于適當編程的計算機來實現。在列舉了若干裝置的單元權利要求中,這些裝置中的若干個可以是通過同一個硬件項來具體體現。單詞第一、第二、以及第三等的使用不表示任何順序。可將這些單詞解釋為名稱。
[0082]以上實施方式僅用于說明本發明,而并非對本發明的限制,有關技術領域的普通技術人員,在不脫離本發明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術方案也屬于本發明的范疇,本發明的專利保護范圍應由權利要求限定。
【主權項】
1.一種互聯網案例信息提取方法,其特征在于,所述方法包括: 抓取預設網站中的各目標網頁; 根據預設模板從各目標網頁中獲取網頁內容; 從所述網頁內容中提取案例信息。2.如權利要求1所述的方法,其特征在于,所述抓取預設網站中的各目標網頁之前,所述方法還包括: 根據所述預設網站的頁面布局生成所述預設模板。3.如權利要求1?2中任一項所述的方法,其特征在于,所述根據預設模板從各目標網頁中獲取網頁內容之前,所述方法還包括: 根據網頁鏈接對抓取的目標網頁進行去重處理。4.如權利要求1?2中任一項所述的方法,其特征在于,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡; 相應地,所述從所述網頁內容中提取案例信息之后,所述方法還包括: 依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進行去重處理。5.如權利要求4所述的方法,其特征在于,所述依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進行去重處理之前,所述方法還包括: 對所述案例地址進行統一化處理,以使各案例地址包含相同地址級數。6.一種互聯網案例信息提取裝置,其特征在于,所述裝置包括: 網頁抓取單元,用于抓取預設網站中的各目標網頁; 內容獲取單元,用于根據預設模板從各目標網頁中獲取網頁內容; 信息提取單元,用于從所述網頁內容中提取案例信息。7.如權利要求6所述的裝置,其特征在于,所述裝置還包括: 模板生成單元,用于根據所述預設網站的頁面布局生成所述預設模板。8.如權利要求6?7中任一項所述的裝置,其特征在于,所述裝置還包括: 網頁去除單元,用于根據網頁鏈接對抓取的目標網頁進行去重處理。9.如權利要求6?7中任一項所述的裝置,其特征在于,所述案例信息包括:案例確診日期、案例地址、病人名字和病人年齡; 相應地,所述裝置還包括: 案例去重單元,用于依次按照所述案例確診日期、病人年齡、案例地址和病人名字對抓取的案例信息進行去重處理。10.如權利要求9所述的裝置,其特征在于,所述裝置還包括: 統一處理單元,用于對所述案例地址進行統一化處理,以使各案例地址包含相同地址級數。
【文檔編號】G06F19/00GK105930346SQ201610209857
【公開日】2016年9月7日
【申請日】2016年4月6日
【發明人】白玉琪, 陳文歡
【申請人】清華大學