一種公共衛生事件預警知識庫的構建方法
【技術領域】
[0001] 本發明設及數據挖掘領域,特別設及一種公共衛生事件預警知識庫的構建方法。
【背景技術】
[0002] 近年來,突發公共衛生事件不斷產生,并且呈現出間隔時間短、傳染病毒多樣的特 點。2003年,我國內地24個省區市先后發生非典型肺炎疫情(SARS),共波及266個縣和市 (區)。2009年3月,墨西哥在"人感染豬流感"疫情中最初發現了甲型H1N1流感病毒,并迅速 蔓延。3個月后,WK)宣布將甲型H1N1流感大流行警告級別提升為6級,全球進入流感大流行 階段。截至2010年3月31日,全國31個省份累計報告甲型H1N1流感確診病例12.7余萬例,其 中死亡病例800例。2013年3月,H7N9禽流感開始在全國范圍內擴散,截止2014年1月全國已 累計報告246例,死亡60多例。近10年來,Ξ次大規模的病毒爆發與流行,雖然死亡人數得到 控制,但是,國家、政府和個人每次都投入了大量的人力與財力。
[0003] 突發衛生事件發生的突然性,發展的迅速性W及影響的巨大性,決定了事件應對 措施必須及時準確。對于突發公共衛生事件,從醫學角度研究疾病的致病因素固然重要,從 事件自身內在的角度研究事件也很重要。也就是說,分析突發公共衛生事件,積累其中預警 預測,應急處理,過程評估和事態恢復等方面的知識,將會提高對突發公共衛生事件的處理 能力。
[0004] 如今,互聯網信息常被作為突發事件研究的信息載體。由于互聯網W及移動終端 能夠實現信息的發布,閱讀和轉載,從而為突發事件信息的產生、擴散乃至泛濫提供了環 境,形成了主流新聞媒體和口戶網站為主導,博客W及社交網絡為重要補充和并存的多樣 化信息獲取來源。運就造成了突發公共衛生事件信息具有分布廣泛、數據量大、快速傳播和 不斷更新的特點。運樣的信息分布結構與特點給突發事件的信息采集獲取帶來了極大困 難。而且,突發事件的信息形成階段極其隱蔽,發展階段速度極快,轉折點難于捕獲,由此帶 來的問題難W用傳統的數據挖掘方法解決。
[0005] -方面,目前傳統的數據挖掘方法基于統計學,該類方法只適于不再產生增量的 文本數據集進行處理,當面對增量文本W及大數據量的文本時會遇到了很大的問題。在面 對增量文本時,當前處理得出的結果和下一刻有增量文本加入后處理得出的結果可能有較 大偏差;在面對大數據量文本時,計算機運算所需要的時間將達到一個駭人的程度、為得出 結果所花費的時間代價是我們無法承受的。
[0006] 另一方面,當前是大數據與云存儲的時代,大量關于事件的相關信息存在于互聯 網中,為事件挖掘提供了豐富的素材,事件挖掘研究開始面向大規模的實時動態事件新聞 信息流。所W,事件挖掘研究不僅僅滿足于傳統研究中對話題與命名實體的提取,開始向挖 掘事件本身內部隱含的信息深入。
[0007] 為此,一種有效的解決方法是W知識庫為基礎,規則與機器學習相結合,建立網絡 信息流中新聞文本處理模型,W實現對特征項集的挖掘、分類、聚類、變化及異常發現等數 據流分析工作,進一步能夠追溯突發公共衛生事件發生前的潛在現象與誘發因素,探究抽 取突發公共衛生事件的特征,評估突發公共衛生事件的狀態,分析突發公共衛生事件的演 化,W及預測新事件發生。
[0008] 然而目前的問題是現有技術有沒有有效的方法來構建公共衛生事件預警知識庫, 人工構建知識庫存在工作量大且不能自動擴展和完善的問題。
【發明內容】
[0009] 為此,本發明的目的是提供一種可W自動實現的公共衛生事件預警知識庫的構建 方法,使用該方法可W使得知識庫實現自擴展、自完善。
[0010] 本發明提供的一種公共衛生事件預警知識庫的構建方法,包括W下步驟:
[0011] S100構建初始領域知識庫;
[0012] S200文本分類;
[0013] S300詞聚類并擴展知識庫。
[0014] 通過本發明的方法,具有W下優點:
[0015] (1)由于整個方法大部分可W通過計算機實現,節約了人力成本;
[0016] (2)由于計算機實現不易出錯,因此可W確保知識庫構建的準確性;
[0017] (3)由于公共衛生事件具備突發性,且其輿情、疫情隨時變化,本方法具有可擴展 性,可W隨著事件發展隨時更新知識庫。
【附圖說明】
[0018] 圖1是突發公共衛生事件知識庫構建總體流程圖;
[0019] 圖2是初步構建領域知識庫的流程圖;
[0020] 圖3是文本分類的流程圖;
[0021 ]圖4是計算各段落中詞的權重的流程圖;
[0022] 圖5是詞聚類的流程圖;
[0023] 圖6是聚類算法的流程圖;
【具體實施方式】
[0024] 下面結合附圖對本發明的【具體實施方式】作進一步說明,但不作為對本發明的限 定。
[0025] 在本實施例中,WH7N9為目標事件為例,先通過Wikipedia W及利用專家知識等建 立一并不完善的領域知識庫。通過分析事件文本的內容屬性,實現知識庫自身結構與內容 方面的擴展。
[0026] 參見圖1,對H7N9事件的知識庫的構建可W劃分為W下幾個步驟:
[0027] S100:構建初始領域知識庫;
[0028] S200:文本分類;
[00巧]S300:詞聚類并擴展知識庫。
[0030]運些步驟的具體實現將在下文中詳細給出。需要指出的是:為了敘述嚴謹,在執行 某些步驟前我們指明進行文本預處理操作,而絕大部分的文本預處理結果(如無特殊說明) 在起初的預處理中便已得到,在實驗中使用運些結果即可,不需要將原語料文本重新處理。
[0031] 圖2為構建初始領域知識庫的流程,從圖中可W看到,首先我們獲取一定數量的 H7N9事件文本,將其分類并提取出詞組或詞,最后將提取的詞組或詞進行結構化處理,得出 知識庫的屬性和值。該步驟具體包括:
[0032] S110:領域分析。從網絡媒體中,包括新浪網,騰訊網與新華網上捜集關于H7N9病 毒突發衛生事件的事件文本,分析H7N9流感事件生命周期所設及的各個領域;
[0033] S120:框架建立。包括通過閱讀文獻人工選擇代表性領域術語作為屬性,構建事件 框架;
[0034] S130:根據文獻中的知識等,填充初始領域知識庫中的屬性和值。
[0035] 在領域知識庫初步構建后,接下來對抓取到的文本進行分類,具體步驟結合圖3說 明如下:
[0036] S210:對事件文本進行預處理(包括文本分段、分詞、詞性標注W及語法結構分析) 運里主要使用分段、分詞的結果;
[0037] S220:依據TF-IDF公式計算各段落中詞的權重;
[0038] S230:對W段落為單位的文本進行關鍵詞標記,取出關鍵詞的TF-IDF權值;
[0039] S240: W關鍵詞建立空間向量模型,將段落文本映射到空間中。
[0040] 參見圖4,其中步驟S220依據TF-IDF公式計算各段落中詞的權重進一步包括:
[0041] S221:新聞文本預處理。按照文本中的自然段落進行分段,并給定唯一段落編號, 建立索引;
[0042] S222:使用語義分析器對每個段落文本進行分詞、詞性標注、語法結構分析,整理 出段落號與詞構成的序偶 <段落號,詞〉;
[0043] S223:按照段落號對序偶進行排序、分組,作為任務組發布到Reducer;
[0044] S224:統計各個段落中出現詞的詞頻,存儲統計結果,建立索引與段落相對應;
[0045] S225:使用數據庫操作技術SQL命令整理得到詞與段落號構成的序偶<詞,段落號 〉;
[0046] S226:按照詞進行序偶排序與任務分組,發布到Reducer;
[0047] S227:計算倒排文檔頻度,并存儲;
[004引S228:再次利用數據庫操作技術S(iL命令,求解各個段落中各個詞的TF-IDF權重 值,并輸出結果。
[0049] 對文本進行分類后,接下來對分類后的文本中的詞進行聚類操作,并擴展知識庫。 在聚類過程中,我們需要使用詞與詞之間的關系,為了使計算機可W理解運些關系,定義了 文檔詞關系表示模型。文檔詞關系表示模型的本質是無向連接圖,因此其具有無向連接圖 的屬性,運些屬性定義如下:
[0050] 結點的度(d):若結點與其他結點具有聯系,即結點之間存在邊。假設結點a與N個 結點具有聯系,那么該結點