一種提高Web數據語義標注的準確性的方法
【技術領域】
[0001] 本發明屬于網頁技術領域,涉及一種提高Web數據語義標注的準確性的方法。
【背景技術】
[0002] 隨著WWW的不斷發展,Web網頁中已經存放了涵蓋各個領域的大量有價值的信息。 Web數據對象正是這樣一類由多個數據元素及可選的語義標簽按照特定模式組織在一起的 半結構化數據對象。對從HTML網頁中抽取出的Web數據對象準確地進行語義標注,即為抽 取到的每個數據元素分配一個有意義的標簽來表示該數據元素的語義,這將為Web數據集 成提供必要的數據基礎。
[0003] 調查研究表明,不同網站上的同類Web數據對象呈現出很強的序列性,例如, 主流在線營銷的售書網站上,圖書的名稱通常位于圖書的描述信息之前。條件隨機場 (Conditional Random Fields,簡稱CRF)模型是目前處理序列數據分割與標注問題的最好 的統計機器學習模型。但是,現有的CRF模型在Web數據語義標注中仍存在一些問題,導致 語義標注準確度較低。
[0004] 首先,現有的CRF模型沒有利用已有的Web數據庫信息輔助進行標注。例如,主流 在線營銷的售書網站上,利用已有的Web數據庫信息可以得到著書人的名字標注"作者"標 簽的可信度應該遠遠高于其它標簽,借助可信度處理可以確保Web數據元素由可信度高的 標簽集進行標注。其次,現有的CRF模型采用Viterbi推理方法,無法利用Web數據元素之 間存在的邏輯關系,例如,在線售書網站上,同一圖書的所有數據元素標簽總是不重復的, 并且同一圖書的原價總是大于等于現價,借助Web數據元素之間的邏輯關系可以避免語義 標注的邏輯錯誤。根據上述分析可知,已有的Web數據庫信息和Web數據元素之間的邏輯 關系對于Web數據語義標注準確性的提高具有十分重要的作用。
[0005] Web數據語義標注是Web信息抽取中的關鍵步驟,條件隨機場是利用序列特征處 理序列標注問題的經典方法,然而現有條件隨機場模型無法綜合利用已有的Web數據庫信 息和Web數據元素之間的邏輯關系,導致Web數據語義標注準確率不高。
[0006] 目前,在Web數據語義標注研究方面有不少工作。Embley等利用本體加上一些 啟發式規則的方法在包含多條Web數據記錄的文檔中自動地抽取數據,并進行語義標注。 Arlotta等提出一種完全自動地對搜索結果中的數據項標注有意義標簽的方法,利用結果 頁面中距離數據項最近的標簽進行標注。但是,這個方法具有一定的局限性,因為很多網站 沒有將相關標簽在結果頁面中顯示出來。馬安香等針對Deep Web頁面提出了基于結果模式 的Deep Web數據抽取機制,有效地解決了重復語義標注問題。但是,這個方法僅針對Deep Web頁面,并沒有考慮普通的Surface頁面。以上方法均沒有考慮對已有Web數據庫信息和 Web數據元素之間邏輯關系的利用。
[0007] 條件隨機場是利用序列特征處理序列數據分割與標注問題的經典機器學習方法, 在自然語言理解、信息提取等多個領域得到了廣泛的應用。聶再清等提出的ECRF模型利用 了已有的Web數據庫信息輔助Web對象抽取。但是,該模型無法處理Web數據元素之間的 邏輯約束。另外一些研究人員也考慮在條件隨機場的Viterbi推理算法中引入約束條件, 但只支持一些簡單約束。Kristjannson等提出了約束Viterbi方法引入某些類型的約束條 件,但是這些約束僅限于"強制標注某些數據元素是否為指定標簽",不能滿足更加復雜的 約束,而且也沒有利用已有的數據庫信息進行語義標注。
[0008] 基于整數線性規劃進行推理的想法已經被一些方法提出。Dan Roth等在自然語 言理解的語義角色標注中,利用句法約束標注句子中謂詞論元及附屬成分標上其擔任的語 義角色。該方法沒有考慮已有數據庫信息對語義角色標注的影響。同時,在邏輯約束方面, Web數據語義標注中會出現自然語言理解中考慮不到的約束情況,例如,"同一圖書的原價 大于現價"的約束等,因此,還需要重新研究Web數據語義標注的邏輯約束問題。
[0009] 綜上所述,已有方法都沒有給出一個Web數據語義標注中綜合利用已有Web數據 庫信息和Web數據元素之間邏輯關系的方法。
【發明內容】
[0010] 本發明的目的是提供一種提高Web數據語義標注的準確性的方法,解決了現有技 術中存在的問題。
[0011] 本發明所采用的技術方案是,一種提高Web數據語義標注的準確性的方法,具體 按照以下步驟進行:
[0012] 步驟 1,
[0013] 擴展傳統的CRF模型;將該模型引入可信約束和邏輯約束;
[0014] 步驟 2,
[0015] 采用整數線性規劃推理方法,將可信約束和邏輯約束同時引入推理過程,顯著提 高Web數據語義標注的性能;
[0016] 其中,可信約束指的是Web數據對象中每個數據元素取不同標簽的可信度,它通 過利用已有的Web數據庫信息構建標簽分類器進行獲取;邏輯約束指的是Web數據對象中 數據元素之間的邏輯關系,通過布爾表達式進行描述。
[0017]本發明的有益效果是,提出一種約束條件隨機場模型(CCRF),該模型通過引入可 信約束和邏輯約束,有效利用了已有的Web數據庫信息和Web數據元素之間的邏輯關系。為 了克服現有條件隨機場模型Viterbi推理方法無法綜合利用這兩類約束的不足,該模型擴 展了傳統的CRF模型,采用整數線性規劃推理方法,將兩類約束同時引入推理過程。通過在 多個領域的真實數據集上的試驗結果表明,所提出的模型能夠顯著提高Web數據語義標注 的性能,并且為Web信息抽取奠定了良好的基礎。
【附圖說明】
[0018] 圖1是CRF推理問題轉化為最短路徑問題的構造圖。
[0019] 圖2CRF,CRF+CC,CRF+LC和CCRF模型在不同數據集上的實例標注準確率。
[0020] 圖3Book上F1平均值隨可信度閾值的變化。
[0021] 圖4Paper上F1平均值隨可信度閾值的變化。
[0022] 圖5Book上F1平均值隨邏輯約束逐漸遞增的變化。
[0023] 圖6Book上F1平均值隨訓練樣本數量的變化。
[0024] 圖7Paper上F1平均值隨訓練樣本數量的變化。
[0025] 圖SPaper數據集上F1平均值隨數據庫大小的變化。
[0026] 圖9Paper數據集上實例標注準確率隨數據庫大小的變化。
【具體實施方式】
[0027] 下面結合附圖和【具體實施方式】對本發明進行詳細說明。
[0028] 本發明一種提高Web數據語義標注的準確性的方法,具體按照以下步驟進行: [0029]步驟 1,
[0030] 擴展傳統的CRF模型;將該模型引入可信約束和邏輯約束;
[0031] 步驟 2,
[0032] 采用整數線性規劃推理方法,將可信約束和邏輯約束同時引入推理過程,顯著提 高Web數據語義標注的性能。
[0033] 其中可信約束指的是Web數據對象中每個數據元素取不同標簽的可信度,它通過 利用已有的Web數據庫信息