專利名稱:一種基于小波變換的半結構化文本結構復制檢測的方法
技術領域:
本發明屬于智能信息處理和計算機技術領域,具體涉及一種針對半結構化文本結構復制、抄襲的準確、有效檢測方法。
背景技術:
當前是網絡飛速發展的時代,每天都會涌現出海量的網頁。這些網頁及其背后所隱藏的信息絕大部分都是以超文本標記語言(HyperText Markup Language, HTML)文本或者可擴展標記語言(extensible Markup Language, XML)文本的格式存儲。HTML文本和 XML文本都是半結構化文本。在網絡環境下保護半結構化電子文本知識產權,特別是打擊非法復制、剽竊等不端行為,已成為國內外各界的共識,同時也是當前亟待解決的一個熱點問題。面對復雜多樣的復制剽竊,只關注其全局結構相似性往往會降低復制檢測的準確性。 因為很多復制文本并不是全部照搬照抄原文,而是局部復制和拼接等等。這就要求我們進行局部信息比對,減少局部雷同結構漏檢率,提高雷同檢測準確性。目前關于半結構化文本復制的檢測方法主要有三大類基于核矩陣的方法、基于樹編輯距離的方法、基于傅里葉變換的時序方法。基于核矩陣的方法,利用描述文本結構單元之間的相關性及其對文本相似性度量貢獻程度的矩陣M,和文本在基于SLVM模型空間下的矩陣,進行相似性計算,度量文本相似性。樹編輯距離方法是指將一個文本轉換為另一個文本,用轉換過程中所花費的最小代價來度量其相似性。這種方法的明顯缺陷是計算代價昂貴,其時間復雜度為0(N2),N為文本中元素個數即標簽個數。所以樹編輯距離方法不適用于大文本。基于傅里葉變換的時序方法,把半結構化文本變成時序序列,然后通過傅里葉變換獲得時序特征,最后根據特征向量的相似性進行復制檢測。但是傅立葉變換反映的是信號在全部時間上的整體頻率特征,不能提供局部時間上的頻率特征。所以運用傅里葉變換的方法不能觀察到半結構化文本的局部特征和細節,其對雷同性的考察不夠細致。
發明內容
針對上述問題,本發明提供了一種基于小波變換的半結構化文本結構復制檢方法。該方法也是把半結構化文本變成時序序列,但是用小波變換方法獲得結構特征。這樣可以獲得較好的局部結構特征和細節,從而提高了對局部雷同結構的檢測準確性。本發明提供一種基于小波變換的半結構化文本結構復制檢方法。其目的就是針對文本結構復制、抄襲等現象進行檢測,幫助檢測人員快速、正確地完成整個檢測過程,降低誤檢測、漏檢測風險,縮短整個檢測時間。為達到上述目的,本發明方法至少包括清洗半結構化文本、對半結構化文本編碼、 通過小波變換獲得半結構化文本結構特征、計算結構相似性、判定結構是否雷同等步驟。清洗半結構化文本將半結構化文本中的不規范字符去除,修改不匹配的標簽和無效的字符串格式,將原始半結構化文本變成符合規范的半結構化文本;半結構化文本編碼將半結構化文本的結構序列化,得到一個結構編碼序列;通過小波變換獲得半結構化文本結構特征是指對結構編碼序列進行小波變換獲得半結構化文本的結構特征向量;計算結構相似性則計算半結構化文本特征向量之間的結構距離,從而得到半結構化文本結構之間的相似性;判定結構是否雷同則根據半結構化文本結構之間的結構距離來判定兩篇半結構化文本是否結構雷同,如果結構距離小于給定閾值則雷同,否則不雷同。所述的清洗半結構化文本就是將原始半結構化文本中不規范的字符(如&、<、 去除,修改不匹配的標簽(如標簽<img>,其無終止標簽,標簽應改為和無效的字符串格式(如a = 0,0為無效字符串,應改為a =”0”),最終將原始半結構化文本變成符合規范的半結構化文本。所述的對半結構化文本編碼,在半結構化文本中每一個標簽都是成對的,由起始標簽和終止標簽構成;將所有的起始標簽編碼為1,終止標簽編碼為-1,最后按照文本中標簽的出現順序得到一個文本結構編碼序列,則這個序列表示了文本的結構特征。在編碼過程中剔除了半結構化文本的內容,僅保留相應標簽。所述的通過小波變換獲得半結構化文本結構特征按照下述過程得到(1)用標簽出現位置表示時間坐標,則得文本結構編碼序列的方波信號表示;(2)用哈爾(Haar)小波對文本結構編碼序列方波信號進行小波變換,得到相應的小波系數向量;(3)對小波系數向量進行壓縮,即將小波系數序列的絕對值與指定閾值進行比較, 小于或等于閾值的點變為0 ;大于閾值的點變為該點值與閾值的差,得到由0值填充的稀疏系數序列;(4)將非0系數平方,并按照從大到小排序,取前m個最大值,并記錄該系數對應的
位置信息,得到二維結構特征向量,即半結構化文本結構特征。如下所示
權利要求
1.一種基于小波變換的半結構化文本結構復制檢測方法,其特征在于,包括以下步驟 清洗半結構化文本、對半結構化文本編碼、通過小波變換獲得半結構化文本結構特征、計算結構相似性、判定結構是否雷同;清洗半結構化文本將半結構化文本中的不規范字符去除,修改不匹配的標簽和無效的字符串格式,將原始半結構化文本變成符合規范的半結構化文本;對半結構化文本編碼將半結構化文本的結構序列化,得到一個結構編碼序列;通過小波變換獲得半結構化文本結構特征是指對結構編碼序列進行小波變換獲得半結構化文本的結構特征向量;計算結構相似性則計算半結構化文本特征向量之間的結構距離,從而得到半結構化文本結構之間的相似性;判定結構是否雷同則根據半結構化文本結構之間的結構距離來判定兩篇半結構化文本是否結構雷同,如果結構距離小于給定閾值則雷同,否則不雷同。
2.根據權利要求1所述的復制檢測方法,其特征在于對半結構化文本編碼時,半結構化文本中每一個標簽都是成對的,由起始標簽和終止標簽構成;將所有的起始標簽編碼為 1,終止標簽編碼為-1,最后按照文本中標簽的出現順序得到一個文本結構編碼序列,則這個序列表示了文本的結構特征;在編碼過程中剔除了半結構化文本的內容,僅保留相應標簽。
3.根據權利要求1所述的復制檢測方法,其特征在于通過小波變換獲得半結構化文本結構特征時,(1)用標簽出現位置表示時間坐標,則得文本結構編碼序列的方波信號表示;(2)用哈爾小波對文本結構編碼序列方波信號進行小波變換,得到相應的小波系數向量;(3)對小波系數向量進行壓縮,即將小波系數序列的絕對值與指定閾值進行比較,小于或等于閾值的點變為0;大于閾值的點變為該點值與閾值的差,得到由0值填充的稀疏系數序列;⑷將非0系數平方,并按照從大到小排序,取前m個最大值,并記錄該系數對應的位置信息,得到二維結構特征向量,即半結構化文本結構特征。
4.根據權利要求1所述的復制檢測方法,其特征在于計算結構相似性時,首先對結構特征向量進行歸一化處理,然后根據下式計算兩篇半結構化文本的結構距離
5.根據權利要求1所述的復制檢測方法,其特征在于半結構化文本包括可擴展標記語言XML文本和超文本標記語言HTML文本。
全文摘要
本發明提供一種基于小波變換的半結構化文本結構復制檢測方法。其目的就是針對文本結構復制、抄襲等現象進行檢測,幫助檢測人員快速、正確地完成整個檢測過程,降低誤檢測、漏檢測風險,縮短檢測時間。本發明方法至少包括清洗半結構化文本、對半結構化文本編碼、通過小波變換獲得半結構化文本結構特征、計算結構相似性、判定結構是否雷同等步驟。該方法也是把半結構化文本變成時序序列,但是用小波變換方法獲得結構特征。這樣可以獲得較好的局部結構特征和細節,從而提高了對局部雷同結構的檢測準確性。
文檔編號G06F17/27GK102508879SQ20111031605
公開日2012年6月20日 申請日期2011年10月18日 優先權日2011年10月18日
發明者蘇杰, 鮑軍鵬 申請人:西安交通大學