專利名稱:類似內容提取方法
技術領域:
本發明專利涉及一種用于提取對象文檔和比較文檔之間的類似內容的提取方法和提取裝置。
背景技術:
近年,對目標對象和檢測對象進行比較來提取相似度較高的類似內容的信息檢測技術變得非常流行。例如,隨著科學技術的發展,被發表的論文越來越多,因此,在新的論文提交時,會存在一個普遍的問題,即各個學會和雜志的評審們會花費大量的時間去檢測論文是否剽竊其他論文,為了更有效地更快地評審,信息檢測技術被應用到論文防剽竊系統中,利用信息檢測技術,能夠檢測被檢測文檔中是否含有目標文檔中信息。
·
并且,信息檢測技術還被應用到客觀題審批領域中,從而提高批閱設備的效率。此夕卜,信息檢測技術還可以應用到輸出管理系統中。用來防止傳統的人工管理中存在的效率低、容易發生遺漏的問題。在現有信息檢測技術中,一般來說,逐一比較對象文檔的每一個句子和目標文檔的每一個句子,計算各個句子之間的相似度。在中國發明專利《一種利用網絡資源實現剽竊和格式檢查的在線論文管理方法(2006101150. 8)》中提出了一種信息檢測技術中的相似度計算方法。在該管理方法中,將文檔直接劃分成句子,然后利用Google搜索引擎對被劃分的句子的主干進行檢索,最后根據得到相似度權值來判斷抄襲的等級。此外,在論文《基于語義分析樹核的句子相似度計算》(王利局大連理工大學中國知網)中也曾有提出過一種相似度的計算方法。這篇論文是針對漢語句子進行的。具體來說,對句子進行分詞和詞性標注后,分別從句法結構特征、詞語語義特征和詞形特征三個方面得到的特征權重進行加權計算,來計算兩個句子的相似度。在這些現有技術中,都存在的問題是在系統對被檢測文檔進行處理時,都是直接將對象文檔劃分成每個句子,然后逐句地與目標文檔進行比較處理,分別求出相似度。這樣一來,計算系統的數據處理量相當大,需要花費大量的時間,導致工作效率低下。
發明內容
本發明就是為了解決上述技術問題而完成的,其目的在于提供一種能夠大大減少數據處理量和處理時間的類似內容提取方法和提取裝置。本發明是一種對象文檔與比較文檔的類似內容提取方法,其特征在于,包括輸入步驟,輸入對象文檔和比較文檔;段落名詞組生成步驟,將對象文檔和比較文檔按照每個段落進行拆分,從上述對象文檔的各個段落中提取名詞,生成各個段落對應的對象名詞組,從上述比較文檔的各個段落中提取名詞,生成各個段落對應的比較名詞組;選擇步驟,從上述對象名詞組中,選擇包含有上述比較文檔中記載的、進入特定單詞列表中的單詞在內的對象名詞組;計算步驟,計算所選擇的上述對象名詞組與上述比較名詞組之間的第一相似度;句子名詞組生成步驟,以上述第一相似度的規定順序依次將對應于所選擇的對象名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應的對象句名詞組,將對應于上述比較名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應的比較句名詞組;以及對象句提取步驟,計算上述對象句名詞組與上述比較句名詞組之間的第二相似度,按照上述第二相似度的規定順序依次提取對應于對象句名詞組的句子即對象句。此外,本發明的類似內容提取方法也可以是,還具有數值比較步驟,在對象句提取步驟中提取的對象句和目標文檔的句子中包括數值的情況下,進行數值及數值相關詞干的比較,僅在數值及數值相關詞干都符合規定的條例的情況下,輸出相似且符合,在不符合規定的條例的情況下,輸出相似但不符合。本發明還可以是一種對象文檔與比較文檔的類似內容提取裝置,其特征在于,包括輸入模塊,輸入對象文檔和比較文檔;段落名詞組生成模塊,將對象文檔和比較文檔按照每個段落進行拆分,從上述對象文檔的各個段落中提取名詞,生成各個段落對應的對象名詞組,從上述比較文檔的各個段落中提取名詞,生成各個段落對應的比較名詞組;選擇模 塊,從上述對象名詞組中,選擇包含有上述比較文檔中記載的、進入特定單詞列表中的單詞在內的對象名詞組;計算模塊,計算所選擇的上述對象名詞組與上述比較名詞組之間的第一相似度;句子名詞組生成模塊,以上述第一相似度的規定順序依次將對應于所選擇的對象名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應的對象句名詞組,將對應于上述比較名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應的比較句名詞組;以及對象句提取模塊,計算上述對象句名詞組與上述比較句名詞組之間的第二相似度,按照上述第二相似度的規定順序依次提取對應于對象句名詞組的句子即對象句。本發明的類似內容提取方法中,先將文檔按照段落進行劃分,然后找到與目標段落較為相似(相似度較高)的檢測段落,再對與目標段落較為相似的檢測段落進行句子劃分,僅比較選擇出的與目標段落較為相似的檢測段落的各個句子與目標句子之間的相似度。通過如上所述分兩個階段計算相似度,能夠大大減少處理數據量以及處理時間,提高提取裝置的整體效率。本發明的提取方法不但能夠應用到論文防剽竊系統以及客觀題審批領域,更可以應用到輸出管理系統中,從而高效地進行輸出管理。
圖I是本發明的提取裝置涉及的計算機系統的組成圖。圖2是說明本發明的第一實施方式涉及的提取方法的流程圖。圖3是本發明的第一實施方式中例舉的被測文檔和目標文檔的示例圖。圖4是說明本發明的提取裝置中的段落劃分模塊進行段落劃分之后的結果示例圖。圖5是說明本發明的提取裝置中的名詞抽取模塊進行名詞抽取之后的結果示例圖。圖6是本發明的第一實施方式涉及的敏感字典的示例圖。圖7是本發明的第一實施方式中例舉的相似度較高的被檢測段落和目標段落的示例圖。圖8是本發明的第一實施方式中例舉的被測句子的名詞集合和目標句子的名詞集合的示例圖。圖9是說明本發明的第二實施方式的流程圖。圖10是本發明的第二實施方式中例舉的被測文檔和目標文檔的示例圖。圖11是本發明的第二實施方式中例舉的段落劃分模塊處理結果的示例圖。圖12是本發明的第二實施方式中例舉的名詞抽取模塊處理結果的示例圖。圖13是本發明的第二實施方式中例舉的相似度較高的被檢測段落和目標段落的示例圖。
圖14是本發明的第二實施方式中例舉的被測句子的名詞集合和目標句子的名詞集合的示例圖。圖15是用于說明本發明的第二實施方式涉及的數值比較方法的示例圖。
具體實施例方式以下結合附圖來詳細說明本發明涉及的具體實施方式
。(第一實施方式)本發明的類似內容提取裝置能夠作為軟件或硬件模塊嵌入計算機系統中發揮作用。圖I是本發明的提取裝置涉及的計算機系統的組成圖。如圖I所示,本發明的提取裝置涉及的計算機系統主要包括處理核心、處理核心外圍的數據庫以及對提取結果107、110進行顯示的瀏覽器。處理核心相當于本實施方式涉及的對象文檔與比較文檔的類似內容提取裝置。其中,處理核心外圍的數據庫可以通過現有的存儲裝置加以實現,包括預先從目標文檔100中抽取的敏感詞字典101、作為普通的電子字典的同義詞字典102、被檢測文檔103以及歷史數據庫108等。其中,敏感詞字典101中預先保存有特定單詞列表中的單詞,可以將某些輸出管理中的敏感名詞作為特定單詞存儲在敏感詞字典101中。此外,除了同義詞字典102,也可以包括其他現有的類似數據庫,以供處理核心使用。對提取結果107、110進行顯示的瀏覽器是該計算機系統的輸出裝置。也可以使用語音等輸出裝置。處理核心相當于本發明的類似內容提取裝置,包括段落劃分模塊104、名詞抽取模塊105、檢測模塊106以及歷史記錄查詢模塊109。具體來說,段落劃分模塊104用于從目標文檔100或被檢測文檔103中提取文本數據,將這些文本數據按照每個段落進行劃分,從而建立各個段落與文檔之間的索引并儲存在數據庫中。同時,段落劃分模塊104還具有將目標文檔100或被檢測文檔103的段落的文本數據按照每個句子進行劃分,從而建立各個句子與文檔之間的索引并儲存在數據庫中的功能。名詞抽取模塊105從被段落劃分模塊104劃分后的各個段落或句子中提取該段落或句子中記載的所有名詞,將所提取的名詞保存成與各個段落或句子相對應的名詞集合。段落劃分模塊104與名詞抽取模塊105對應于本發明中的“輸入模塊”、“段落名詞組生成模塊”以及“句子名詞組生成模塊”。
檢測模塊106是提取裝置中的檢索及計算模塊,能夠將敏感詞字典101中保存的敏感詞作為關鍵字,在名詞抽取模塊105生成的與被檢測文檔103的各個段落相對應的各個名詞集合中檢索是否含有這些敏感詞,并且,對含有敏感詞的名詞集合與名詞抽取模塊105從目標文檔100提取的與各個段落相對應的名詞集合進行相似度計算,把相似度的計算結果保存到歷史數據庫108中,并作為結果107顯示到瀏覽器上。并且,檢測模塊106還按照上述段落之間的相似度結果,將與各個名詞集合對應的被檢測文檔103的段落進行排序,按照規定順序(例如從高到低的順序)依次計算被檢測文檔103的段落的每個句子的名詞集合與所類似的目標文檔100的段落中的每個句子的名詞集合之間的類似度,并將結果顯示在瀏覽器上。此外,檢測模塊106還可以按照句子之間的類似度的規定順序(例如從高到低的順序)提取被檢測文檔103的相應的句子作為對象句用于顯示。檢測模塊106對應于本發明中的“選擇模塊”、“計算模塊”以及“對象句提取模塊”。歷史記錄查詢模塊109提供搜索歷史記錄查詢功能并將搜索結果顯示到瀏覽器上110。歷史記錄查詢模塊109主要用于用戶查詢過去的比較結果,在本發明中,在不需要進行歷史查詢的情況下,也可以省略歷史記錄查詢模塊109。 圖2是說明本發明的第一實施方式涉及的提取方法的流程圖。以下利用圖2所示的流程詳細說明第一實施方式涉及的對象文檔與比較文檔的類似內容提取方法。如圖2所示,在本發明的被檢測文檔103(對象文檔)與目標文檔100(比較文檔)的類似內容提取裝置中,首先,通過段落劃分模塊104對被檢測文檔103 (對象文檔)與目標文檔100(比較文檔)進行分段處理(步驟201),把目標文檔100和用戶上傳到數庫的所有被檢測文檔103進行段落劃分,并建立段落與文檔之間的索引。接著,名詞抽取模塊105從劃分后的各個段落中提取該段落中的所有名詞,生成與各個段落相對應的多個名詞集合后加以保存(步驟202)。之所以對文檔只進行名詞抽取,是因為名詞可以代表所在文檔的大概意思,并且易于進行比較。接著,為了減少系統的工作量,在本發明中,利用敏感詞字典101對這些名詞集合進行敏感詞檢測,即,將敏感詞字典101中的敏感詞作為關鍵字,檢索被檢測文檔103的各個段落所對應的名詞集合,來進行敏感詞匯的搜索(步驟203)。該步驟203是第一次過濾,能夠剔除與目標文檔100毫無關聯的被檢測文檔103的段落。如果檢索結果是在被檢測文檔103中沒有出現任何敏感詞,則進入步驟204,判斷為該被檢測文檔103與目標文檔100沒有任何關系。如果在輸出管理體系中則可以判斷為能夠輸出。相反地,如果檢索結果是在被檢測文檔103中出現了敏感詞,則進入步驟205,對被檢測文檔103進行下一步處理。在步驟205中,檢測模塊106利用同義詞字典102對所檢測出的含有敏感詞的被檢測文檔103的段落所對應的名詞集合與目標文檔100的某個段落所對應的名詞集合進行相似度計算。對所計算出的相似度進行預定的排序。此處所謂的規定排序是指根據用戶需要所進行的排序,例如在將本發明應用到論文防剽竊系統中時,需要找出相似度較高的文檔,因此,可以根據相似度的大小,將各個段落按照相似度從大到小的順序進行排序。以便從相似度最大的段落開始進行處理。也可以根據用戶的需求,基于所計算出的段落相似度結果,僅選擇相似度大小超過規定閾值或滿足某種條件的段落來進行下一步的處理。由此,能夠進一步剔除與目標文檔100的段落關聯不大的被檢測文檔103的段落。在第一實施方式中,此處設置為僅選擇在相似度從大到小排列中規定數量(例如從頭開始前10個相似度所對應的段落文檔)的相似度較高的被檢測文檔103的段落(步驟206)。接著,針對所選擇出的上述規定數量的被檢測文檔103的段落以及作為上述比較的基礎的目標文檔100的段落,通過段落劃分模塊104對被檢測文檔103的段落與目標文檔100的段落進行句子劃分,將各個段落按照每個句子劃分成句子文檔,并利用名詞抽取模塊105從各個句子文檔中提取各個句子相對應的名詞集合(步驟207),進而,再一次通過檢測模塊106對在步驟207中被劃分出來的、被檢測文檔103的句子所對應的名詞集合與目標文檔100的句子所對應的名詞集合進行相似度計算(步驟208)。并且,在目標文檔103包括多個段落的情況,能夠將所選擇出的上述規定數量的被檢測文檔103的段落與目標文檔103的多個段落逐一進行比較。最后把相似度的計算結果加以存儲以便用于輸出管理,或者按照規定的順序(例如從大到小的順序)將步驟208計算 出的相似度排序,以該相同順序將相似度所對應的被檢測文檔103的句子作為對象句顯示在顯示器(瀏覽器)上來提示給用戶(步驟209)。此外,如果用戶想查詢上次的記錄,通過歷史記錄查詢模塊109可以實現歷史查詢。上述分別對段落以及句子進行的相似度計算也可以采用現有的相似度計算方法。例如,采用依賴兩個字符串含有共同詞形的數量的相似度計算方法。舉例說明,設兩個字符串包含名詞的數量分別是M和N,兩個字符串共同詞形的數量是NK。只存在于第一個字符串中名詞的個數是NL等于M-NK,只存在于第二個字符串中名詞的個數是ND等于N-NK。則相似度計算公式如公式I. I所示。SIM = -~1,1
Nk + Nl + Np下面例舉在提取某一被檢測文檔103 (簡稱為被測文檔)與目標文檔100之間的類似內容時進行的具體動作來詳細說明本發明。圖3是本發明的第一實施方式中例舉的被測文檔和目標文檔的示例圖。如圖3所示,目標文檔(sourcel)與被測文檔(testl)都是多段落文檔,本發明的提取裝置用于檢測被測文檔與目標文檔之間的相似關系。圖4是說明本發明的提取裝置中的段落劃分模塊進行段落劃分之后的結果示例圖。如圖4所示,經過段落劃分模塊104的處理,目標文檔(sourcel)被劃分為兩個段落文檔sourcel. paragraphl、sourcel. paragraph〗,被測文檔(testl)被劃分為三個段落文檔。分段之后,名詞抽取模塊105對劃分后的每個段落逐一進行名詞抽取,并以名詞集合的形式保存在服務器上,圖5是說明本發明的提取裝置中的名詞抽取模塊進行名詞抽取之后的結果示例圖。接著,然后調用如圖6所示的敏感詞字典對剛剛得到的各個名詞集合進行敏感詞搜索。因為在被測文檔的名詞集合中存在敏感詞,所以要運用同義詞字典102和上述公式I. I進行段落之間的相似度的計算處理。作為圖3所示的例子目標段落和被測段落相似度的計算結果如表I所示。表I :本發明實施例中目標段落和被測段落相似度的計算結果的示例
權利要求
1.一種對象文檔與比較文檔的類似內容提取方法,其特征在于,包括 輸入步驟,輸入對象文檔和比較文檔; 段落名詞組生成步驟,將對象文檔和比較文檔按照每個段落進行拆分,從上述對象文檔的各個段落中提取名詞,生成各個段落對應的對象名詞組,從上述比較文檔的各個段落中提取名詞,生成各個段落對應的比較名詞組; 選擇步驟,從上述對象名詞組中,選擇包含有上述比較文檔中記載的、進入特定單詞列表中的單詞在內的對象名詞組; 計算步驟,計算所選擇的上述對象名詞組與上述比較名詞組之間的第一相似度; 句子名詞組生成步驟,以上述第一相似度的規定順序依次將對應于所選擇的對象名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應的對象句名詞組,將對應于上述比較名詞組的段落按照每個句子進行拆分,并提取名詞,生成各個句子對應的比較句名詞組;以及 對象句提取步驟,計算上述對象句名詞組與上述比較句名詞組之間的第二相似度,按照上述第二相似度的規定順序依次提取對應于對象句名詞組的句子即對象句。
2.根據權利要求I所述的類似內容提取方法,其特征在于, 還具有數值比較步驟,在對象句提取步驟中提取的對象句和目標文檔的句子中包括數值的情況下,進行數值及數值相關詞干的比較,僅在數值及數值相關詞干都符合規定的條例的情況下,輸出相似且符合,在不符合規定的條例的情況下,輸出相似但不符合。
3.根據權利要求I所述的類似內容提取方法,其特征在于, 還具有數值比較步驟,在對象句提取步驟中提取的對象句或目標文檔的句子中不包括數值的情況下,輸出相似且符合。
4.根據權利要求2或3所述的類似內容提取方法,其特征在于, 所述數值相關詞干包括領域關鍵詞、物理量名稱、大小關系或者單位。
5 根據權利要求I所述的類似內容提取方法,其特征在于, 上述第一相似度的規定順序和上述第二相似度的規定順序都是相似度從大到小排列的順序。
6.根據權利要求I所述的類似內容提取方法,其特征在于, 還具有歷史記錄查詢步驟,提取在上述對象句提取步驟中提取的對象句并通過輸出裝置提示給用戶。
全文摘要
本發明的目的在于提供能夠減少數據處理量和處理時間的提取方法。該類似內容提取方法包括輸入對象文檔和比較文檔的步驟;將對象文檔和比較文檔按照每個段落進行拆分,生成對象名詞組和比較名詞組的步驟;從上述對象名詞組中,選擇包含有進入特定單詞列表中的單詞在內的對象名詞組的步驟;計算所選擇的對象名詞組與比較名詞組之間的第一相似度的步驟;以第一相似度的規定順序依次將對應于所選擇的對象名詞組和比較名詞組的段落按照每個句子進行拆分,生成對象句名詞組和比較句名詞組的步驟;以及計算對象句名詞組與比較句名詞組之間的第二相似度,按照第二相似度的規定順序依次提取對應于對象句名詞組的句子即對象句的步驟。
文檔編號G06F17/30GK102789452SQ20111012549
公開日2012年11月21日 申請日期2011年5月16日 優先權日2011年5月16日
發明者尚磊, 細矢淳 申請人:株式會社日立制作所