的判斷依據。采用步驟(C2)和步驟(C3)這種兩階段的比對是有效的,這是因為兩篇文檔“文字結構相似”可以視作“文本語義相似”的一個充分條件。所述新關鍵詞的自動學習方法進一步提高了本發明文本內容比對方法的有效性。
【附圖說明】
[0013]圖1為本發明文檔注冊和關鍵詞自動學習流程圖。
[0014]圖2為本發明文本內容快速比對方法流程圖。
【具體實施方式】
[0015]下面結合附圖和【具體實施方式】對本發明作進一步描述。應當理解,此處所描述的【具體實施方式】僅用于解釋本發明,并不用于限定本發明。
[0016]本發明所述文本內容比對系統由兩個部分構成,第一部分為文檔注冊子系統,用于從待注冊文檔中學習關鍵詞和構造注冊文檔庫,其流程如圖1所示;第二部分為文檔比對子系統,用于將待比對文檔與注冊文檔庫中的文檔進行文本內容比對,其流程如圖2所示。此兩個部分(及對應的圖1和圖2)共用以下三個數據:“105自動學習的關鍵詞庫”,“106注冊文檔的文本語義表達庫”和“107注冊文檔的文字結構表達庫”。初始狀態下(未注冊任何文檔時),“105自動學習的關鍵詞庫”包含一些通用的詞、詞組,例如《現代漢語詞典》中至少兩個漢字構成的詞、詞組、成語以及應用領域已知的專業術語等。106和107統稱為“注冊文檔庫”。
[0017]如圖1所示,文檔注冊子系統通過四個步驟完成一篇待注冊文檔的注冊過程:“101新關鍵詞識別”,“102關鍵詞提取”,“103文本語義表達”和“104文字結構表達”。
[0018]具體地,“101新關鍵詞識別”通過一個迭代的過程從待注冊文檔的文本中自動學習新的關鍵詞。首先,對待注冊文檔中的文字內容進行斷句處理,分解為句子的集合,并令C表示侯選新關鍵字集合且初始化為空;第二步,以句子為單位,搜索“105自動學習的關鍵詞庫”和C中標記為通過統計檢驗的侯選新關鍵字集合,獲得能夠最大程度覆蓋句子中的文字、且所需關鍵詞數最少的句子切分方案,稱該切分方案包含的關鍵詞為舊關鍵詞;第三步,剔除切分方案中包含的停用詞(stopword),提取候選新關鍵詞,包括:連續的兩個單字連接起來的字序列,一個單字和隨后的一個舊關鍵詞連接起來的字序列,以及一個舊關鍵詞及隨后的一個單字連接起來字序列;第四步,將候選新關鍵詞并入集合C,累計本次迭代中每個候選新關鍵詞出現的次數,運用統計方法確定其中的新關鍵詞,為每個確定的新關鍵詞作通過統計檢驗標記。所述統計方法包括但不僅限于依據頻度閾值t確定新關鍵詞:給定頻度閾值t(t>l),C中出現次數大于等于t的侯選新關鍵詞確定為新關鍵詞;第五步,重復第二步、第三步、第四步直到第四步沒有標記任何通過統計檢驗的候選新關鍵詞或達到指定的迭代次數。最后,將C中標記為通過統計檢驗且計數大于O的新關鍵詞添加到“105自動學習的關鍵詞庫”。
[0019]以文本“賒銷和收款是兩要素,而賒銷往往導致逾期應收款,要重視應收款管理。”為例說明所述“101新關鍵詞識別”過程。設初始的“105自動學習的關鍵詞庫”包含通用關鍵詞“要素”、“往往”、“導致”、“逾期”,“重視”和“管理”,停用詞包括“和”、“是”,“而”、“往往”和“要”,頻度閾值設為t=2。首先,該文本被分解為三個句子:“賒銷和收款是兩個要素”、“而賒銷往往導致逾期應收款”和“要重視應收款管理”。第一次迭代中所述第二步得到的切詞方案是“賒銷和收款是兩要素”、“而賒銷往往導致逾期應收款”和“要重視應收款管理”;第三步提取到候選新關鍵詞“賒銷”、“收款”、“兩要素”、“逾期應”、“重視應”、“應收”和“款管理”;第四步得到的集合(:為{ “賒銷,,/2,“收款”/3,“兩要素”/I,“逾期應”/1,“重視應,,/1,“應收”/2,“款管理”/I},其中符號后面的數字表示每個候選新關鍵詞在本次迭代中出現的次數,應用統計方法作標記后得到集合C={ “賒銷”/2*,“收款”/3*,“兩要素”/I,“逾期應”/1,“重視應”/1,“應收”/2*,“款管理”/1},這里符號是候選新關鍵詞通過統計檢驗的標記。接著,開始第二次迭代,所述第二步得到的切詞方案分別變為“賒銷和收款是兩要童”、“而賒銷往往導致逾期應收款”和“要重視應收款管理”;此時,第三步提取到新的候選新關鍵詞為“兩要素”、“應收款”和“款管理”;第四步得到的集合C變為{ “賒銷”/2*,“收款”/1*,“兩要素”/I,“應收”/2*,“應收款”/2*,“款管理”/I}。再進行第三次迭代,切詞方案分別為“賒銷和收款是兩要素”、“而賒銷往往導致逾期應收款”和“要重視應收款管理”;第三步提取到候選新關鍵詞只有“兩要素”;接下來的第四步處理的集合C為{ “賒銷”/2*,“收款”/I*,“兩要素”/I,“應收”/0*,“應收款”/2*},不會標記任何通過統計檢驗的候選新關鍵詞,迭代結束。最后得到自動學習的新關鍵詞有“賒銷”、“收款”和“應收款”。
[0020]進一步地,圖1“102關鍵詞提取”使用更新后的“105自動學習的關鍵詞庫”,重新掃描待注冊文檔中的文本內容,提取出文檔包含的關鍵詞。具體地,首先將待比對文檔中的文字進行斷句處理,分解為句子的集合;接著,對于每個句子,搜索“105自動學習的關鍵詞庫”,獲得能夠最大程度覆蓋句子中的文字、且所需關鍵詞數最少的句子切分方案;最后,刪除句子中未對應關鍵詞的文字。“103文本語義表達”和“104文字結構表達”使用所提取的關鍵詞構造注冊文檔庫。具體地,“103文本語義表達”提取每個句子的關鍵詞(或關鍵詞在“105自動學習的關鍵詞庫”的編號)序列構成待比對文檔的“文字結構表達”方式,保存到“107注冊文檔的文字結構表達庫”;“104文字結構表達”匯總從待比對文檔提取的無重復的關鍵詞及其出現次數,構成待比對文檔的“文本語義表達”方式,保存到“106注冊文檔的文本語義表達庫”。
[0021]如圖2所示,文檔比對子系統通過四個步驟完成一篇待比對文檔和注冊文檔的文本比對并輸出相似文檔的過程:“201文本語義及文字結構表達”、“202文本語義相似性快速比對”、“203文字結構相似性比對”和“204輸出文本語義與文字結構均相似的注冊文檔集”。
[0022]具體地,“201文本語義及文字結構表達”在第一步中對待比對文檔中的文字內容進行斷句處理,分解為句子的集合;第二步,以句子為單位,依據“105自動學習的關鍵詞庫”獲得能夠最大程度覆蓋句子中的文字、且所需關鍵詞數最少的句子切分方案;第三步,以句子為單位,識別其中包含的關鍵詞,忽略未對應關鍵詞或屬于停用詞的文字,構造待比對文檔的“文字結構表達”;匯總從待比對文檔提取的關鍵詞,累計它們出現的次數,構造待比對文檔的“文本語義表達”。
[0023]以所述包含三個句子的文本為例說明所述“201文本語義及文字結構表達”過程。所使用的“105自動學習的關鍵詞庫”包含關鍵詞“要素”、“往往”、“導致”、“逾期”,“重視”、“管理”、“賒銷”、“收款”和“應收款”,使用所述停用詞表。所述第一步獲得三個句子:“賒銷和收款是兩個要素”、“而賒銷往往導致逾期應收款”和“要重視應收款管理”;第二步得到三個句子的切分方案:“賒銷和收款是兩要素”、“而賒銷往往導致逾期應收款”和“要重視應收款管理”;第三步,構造的“文字結構表達”為:“ 111賒銷收款要素I 2 I賒銷導致逾期應收款I 3
I重視應收款管理”,其中“ I ? I ”是句間分割符,?標記句子的序號;構造的“文本