文檔匹配方法和文檔匹配裝置制造方法
【專利摘要】本發明公開了一種文檔匹配方法和文檔匹配裝置。該文檔匹配方法包括:從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要;根據所述待比較文檔摘要和所述基準文檔摘要,判斷出所述待比較文檔和所述基準文檔是否為相似文檔。本發明提供的文檔匹配方法和文檔匹配裝置的技術方案中,從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要,根據待比較文檔摘要和基準文檔摘要判斷出待比較文檔和基準文檔是否為相似文檔,本發明通過從文檔中提取出的文檔摘要判斷出文檔是否為相似文檔,無需對整個文檔進行分析和比較,從而提高了文檔匹配的處理效率。
【專利說明】文檔匹配方法和文檔匹配裝置
【技術領域】
[0001]本發明涉及信息檢索領域,特別涉及一種文檔匹配方法和文檔匹配裝置。
【背景技術】
[0002]目前,隨著信息檢索技術的發展,文檔快速匹配技術的應用越來越廣泛。在信息檢索【技術領域】中,對于文檔智能快速匹配的問題已經做出了大量的研究工作,并產生了相應的研究成果。
[0003]現有技術中,文檔智能快速匹配的方法是對整個文檔進行分析和比較,從而確定出兩篇文檔是否是相同或者相似。
[0004]但是,由于文檔通常都很大,因此采用整篇文檔比較的方法導致文檔匹配的處理效率不高。
【發明內容】
[0005]本發明提供一種文檔匹配方法和文檔匹配裝置,用于提高文檔匹配的處理效率。
[0006]為實現上述目的,本發明提供了一種文檔匹配方法,包括:
[0007]從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要;
[0008]根據所述待比較文檔摘要和所述基準文檔摘要,判斷出所述待比較文檔和所述基準文檔是否為相似文檔。
[0009]可選地,所述從待比較文檔中提取出待比較文檔摘要包括:
[0010]對待比較文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在待比較文檔中的兩個句子中出現的名詞;
[0011]對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣;
[0012]對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數;
[0013]將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類;
[0014]根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數;
[0015]根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數量值;
[0016]根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數;
[0017]根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加I個句子,生成待比較文檔摘要。
[0018]可選地,所述從基準文檔中提取出基準文檔摘要包括:
[0019]對基準文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在基準文檔中的兩個句子中出現的名詞;
[0020]對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣;
[0021]對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數;
[0022]將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類;
[0023]根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數;
[0024]根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數量值;
[0025]根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數;
[0026]根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加I個句子,生成基準文檔摘要。
[0027]可選地,所述根據所述待比較文檔和所述基準文檔,判斷出所述待比較文檔和所述基準文檔是否為相似文檔包括:
[0028]從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列;
[0029]若提取出所述公共子序列,從所述公共子序列中選取出最大公共子序列,判斷所述最大公共子序列的長度與所述基準文檔摘要的長度之比是否大于設定比值,若判斷出所述最大公共子序列的長度與所述基準文檔摘要的長度之比大于設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔,所述最大公共子序列為提取出的所述公共子序列中長度最大的一個公共子序列。
[0030]可選地,所述根據所述待比較文檔和所述基準文檔,判斷出所述待比較文檔和所述基準文檔是否為相似文檔包括:
[0031]從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列;
[0032]若提取出所述公共子序列,從所述公共子序列中選取出長度最大的設定數量個所述公共子序列并計算出長度最大的設定數量個所述公共子序列的長度之和,判斷長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比是否大于設定比值,若判斷出長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比大于所述設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔。
[0033]為實現上述目的,本發明提供了一種文檔匹配裝置,包括:
[0034]提取單元,用于從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要;
[0035]判斷單元,用于根據所述待比較文檔摘要和所述基準文檔摘要,判斷出所述待比較文檔和所述基準文檔是否為相似文檔。
[0036]可選地,所述提取單元包括:
[0037]第一生成模塊,用于對待比較文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在待比較文檔中的兩個句子中出現的名詞;
[0038]加權模塊,用于對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣;
[0039]分解模塊,用于對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數;
[0040]聚類劃分模塊,用于將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類;
[0041]第二生成模塊,用于根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數;[0042]第三生成模塊,用于根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數
量值;
[0043]第四生成模塊,用于根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數;
[0044]第五生成模塊,用于根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加I個句子,生成待比較文檔摘要。
[0045]可選地,所述提取單元包括:
[0046]第一生成模塊,用于對基準文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在基準文檔中的兩個句子中出現的名詞;
[0047]加權模塊,用于對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣;
[0048]分解模塊,用于對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數;
[0049]聚類劃分模塊,用于將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類;
[0050]第二生成模塊,用于根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數;
[0051]第三生成模塊,用于根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數
量值;
[0052]第四生成模塊,用于根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數;
[0053]第五生成模塊,用于根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加I個句子,生成基準文檔摘要。
[0054]可選地,所述判斷單元包括:
[0055]提取模塊,用于從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列;
[0056]選取模塊,用于若提取出所述公共子序列,從所述公共子序列中選取出最大公共子序列;
[0057]判斷模塊,用于判斷所述最大公共子序列的長度與所述基準文檔摘要的長度之比是否大于設定比值;
[0058]確定模塊,用于若判斷出所述最大公共子序列的長度與所述基準文檔摘要的長度之比大于設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔,所述最大公共子序列為提取出的所述公共子序列中長度最大的一個公共子序列。
[0059]可選地,所述判斷單元包括:
[0060]提取模塊,用于從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列;
[0061]選取模塊,用于若提取出所述公共子序列,從所述公共子序列中選取出長度最大的設定數量個所述公共子序列;
[0062]判斷模塊,用于判斷長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比是否大于設定比值;
[0063]確定模塊,用于若判斷出長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比大于所述設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔。
[0064]本發明具有以下有益效果:
[0065]本發明提供的文檔匹配方法和文檔匹配裝置的技術方案中,從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要,
[0066]根據待比較文檔摘要和基準文檔摘要判斷出待比較文檔和基準文檔是否
[0067]為相似文檔,本發明通過從文檔中提取出的文檔摘要判斷出文檔是否為相
[0068]似文檔,無需對整個文檔進行分析和比較,從而提高了文檔匹配的處理效
[0069]率。
【專利附圖】
【附圖說明】
[0070]圖1為本發明實施例一提供的一種文檔匹配方法的流程圖;
[0071]圖2為本發明實施例二提供的一種文檔匹配方法的流程圖;
[0072]圖3為本發明實施例二中從文檔中提取文檔摘要的方法的流程圖;
[0073]圖4為本發明實施例三提供的一種文檔匹配裝置的結構示意圖;
[0074]圖5為本發明實施例四提供的一種文檔匹配裝置的結構示意圖。
【具體實施方式】
[0075]為使本領域的技術人員更好地理解本發明的技術方案,下面結合附圖對本發明提供的文檔匹配方法和文檔匹配裝置進行詳細描述。
[0076]圖1為本發明實施例一提供的一種文檔匹配方法的流程圖,如圖1所示,該方法包括:
[0077]步驟101、從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要。
[0078]步驟102、根據待比較文檔摘要和基準文檔摘要,判斷出待比較文檔和基準文檔是否為相似文檔。
[0079]本實施例提供的文檔匹配方法中,從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要,根據待比較文檔摘要和基準文檔摘要判斷出待比較文檔和基準文檔是否為相似文檔,本實施例通過從文檔中提取出的文檔摘要判斷出文檔是否為相似文檔,無需對整個文檔進行分析和比較,從而提高了文檔匹配的處理效率。
[0080]圖2為本發明實施例二提供的一種文檔匹配方法的流程圖,如圖2所示,該方法包括:
[0081]步驟201、從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要。
[0082]本實施例可采用相同的方法提取出待比較文檔摘要以及提取出基準文檔摘要。圖3為本發明實施例二中從文檔中提取文檔摘要的方法的流程圖,如圖3所示,該方法具體包括:
[0083]步驟2011、對文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在文檔中的兩個句子中出現的名詞。[0084]具體地,可采用中文分詞技術對文檔進行分詞處理,分詞處理后保留名詞;從分詞處理后得到的名詞中查找出至少在文檔中的兩個句子中出現的名詞,并根據至少在兩個句子中出現的名詞生成文檔的名詞集合。
[0085]名詞集合為It^t1,…,tn},文檔的文檔矩陣D為(S1, S2,…,SJT,其中,Si表示文檔D中的每個句子,且Si=Kil, fi2,…,fin), (i=l, 2,…,m),匕表示名詞tj在句子Si中出現的頻率,則文檔矩陣D=(fu)_。
[0086]步驟2012、對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣。
[0087]假設文檔包括h個段落,該h個段落分別為P1, P2,…Ph。由于每個句子Si在文檔中的位置對文檔摘要有影響,因此可對文檔中不同位置的句子按照下面的規則進行加權處理,具體為:
[0088]若Si G P1,且Si是P1的第一個句子或者最后一個句子,則Si! =4*Si ;
[0089]若Si G P1,且Si不是P1的第一個句子也不是最后一個句子,則Si' =3*Si ;
[0090]若Si G Ph,且Si是Ph的第一個句子或者最后一個句子,則Si' =4*Si ;
[0091]若Si G Ph, Si不是Ph的第一個句子也不是最后一個句子,則Si, =3*Si ;
[0092]若Si G P」,(i關1,且i關h),且Si是?」的第一個句子或者最后一個句子,則Si' =2*Si;
[0093]若Si中含有k個標題中的詞,則S/ =k*Si ;
[0094]其余Si 不變,SP =Si' =Si ;
[0095]其中,Si'為加權處理后的文檔矩陣D中的句子。
[0096]步驟2013、對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數。
[0097]本步驟具體包括:
[0098]步驟2013a、對文檔矩陣D=(Aj)mto進行奇異值分解(Singular ValueDecomposition,簡稱:SVD),得出單位化后的右特征向量Vi以及單位化后的左奇異向量%。其中,Vi= (Vli, V2i,...,Vni)T,i=l, 2,...,n ;Ui= (Uli, U2i,...,UjT,i=l, 2,???,k。
[0099]假定文檔矩陣D的特征值為X1SXk>Xk+1=*" Xirf=An=O,則奇異值
<y, =yfi , i=l, 2,...,n。
[0100]步驟2013b、根據右特征向量Vi和左奇異向量Ui,得出文檔矩陣D的第j行句子Sj? Sj- 0 JVj1U1+ 0 2Vj2U2+*** + o kVjkUk,j—I) 2,…,m。
[0101]步驟2013c、根據文檔矩陣D的第j行句子Sj,得出矩陣范數I IsjI I,
【權利要求】
1.一種文檔匹配方法,其特征在于,包括: 從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要; 根據所述待比較文檔摘要和所述基準文檔摘要,判斷出所述待比較文檔和所述基準文檔是否為相似文檔。
2.根據權利要求1所述的文檔匹配方法,其特征在于,所述從待比較文檔中提取出待比較文檔摘要包括: 對待比較文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在待比較文檔中的兩個句子中出現的名詞; 對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣; 對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數; 將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類; 根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數; 根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數量值; 根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數;根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加I個句子,生成待比較文檔摘要。
3.根據權利要求1所述的文檔匹配方法,其特征在于,所述從基準文檔中提取出基準文檔摘要包括:` 對基準文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在基準文檔中的兩個句子中出現的名詞; 對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣; 對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數; 將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類; 根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數; 根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數量值; 根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數;根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加I個句子,生成基準文檔摘要。
4.根據權利要求1所述的文檔匹配方法,其特征在于,所述根據所述待比較文檔和所述基準文檔,判斷出所述待比較文檔和所述基準文檔是否為相似文檔包括: 從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列; 若提取出所述公共子序列,從所述公共子序列中選取出最大公共子序列,判斷所述最大公共子序列的長度與所述基準文檔摘要的長度之比是否大于設定比值,若判斷出所述最大公共子序列的長度與所述基準文檔摘要的長度之比大于設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔,所述最大公共子序列為提取出的所述公共子序列中長度最大的一個公共子序列。
5.根據權利要求1所述的文檔匹配方法,其特征在于,所述根據所述待比較文檔和所述基準文檔,判斷出所述待比較文檔和所述基準文檔是否為相似文檔包括: 從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列; 若提取出所述公共子序列,從所述公共子序列中選取出長度最大的設定數量個所述公共子序列并計算出長度最大的設定數量個所述公共子序列的長度之和,判斷長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比是否大于設定比值,若判斷出長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比大于所述設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔。
6.一種文檔匹配裝置,其特征在于,包括: 提取單元,用于從待比較文檔中提取出待比較文檔摘要以及從基準文檔中提取出基準文檔摘要; 判斷單元,用于根據所述待比較文檔摘要和所述基準文檔摘要,判斷出所述待比較文檔和所述基準文檔是否為相似文檔。
7.根據權利要求6所述的文檔匹配裝置,其特征在于,所述提取單元包括: 第一生成模塊,用于對待比較文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在待比較文檔中的兩個句子中出現的名詞; 加權模塊,用于對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣; 分解模塊,用于對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數; 聚類劃分模塊,用于將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類; 第二生成模塊,用于根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數; 第三生成模塊,用于根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數量值; 第四生成模塊,用于根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數; 第五生成模塊,用于根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加I個句子,生成待比較文檔摘要。
8.根據權利要求6所述的文檔匹配裝置,其特征在于,所述提取單元包括: 第一生成模塊,用于對基準文檔進行分詞處理生成文檔的名詞集合,并根據名詞集合生成文檔矩陣,其中,名詞集合中的名詞為至少在基準文檔中的兩個句子中出現的名詞; 加權模塊,用于對文檔矩陣進行加權處理,生成加權處理后的文檔矩陣; 分解模塊,用于對加權處理后的文檔矩陣進行奇異值分解處理生成右特征向量和左奇異向量,并根據右特征向量和左奇異向量生成矩陣范數; 聚類劃分模塊,用于將文檔矩陣以左奇異向量為聚類中心進行聚類劃分,生成文檔聚類; 第二生成模塊,用于根據文檔矩陣中的句子數量以及預先設定的壓縮比,生成文檔摘要假設句子數;第三生成模塊,用于根據文檔聚類和預先設定的覆蓋率,生成摘要聚類的最小數量值; 第四生成模塊,用于根據文檔摘要假設句子數和摘要聚類的最小數量值,得出文檔摘要實際句子數; 第五生成模塊,用于根據矩陣范數,從文檔聚類的句子中選取出摘要實際句子數個或者摘要實際句子數加I個句子,生成基準文檔摘要。
9.根據權利要求6所述的文檔匹配裝置,其特征在于,所述判斷單元包括: 提取模塊,用于從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列; 選取模塊,用于若提取出所述公共子序列,從所述公共子序列中選取出最大公共子序列; 判斷模塊,用于判斷所述最大公共子序列的長度與所述基準文檔摘要的長度之比是否大于設定比值; 確定模塊,用于若判斷出所述最大公共子序列的長度與所述基準文檔摘要的長度之比大于設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔,所述最大公共子序列為提取出的所述公共子序列中長度最大的一個公共子序列。
10.根據權利要求6所述的文檔匹配裝置,其特征在于,所述判斷單元包括: 提取模塊,用于從所述待比較文檔摘要和所述基準文檔摘要中提取公共子序列; 選取模塊,用于若提取出所述`公共子序列,從所述公共子序列中選取出長度最大的設定數量個所述公共子序列; 判斷模塊,用于判斷長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比是否大于設定比值; 確定模塊,用于若判斷出長度最大的設定數量個所述公共子序列的長度之和與所述基準文檔摘要的長度之比大于所述設定比值,確定出所述待比較文檔和所述基準文檔是相似文檔。
【文檔編號】G06F17/30GK103678645SQ201310714413
【公開日】2014年3月26日 申請日期:2013年12月20日 優先權日:2013年12月20日
【發明者】劉恒, 廖飛鳴, 黃凱峰, 陳洪波, 黃玉金 申請人:中電長城網際系統應用有限公司