專利名稱:基于詞分布的詞語局部權重計算方法
技術領域:
本發明涉及一種自然語言的處理方法,特別涉及一種詞語權重的計算方法。
背景技術:
90年代以來,隨著網絡信息的爆炸,人們需要精準地在網絡上獲取信息。這促使自 然語言處理迅速發展,信息檢索、信息過濾、文本分類、自動文摘、問答系統等自然語言處理 應用技術的研究就成為近年來研究的熱點。支持向量機、向量空間模型、潛在語義分析模型 等新模型層出不窮。 這些新模型都以詞語權重的計算為基礎,詞語權重計算是否準確直接影響著自然 語言處理的最終結果,如圖1。文檔中每一個詞語所表達的文檔的信息量是不同的,我們用 詞語權重來表示詞語的重要程度,只有準確地計算出每個詞語的權重,才能使文檔中的語 義信息表現得更加明顯。 常見的權重算法,布爾權重,特征頻度,TF-IDF,熵等,都考慮了能夠描述詞語包含 信息量的某個因素,如詞頻、文檔頻、詞的位置等。有的權重計算方法根據詞語在單一文檔 中的規律計算出權重,稱之為詞語局部權重;還有的根據詞語在文檔集中的規律計算出權 重,稱之為詞語全局權重。 現有的詞語權重計算方法得到的結果不夠精確,這將直接影響以詞語權重算法為 基礎的自然語言處理模型的處理結果。
發明內容
本發明針對現有詞語權重計算方法不夠準確的問題,而提供一種基于詞分布的詞 語局部權重計算方法,該方法能夠提高計算詞語權重的準確性,從而有效的提高相應自然 語言處理模型的準確率。 為了達到上述目的,本發明采用如下的技術方案 基于詞分布的詞語局部權重計算方法,該方法包括如下步驟 (1)計算詞語局部權重前,必須將待分析的文檔進行中文分詞、詞性標注、去停用 詞、信息抽取等預處理操作,從而使待分析文檔成為包含文檔主要內容的詞序列;
(2)計算詞序列中詞語的分布均勻度系數;
(3)計算詞序列中詞語的分布廣度系數;
(4)計算基于詞分布的詞語局部權重。 根據上述技術方案得到的本發明能有效優化目前詞語權重計算方法,提高其準確 率,推動自然語言處理的研究和應用。本發明能夠使得以詞語權重算法為基礎的自然語言 處理應用,如信息檢索、文本分類、垃圾郵件過濾等獲得更佳的處理結果。本發明在實際應 用中可與其他權重算法組合,能夠獲得更高的準確率。
以下結合附圖和具體實施方式
來進一步說明本發明。
圖1為詞語權重計算方法與自然語言領域各技術的關系示意圖。
圖2為在文檔中詞語分布均勻度與詞語權重的關系示意圖。
圖3為在文檔中詞語分布均勻度與詞語權重的關系示意圖。
圖4為本發明的流程圖。
具體實施例方式
為了使本發明實現的技術手段、創作特征、達成目的與功效易于明白了解,下面結 合具體圖示,進一步闡述本發明。 詞語局部權重根據詞語在一篇文檔中的統計規律進行權重計算,它考慮一篇文檔 中影響詞語權重的一些因素,如詞頻、詞長、詞的位置等等。在一篇文檔中,大范圍均勻分 布的詞語蘊含更多的信息量,更有可能和文檔的內容相關;小范圍集中分布的詞語,蘊含較 少信息量,更可能和文中某段的內容相關。 本專利對文檔中詞語的分布進行研究,根據"K. Pearson定理"設計分布均勻度系
數及其計算方法,來衡量詞的分布情況。文檔中不同的詞對應著不同的分布均勻度系數,分
布均勻度系數的值越大,詞的分布越均勻,對于局部權重而言,其權重就越大。 另一方面,該統計量僅僅描述了詞語分布的均勻程度,本專利還利用詞語分布廣
度,來適當提高相應詞的權重。 基于上述原理,本發明提供的一種基于詞分布的詞語局部權重算法通過如下步驟 實現(參見圖4): (1)計算詞語局部權重前,必須將待分析的文檔進行中文分詞、詞性標注、去停用 詞、信息抽取等預處理操作,從而使待分析文檔成為包含文檔主要內容的詞序列(其為本 領域較為成熟的技術,此處不加以贅述)。
(2)計算詞序列中詞語的分布均勻度系數; 設某一文檔共有m段、Cm個字,對其執行步驟(1)后,得到了詞序列。下面對詞序 列中的第j個詞語求分布均勻度系數 設區間(C卜一1,C》表示該文檔的第i段中第C卜,1個字到第&個字,(其中C。= 0, i = 1,2, . . . , m),文檔的總字數為Cm。可見文檔中任一詞語,包括詞序列中的第j個詞
語,如果它均勻分布,則其出現在第i段的概率為G = C', (i = 1,2, . . . , m) , n是這個
詞在這篇文檔中實際出現的總次數,Vi是這個詞在文檔的第i段中實際出現的次數,則第j
個詞語的分布均勻度系數為 X =f (Vp , vm, r" rm, m, n, a, b) 其中,X 為詞序列中第j個詞語的分布均勻度系數,根據統計學原理,對上述變量 進行數學變換得出。Vl, . . . , vm, ri, . . . rm, m, n都是變量,取決于第j個詞語在待分析文檔 中的統計情況。a, b為參數,涉及本專利的最優實施方案,需根據本專利的具體應用而定。
本專利計算的第j個詞語的在待分析文檔中的分布均勻度系數X2j具有以下性質 值越大,說明第j個詞語在這篇文檔中出現狀態就越均勻。按照前面所述,"在一篇文檔中,大范圍均勻分布的詞語蘊含更多的信息量,更有可能和文檔的內容相關;小范圍集中分布 的詞語,蘊含較少信息量,更可能和文中某段的內容相關。"(如圖2和圖3所示),也就是說 詞語分布越均勻的詞語局部權重越大。可見本專利計算的分布均勻度系數符合實際情況。
(3)計算詞序列中詞語的分布廣度系數。 待分析文章中,詞語分布的廣度和該詞語出現的段落總數、出現該詞語的首末段 落距離、文章總段落數有關。根據統計學原理,本專利設計分布廣度系數計算方法如下
如對于詞序列中的第j個詞語,其分布廣度系數通過以下公式得到
Bj = 4) (p, m ;c, d, e) 其中,p, m為變量,p為該文檔中出現該詞語的段落總數,m為文檔段落數;c、 d、 e
為參數,涉及本專利的最優實施方案,需根據本專利的具體應用而定。 (4)計算基于詞分布的詞語局部權重。 基于詞分布的詞語局部權重需將上述分布均勻度系數和分布廣度系數的計算結 果,根據統計學原理,設計組合計算方法。 如根據前面得到的第j個詞語的分布均勻度系數和分布廣度系數,可計算得到第
j個詞語的局部權重
其中,X ,Bj為變量,分別為分布均勻度系數和分布廣度系數;f、g、h為參數,涉及 本專利的最優實施方案,需根據本專利的具體應用而定。 在對本發明具體測試時,采用在sina、 sohu等中國國內知名網絡媒體近1年內的 超過150萬篇網頁文檔作為語料庫對本發明進行測試,具體方法如下
在超過150萬篇網頁文檔中隨機挑選1000篇文檔,內容涉及新聞、娛樂、汽車、體 育等12個大類。通過兩種方式進行計算相應詞語的權重,一種是人工方式人工選擇每篇 文檔中最重要的20個詞語,并標注出權重,標注過程需保證每篇文檔的詞語權重由10個不 同員工標注,平均值作為人工標注的最終詞語權重。另一種方式是利用本發明提供的計算 方法、布爾權重、特征頻度,TF和熵權重算法分別計算出相應詞語的詞語權重,最后將得到 的結果與人工標注的結果比對。測試結果顯示本發明提供的基于詞分布的詞語局部權重算 法比其他權重計算方法更接近人工標注的值。 本專利發明的"基于詞分布的詞語局部權重計算方法"能夠有效地分析出文章中
重要詞語并給予適當權重,該技術適用于涉及信息檢索、語義匹配的應用系統,如智能搜
索引擎、反垃圾郵件、垃圾信息過濾、專家系統、信息安全、文本數據挖掘等。 以上顯示和描述了本發明的基本原理和主要特征和本發明的優點。本行業的技術
人員應該了解,本發明不受上述實施例的限制,上述實施例和說明書中描述的只是說明本
發明的原理,在不脫離本發明精神和范圍的前提下,本發明還會有各種變化和改進,這些變
化和改進都落入要求保護的本發明范圍內。本發明要求保護范圍由所附的權利要求書及其
等效物界定。
權利要求
基于詞分布的詞語局部權重計算方法,其特征在于,所述方法包括如下步驟(1)將待分析的文檔進行預處理操作,使待分析文檔成為包含文檔主要內容的詞序列;(2)計算詞序列中詞語的分布均勻度系數;(3)計算詞序列中詞語的分布廣度系數;(4)計算基于詞分布的詞語局部權重。
全文摘要
本發明公開了基于詞分布的詞語局部權重計算方法,該方法包括如下步驟(1)計算詞序列中詞語的分布均勻度系數;(2)計算詞序列中詞語的分布廣度系數;(3)計算基于詞分布的詞語局部權重。本發明將有效優化目前詞語權重計算方法,提高其準確率,推動自然語言處理的研究和應用。
文檔編號G06F17/27GK101710317SQ200910198890
公開日2010年5月19日 申請日期2009年11月17日 優先權日2009年11月17日
發明者夏天 申請人:上海第二工業大學