基于非監督關鍵二元詞串提取的微博文本自5力摘要方法
【專利摘要】一種基于非監督關鍵二元詞串提取的微博文本自動摘要方法,包括:微博預處理;二元詞串標準化;基于混合TF-IDF、TextRank和LDA的關鍵二元詞串提取;基于交集相似度和互信息策略的句子排序;基于相似度閾值的摘要句抽取;以及合理組合摘要句以生成摘要。本發明以二元詞串作為最小詞匯單元,而二元詞串比詞語具備更豐富的上下文信息,因此基于關鍵二元詞串比基于關鍵詞抽取的句子抗噪性更強,準確率更高。同時,提取摘要句時引入相似度閾值控制冗余,因此摘要具備更高的召回率。本方法生成的摘要準確、簡潔、全面,顯著提高了用戶獲取知識的效率和質量,節省了用戶大量時間。
【專利說明】基于非監督關鍵二元詞串提取的微博文本自動摘要方法
【技術領域】
[0001] 本發明涉及一種對微博等社交媒體短文本進行自動摘要的方法,尤其是一種基于 非監督關鍵二元詞串(bigram)提取的微博文本自動摘要方法。
【背景技術】
[0002] 目前,對社交媒體平臺如Twitter和新浪微博等生成的大量微博文本進行自動摘 要的方法并不多。現有基于微博文本特征的摘要方法大多數都直接基于詞袋模型對句子打 分或排序,然后提取排名靠前的句子組合成摘要輸出(例如參考文章 Inouye,D.,Kalita, J. K. "Comparing twitter summarization algorithms for multiple post summaries,', Social Computing, 2011,298-306)。但是,對于微博這種極不規范的類對話風格的短文本, 容易引入大量噪聲,從而導致摘要準確率偏低。同樣,傳統文檔自動摘要方法(例如參考 文章 Mihalcea, R. and Tarau, P. , "TextRank :Bringing order into texts", EMNLP, 2004, 404-411)沒有考慮到微博面臨著的嚴重稀疏性、不規范性和噪聲,因此直接將其應用于微 博自動摘要往往也不能準確概括微博內容。少數研究者以二元詞串作為文本單元,將多 文檔自動摘要問題轉化為以最大化二元詞串權重為目標的整型線性規劃問題(例如參考 文章 Li, C. , Qian, X. , Liu, Y. , "Using Supervised Bigram-based ILP for Extractive Summarization",ACL,2013,1004-1013)。但是類似工作并沒有在噪聲嚴重的微博上展開, 二元詞串的效果有待進一步研究和驗證。微博已成為人們及時獲取信息的重要來源之一, 但是,人們同時也面臨著嚴重的信息過載問題。而微博自動摘要技術可以通過內容分析自 動把多條微博濃縮成簡短的摘要,從而節省用戶大量時間,方便用戶瀏覽。因此,微博自動 摘要技術的研究無疑具有非常重大的現實意義。
【發明內容】
[0003] 為了克服現有微博文本自動摘要方法對噪聲不魯棒從而導致提取的摘要準確率 偏低的不足,本發明提供了一種基于非監督關鍵二元詞串提取的微博文本自動摘要方法, 以實現自動為同一個熱門話題下成千上萬的微博文本自動生成簡潔、準確、全面的摘要,從 而改善用戶的瀏覽體驗。
[0004] 本發明實現上述技術目的所采用的技術方案是:
[0005] -種基于非監督關鍵二元詞串提取的微博文本自動摘要方法,包括以下步驟:
[0006] 步驟1 :采用正則表達式,去除微博文本中的噪聲信息,以及去掉冗余的標點和過 分連續重復的詞組;將每條微博切分成句子,然后分詞、去停用詞;
[0007] 步驟2 :將每個句子中相鄰的兩個詞語組合成一個二元詞串,由此每個句子由一 串-兀詞串序列表不;
[0008] 步驟3 :利用基于混合TF_IDF、TextRank和/或LDA的三種非監督關鍵二元詞串抽 取技術,提取若干個能準確反映話題微博集合某個子主題的二元詞串作為關鍵二元詞串, 得到一個關鍵二元詞串集合;
[0009] 步驟4 :基于上述關鍵二元詞串集合,利用交集相似度和/或互信息策略,對由一 串-兀詞串序列表不的所述句子打分排序;
[0010] 步驟5:在引進相似度閾值以防止冗余的基礎上,從排名靠前的所述句子中提取Μ 個滿足相似度條件的句子作為摘要句,其中Μ為正整數;
[0011] 步驟6 :將所述提取的摘要句組合成摘要,并輸出。
[0012] 其中,步驟1中去除的所述噪聲信息包括標簽、網址、符號表情、用戶名、標題、無 意義后綴。
[0013] 其中,所述步驟1進一步包括下列步驟:
[0014] 去除微博文本中所有標簽、內嵌網址、轉發符號、用戶名、表情符號,以及對話題理 解沒有意義的后綴;
[0015] 去除"【】"內長度短語10個字的標題;
[0016] 去掉冗余的標點和過分重復的詞語和短語,標點、詞語、短語構成最小的重復單元 時,除語氣詞保留兩個重復單元外,其余僅保留一個重復單元;
[0017] 將長度大于30個字的微博切分成句子,然后去除長度小于4個字的句子;
[0018] 對句子進行分詞,得到一元詞串;
[0019] 去停用詞。
[0020] 其中,當基于混合TF-IDF進行關鍵二元詞串提取時,所述步驟3進一步包括下列 步驟:
[0021] 每個二元詞串的混合TF-IDF權重可由以下公式計算得出iHybridJFJDFODi)= tf如)*log2 (idf如)),其中,tf如)為二元詞串h的TF值,其值等于h在整個句子集合中 出現的頻率,其公式化定義如下:
[0022]
【權利要求】
1. 一種基于非監督關鍵二元詞串提取的微博文本自動摘要方法,包括以下步驟: 步驟1 :采用正則表達式,去除微博文本中的噪聲信息,以及去掉冗余的標點和過分連 續重復的詞組;將每條微博切分成句子,然后分詞、去停用詞; 步驟2 :將每個句子中相鄰的兩個詞語組合成一個二元詞串,由此每個句子由一串二 元詞串序列表示; 步驟3 :利用基于混合TF-IDF、TextRank和/或LDA的三種非監督關鍵二元詞串抽取 技術,提取若干個能準確反映話題微博集合某個子主題的二元詞串作為關鍵二元詞串,得 到一個關鍵二元詞串集合; 步驟4 :基于上述關鍵二元詞串集合,利用交集相似度和/或互信息策略,對由一串二 元詞串序列表示的所述句子打分排序; 步驟5:在引進相似度閾值以防止冗余的基礎上,從排名靠前的所述句子中提取Μ個滿 足相似度條件的句子作為摘要句,其中Μ為正整數; 步驟6 :將所述提取的摘要句組合成摘要,并輸出。
2. 根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法,其 中步驟1中去除的所述噪聲信息包括標簽、網址、符號表情、用戶名、標題、無意義后綴。
3. 根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法,其 中所述步驟1進一步包括下列步驟: 去除微博文本中所有標簽、內嵌網址、轉發符號、用戶名、表情符號,以及對話題理解沒 有意義的后綴; 去除"【】"內長度短語10個字的標題; 去掉冗余的標點和過分重復的詞語和短語,標點、詞語、短語構成最小的重復單元時, 除語氣詞保留兩個重復單元外,其余僅保留一個重復單元; 將長度大于30個字的微博切分成句子,然后去除長度小于4個字的句子; 對句子進行分詞,得到一元詞串; 去停用詞。
4. 根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法,其 中當基于混合TF-IDF進行關鍵二元詞串提取時,所述步驟3進一步包括下列步驟: 每個二元詞串的混合TF-IDF權重可由以下公式計算得出iHybricLTFJDFODi)= tf如)*log2 (idf如)),其中,tf如)為二元詞串h的TF值,其值等于h在整個句子集合中 出現的頻率,其公式化定義如下:
idf^bi)為h的IDF值,其值等于句子總數比上出現了 h的句子數目,其公式化定義如 下:
將所有二元詞串按照其混合TF-IDF值降序排列,然后取前N個作為關鍵二元詞串,得 到二元詞串集合,其中N為預先定義的正整數。
5. 根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法,其 中當基于TextRank進行關鍵二元詞串提取時,所述步驟3進一步包括下列步驟: 以二元詞串作為頂點,以設定為10個詞的固定文本窗內兩個有先后順序的二元詞串 共現的次數作為邊的權重,構造了一個有向帶權圖G (V,E),其中V為頂點集合,E為邊集合; 令In (vD為指向頂點Vi的頂點構成的集合,Out (Vj)為頂點Vj所指向的頂點構成的集合, Wji為頂點Vj到Vi的邊的權重,貝U每個頂點的TextRank分值可由下式計算得出:
其中,d為阻尼因子,取值為0.8 ;按上式迭代至收斂,得到每個二元詞串的TextRank 值,然后按該值降序排列二元詞串,取前N個最具影響力的二元詞串作為關鍵二元詞串,其 中N為預先定義的正整數。
6. 根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法,其 中當基于LDA進行關鍵二元詞串提取時,所述步驟3進一步包括下列步驟: 通過LDA對語料建模并推理可得到主題二元詞串分布矩陣
>對該矩陣按列求和,將得到的值作為每個二元詞串在主題集 合上的全局得分,具體可公式化定義如下:
基于此全局得分對 二元詞串降序排序,取前N個二元詞串構成關鍵二元詞串集合,其中N為預先定義的正整 數。
7. 根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法,其 中當采用交集相似度策略時,所述步驟4進一步包括下列步驟: 交集相似度通過計算候選句子與關鍵二元詞串集合中重疊的二元詞串個數在整個關 鍵二元詞串集合中的占比,并乘以歸一化因子得到,具體定義如下:
其中S表示候選句,KBS表示關鍵二元詞串集合,h即為共現的關鍵二元詞串,|S|和 KBS|分別表示候選句長度和關鍵二元詞串集合的大小,AveLen表示句子集合中所有句子 的平均長度。
8. 根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法,其 中當采用互信息策略時,所述步驟4進一步包括下列步驟: 互信息具體定義如下:
其中,P〇V S)為匕在句子S中出現的頻率,p(bi)為匕在整個句子集合中出現的頻 率,P(S)為句子的長度比上句子集合的所有句子的長度,同樣,該分值以交集相似度中用到 的歸一化因子對長度進行歸一化。
9. 根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法, 其中所述步驟5中所述基于相似度閾值的摘要句抽取的步驟具體是指:從排名最靠前的句 子開始提取,當且僅當候選句與已提取的摘要句的相似度均小于某個閾值時,該候選句被 選為摘要句,否則丟棄該候選句,考慮排名次之的下一個候選句,直到提取了 Μ個摘要句為 止,其中,Μ為抽取的句子的個數,相似度閾值sim(S。,Ss)的計算公式如下所示 :
其中,相似度采用的是候選句S。與摘要句Ss的共現相似度,maxSim為事先設定的所允 許的最大相似度閾值,設為〇. 5。
10.根據權利要求1所述的基于非監督關鍵二元詞串提取的微博文本自動摘要方法, 其中步驟6中所述的組合成摘要句的原則按優先級如下: (1) 如果摘要句包含時間信息,則按時序組合; (2) 如果多條摘要句屬于語料中的同一條微博,則按照原始微博中的句子順序組合; (3) 讓相似度大的句子毗鄰,以增強句子之間的連貫性。
【文檔編號】G06F17/30GK104216875SQ201410502810
【公開日】2014年12月17日 申請日期:2014年9月26日 優先權日:2014年9月26日
【發明者】徐博, 吳玉芳, 張恒, 郝紅衛, 劉成林 申請人:中國科學院自動化研究所