基于主成分聚類的文本信息挖掘方法及裝置制造方法
【專利摘要】本發(fā)明涉及文本信息處理領(lǐng)域,特別涉及一種基于主成分聚類的文本信息挖掘方法及裝置,用以解決現(xiàn)有技術(shù)處理得到的信息有效性不高的問題。本發(fā)明實施例中,通過統(tǒng)計詞語的之間的共現(xiàn)次數(shù),以此得到每個詞語與其它詞語的鏈接總數(shù),然后基于該鏈接總數(shù)來確定中心特征較強的詞語,由此構(gòu)建觀測數(shù)據(jù)矩陣,在此基礎(chǔ)上采用主成分聚類的方式對該矩陣進行處理,并將得到的聚類結(jié)果與對應(yīng)的詞語以及詞頻匹配,最終獲得文本信息挖掘的結(jié)果。
【專利說明】基于主成分聚類的文本信息挖掘方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及文本信息處理領(lǐng)域,特別涉及一種基于主成分聚類的文本信息挖掘方 法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)時代到來,消費者對產(chǎn)品和品牌的表達日益豐富,讓市場研宄越來越 關(guān)注于挖掘消費者表達的市場價值,為此需要應(yīng)用文本聚類算法的方法對消費者表達的信 息進行挖掘。
[0003] 目前的文本聚類算法都是以VSM(Vector Space Model,空間向量模型)為基礎(chǔ)的。 就目前的算法來看,現(xiàn)有的文本聚類算法由于無法有效的對文本信息聚類的類別數(shù)量進行 有效控制,會出現(xiàn)過度分類的問題或者分類不足的問題。過度分類會導致信息過度復(fù)雜并 由此造成無法進行解讀,而分類不足則會導致對文本信息無從解讀,從而無法有效的得出 對文本的所表達的信息。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明提供一種基于主成分聚類的文本信息挖掘方法及裝置,用以解決現(xiàn)有技術(shù) 處理得到的信息有效性不高的問題。
[0005] 本發(fā)明實施例提供的一種基于主成分聚類的文本信息挖掘方法,包括以下步驟:
[0006] 由語句集中提取詞語,并統(tǒng)計所述詞語的詞頻;
[0007] 提取詞頻最大的η個詞語,并統(tǒng)計所述η個詞語中每個詞語在語句集的每個語句 中與其余詞語的共現(xiàn)次數(shù);
[0008] 在所述η個詞語中提取鏈接總數(shù)最多的q個詞語,生成觀測數(shù)據(jù)矩陣,其中所述鏈 接總數(shù)為每個詞語與其余詞語的共現(xiàn)次數(shù)的總數(shù),所述觀測數(shù)據(jù)矩陣的矩陣元素為所述q 個詞語對應(yīng)的共現(xiàn)次數(shù),其中q < η ;
[0009] 對觀測數(shù)據(jù)矩陣進行主成分聚類分析,獲得聚類結(jié)果;
[0010] 將所述聚類結(jié)果與對應(yīng)的詞語以及詞頻匹配,獲得文本信息挖掘的結(jié)果。
[0011] 較佳地,提取詞頻最大的η個詞語,并統(tǒng)計所述η個詞語中每個詞語在語句集的每 個語句中與其余詞語的共現(xiàn)次數(shù),包括:
[0012] 根據(jù)詞頻對所述詞語進行排序,選取詞頻最大的η個詞語;
[0013] 統(tǒng)計所述η個詞語中每個詞語在語句集的每個語句中與其余詞語的共現(xiàn)次數(shù),構(gòu) 建η個詞語的共現(xiàn)矩陣D,
[0014]
【權(quán)利要求】
1. 一種基于主成分聚類的文本信息挖掘方法,其特征在于,包括以下步驟: 由語句集中提取詞語,并統(tǒng)計所述詞語的詞頻; 提取詞頻最大的η個詞語,并統(tǒng)計所述η個詞語中每個詞語在語句集的每個語句中與 其余詞語的共現(xiàn)次數(shù); 在所述η個詞語中提取鏈接總數(shù)最多的q個詞語,生成觀測數(shù)據(jù)矩陣,其中所述鏈接總 數(shù)為每個詞語與其余詞語的共現(xiàn)次數(shù)的總數(shù),所述觀測數(shù)據(jù)矩陣的矩陣元素為所述q個詞 語對應(yīng)的共現(xiàn)次數(shù),其中q<η; 對觀測數(shù)據(jù)矩陣進行主成分聚類分析,獲得聚類結(jié)果; 將所述聚類結(jié)果與對應(yīng)的詞語以及詞頻匹配,獲得文本信息挖掘的結(jié)果。
2. 根據(jù)權(quán)利要求1所述的基于主成分聚類的文本信息挖掘方法,其特征在于,提取詞 頻最大的η個詞語,并統(tǒng)計所述η個詞語中每個詞語在語句集的每個語句中與其余詞語的 共現(xiàn)次數(shù),包括: 根據(jù)詞頻對所述詞語進行排序,選取詞頻最大的η個詞語; 統(tǒng)計所述η個詞語中每個詞語在語句集的每個語句中與其余詞語的共現(xiàn)次數(shù),構(gòu)建η個詞語的共現(xiàn)矩陣D,
其中,du= 0(i=j),dυ表示詞語i和詞語j的共現(xiàn)次數(shù)。
3. 根據(jù)權(quán)利要求1所述的基于主成分聚類的文本信息挖掘方法,其特征在于,在所述η 個詞語中提取鏈接總數(shù)最多的q個詞語,生成觀測數(shù)據(jù)矩陣,包括: 獲取每個詞語的鏈接總數(shù); 根據(jù)所述鏈接總數(shù)確定第一閾值; 提取鏈接總數(shù)高于所述第一閾值的q個詞語,生成觀測數(shù)據(jù)矩陣。
4. 根據(jù)權(quán)利要求1所述的基于主成分聚類的文本信息挖掘方法,其特征在于,在將所 述聚類結(jié)果與對應(yīng)的詞語以及詞頻匹配之后,還包括: 獲取主成分的各個構(gòu)成變量的相關(guān)系數(shù); 選取相關(guān)系數(shù)高于第二閾值的所述主成分的構(gòu)成變量,得到最終的文本信息挖掘的結(jié) 果。
5. 根據(jù)權(quán)利要求1所述的基于主成分聚類的文本信息挖掘方法,其特征在于,在將所 述聚類結(jié)果與對應(yīng)的詞語以及詞頻匹配之后,還包括: 若所述聚類結(jié)果的主成分僅有一個,則在所述詞頻最大的η個詞語中選取至少一個詞 語,將選取的所述詞語在共現(xiàn)次數(shù)統(tǒng)計中去除,重新提取鏈接總數(shù)最多的q個詞語,生成觀 測數(shù)據(jù)矩陣。
6. -種基于主成分聚類的文本信息挖掘裝置,其特征在于,包括: 樣本提取模塊,用于由所述語句集中提取詞語,并統(tǒng)計所述詞語的詞頻; 共現(xiàn)統(tǒng)計模塊,用于提取詞頻最大的η個詞語,并統(tǒng)計所述η個詞語中每個詞語在語句 集的每個語句中與其余詞語的共現(xiàn)次數(shù); 數(shù)據(jù)處理模塊,用于在所述η個詞語中提取鏈接總數(shù)最多的q個詞語,生成觀測數(shù)據(jù)矩 陣,其中所述鏈接總數(shù)為每個詞語與其余詞語的共現(xiàn)次數(shù)的總數(shù),所述觀測數(shù)據(jù)矩陣的矩 陣元素為所述q個詞語對應(yīng)的共現(xiàn)次數(shù),其中q<η; 聚類分析模塊,用于對觀測數(shù)據(jù)矩陣進行主成分聚類分析,獲得聚類結(jié)果; 匹配處理模塊,將所述聚類結(jié)果與對應(yīng)的詞語以及詞頻匹配,獲得文本信息挖掘的結(jié) 果。
7. 根據(jù)權(quán)利要求6所述的基于主成分聚類的文本信息挖掘裝置,其特征在于,所述共 現(xiàn)統(tǒng)計模塊,具體用于: 根據(jù)詞頻對所述詞語進行排序,選取詞頻最大的η個詞語; 統(tǒng)計所述η個詞語中每個詞語在語句集的每個語句中與其余詞語的共現(xiàn)次數(shù),構(gòu)建η個詞語的共現(xiàn)矩陣D,
其中,(Iij= 0(i=j),d^表示詞語i和詞語j的共現(xiàn)次數(shù)。
8. 根據(jù)權(quán)利要求6所述的基于主成分聚類的文本信息挖掘裝置,其特征在于,所述數(shù) 據(jù)處理模塊,具體用于: 獲取每個詞語的鏈接總數(shù); 根據(jù)所述鏈接總數(shù)確定第一閾值; 提取鏈接總數(shù)高于所述第一閾值的q個詞語,生成觀測數(shù)據(jù)矩陣。
9. 根據(jù)權(quán)利要求6所述的基于主成分聚類的文本信息挖掘裝置,其特征在于,所述匹 配處理模塊,還用于: 在將所述聚類結(jié)果與對應(yīng)的詞語以及詞頻匹配之后,獲取主成分的各個構(gòu)成變量的相 關(guān)系數(shù); 選取相關(guān)系數(shù)高于第二閾值的所述主成分的構(gòu)成變量,得到最終的文本信息挖掘的結(jié) 果。
10. 根據(jù)權(quán)利要求6所述的基于主成分聚類的文本信息挖掘裝置,其特征在于,所述匹 配處理模塊,還用于在將所述聚類結(jié)果與對應(yīng)的詞語以及詞頻匹配之后,確定所述聚類結(jié) 果的主成分僅有一個; 所述共現(xiàn)統(tǒng)計模塊,還用于在所述聚類結(jié)果的主成分僅有一個時,在所述詞頻最大的η個詞語中選取至少一個詞語,將選取的所述詞語在共現(xiàn)次數(shù)統(tǒng)計中去除; 數(shù)據(jù)處理模塊,還用于重新提取鏈接總數(shù)最多的q個詞語,生成觀測數(shù)據(jù)矩陣。
【文檔編號】G06F17/30GK104462607SQ201410857134
【公開日】2015年3月25日 申請日期:2014年12月30日 優(yōu)先權(quán)日:2014年12月30日
【發(fā)明者】余宇新 申請人:余宇新