專利名稱:基于支持向量機的博客作者興趣與性格自動識別方法
技術領域:
本發明涉及博客挖掘技術,具體涉及基于支持向量機的博客作者興趣與性格自動識別方法。
背景技術:
隨著互聯網的高速發展,網絡交流方式越來越多祥化。博客作為ー種全新的網絡交流方式,具有使用簡單、個性化強、實時性好、互動性強等優點,因此受到越來越多人的關注。據中國互聯網絡信息中心(CNNIC)發布的《第25次中國互聯網絡發展狀況統計報告》數據顯示,截至2009年12月,博客用戶規模達到2. 21乙。其中,活躍博客的規模進ー步擴大,在半年內更新過博客空間的博客用戶規模達到I. 45億。如今,博客的應用已經滲透到社會生活的各個領域。由于博客空間的信息豐富、更新速度快且源于廣大民眾等特點,是人們真實情感和事件評論的體現,近年來開始受到科研界和エ業界的廣泛關注。如何有效的利用豐富的博客資源,挖掘有價值的信息,對于掌握互聯網的發展動態,改進各種網上服務,豐富用戶網上生活,提高用戶體驗等都具有十分重要的現實意義和研究價值。興趣和性格作為用戶最主要的特征,幾乎影響著用戶的一切行為。興趣是個體以特定的事物、活動及人為對象,所產生的積極的和帶有傾向性、選擇性的態度和情緒。由于興趣本身具有穩定性的特點,通過對人們的興趣分析可以得到他們所喜好的領域信息,并據此為其提供相應的服務。在傳統領域,對于興趣的研究已經較為普遍,但由于博客自身的特殊性,目前,國內針對博客的興趣研究尚處于初步階段,并且缺乏標準的數據集支持,因此很難開展相關的研究。相比之下,國外學者在該領域的研究則在一定程度上領先于我們,然而他們的研究集中在英文博客。由于中文和英文存在較大的差異,因此國外的研究僅僅具有一定的理論參考價值。性格是ー個人表現在對現實的態度和行為方式上的比較穩定但又可變的心理特征,是個性的最重要的組成部分,是ー種與社會相關最密切的人格特征。性格在學習教育、團隊管理、交際能力、職業等方面發揮著重要的作用,在某些方面,性格的重要性甚至高干智力。信息社會面臨著“數據過剩”和“知識貧乏”的矛盾。如何通過知識挖掘,快速、準確地獲得信息及隱藏在信息中的知識,已經成為人們的迫切需要。據了解,自動識別中文博客作者性格的方法目前還沒有,因此本發明具有較強的創新性。
發明內容
本發明針對當前博客用戶量巨大,基于博客的個性化服務缺乏以及人工搜集或者推斷作者個人信息開銷大、實施比較困難的情況,提供了基于支持向量機的博客作者興趣與性格自動識別方法。本發明的目的在于讓機器智能地分析作者的所有博客文章,自動地識別作者的興趣和性格,讓市場人員更加充分地了解用戶,從而改善服務方式,提高客戶服務質量。具體技術方案如下基于支持向量機的博客作者興趣與性格自動識別方法,其包括以下步驟(a)搜集ー組表示作者興趣主題的博客文章以及內向、外向作者寫作的博客文章,分別將這兩組博客文章作為興趣分類和性格分類訓練樣本集;(b)用中文詞法分析器對步驟(a)得到的兩組訓練樣本集進行詞法分析,得到這兩組樣本集中文章分詞結果和詞語的詞性,分別定義為候選興趣特征項集合和候選性格特征項集合;(C)用統計方法分別分析候選興趣特征項集合和候選性格特征項集合中的特征項對興趣訓練樣本集和性格訓練樣本集的重要性,井分別按重要性大小篩選ー組興趣特征項和ー組性格特征項,分別定義為興趣分類特征項集合和性格分類特征項集合;
(d)根據興趣分類特征項集合將興趣分類訓練樣本集的每個樣本表示成向量形式,定義為興趣分類訓練樣本向量集合;根據性格分類特征項集合將性格分類訓練樣本集的每個樣本表示成向量形式,定義為性格分類訓練樣本向量集合;(e)將興趣分類訓練樣本向量集合和性格分類訓練樣本向量集合作為支持向量機的輸入進行訓練,得到興趣分類器和性格分類器;(f)對于ー個待預測其興趣和性格類別的作者,搜集該作者的所有博客文章,使用步驟(b)所述的詞法分析器對該組博客文章進行詞法分析,根據步驟(C)得到的興趣分類特征項集合和性格分類特征項集合將該作者所有博客文章表示成向量形式,分別得到用于預測該作者興趣的向量集合和預測該作者性格的向量;(g)將步驟(f)的用于預測該作者興趣的向量集合作為步驟(e)興趣分類器的輸入,得到該作者每篇文章的興趣類別;將步驟(f)的用于預測該作者性格的向量作為步驟(e)性格分類器的輸入,得到該作者的性格類別。上述的基于支持向量機的博客作者興趣與性格自動識別方法中,步驟(a)包括以下步驟(a-1)使用網絡爬蟲從博客站點的分類目錄搜集ー組博客文章,根據分類目錄的主題特征將該目錄包含主題類別劃分為興趣主題類別和非興趣主題類別,其中興趣主題類別表示作者的興趣,興趣主題包含育兒、房產、家居、教育、娛樂、財經、游戲、健康、科技、汽車、文化、美食、體育、旅游和軍事中的ー種以上;非興趣主題類別不可以表示作者的興趣,非興趣主題包括星座、女性、公益中的ー種以上;(a-2)根據作者注冊博客時填寫的個人資料,使用網絡爬蟲從博客站點搜集ー組性格為內向或外向類別作者全部的博客文章,將每ー個作者的全部博客文章作為ー個樣本;(a-3)對步驟(a-1)搜集的博客文章進行去噪處理;(a-4)分別將步驟(a-3)處理后的博客文章和步驟(a_2)搜集的博客文章作為興趣分類和性格分類訓練樣本集,具體是將興趣主題類別包含的每個子類看作一個單獨的興趣類別,將非興趣主題類別包含的所有子類合并為ー個非興趣類別;將內向和外向類別作為性格分類訓練樣本集的兩種類別。上述的基于支持向量機的博客作者興趣與性格自動識別方法中,步驟(a-3)所述博客文章去噪處理包括以下步驟
(I)對于步驟(a-1)搜集的每類博客文章,使用中科院ICTCLAS詞法分析器進行分詞,統計該類別所有博客文章中包含的詞語,得到詞語集合T= {keyi,key2,A,keyn},詞語key,在該類別博客文章中出現的文檔頻數為df (keyi),n為分詞得到的詞語個數,i取值為I n ;(2)將該類別中的每篇博客文章表示成向量形式Clj = (W1, w2, A,wn),其中
權利要求
1.基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于,包括以下步驟 (a)搜集一組表示作者興趣主題的博客文章以及內向、外向作者寫作的博客文章,分別將這兩組博客文章作為興趣分類和性格分類訓練樣本集; (b)用中文詞法分析器對步驟(a)得到的兩組訓練樣本集進行詞法分析,得到這兩組樣本集中文章分詞結果和詞語的詞性,分別定義為候選興趣特征項集合和候選性格特征項集合; (C)用統計方法分別分析候選興趣特征項集合和候選性格特征項集合中的特征項對興趣訓練樣本集和性格訓練樣本集的重要性,并分別按重要性大小篩選一組興趣特征項和一組性格特征項,分別定義為興趣分類特征項集合和性格分類特征項集合; (d)根據興趣分類特征項集合將興趣分類訓練樣本集的每個樣本表示成向量形式,定義為興趣分類訓練樣本向量集合;根據性格分類特征項集合將性格分類訓練樣本集的每個樣本表示成向量形式,定義為性格分類訓練樣本向量集合; (e)將興趣分類訓練樣本向量集合和性格分類訓練樣本向量集合作為支持向量機的輸入進行訓練,得到興趣分類器和性格分類器; (f)對于一個待預測其興趣和性格類別的作者,搜集該作者的所有博客文章,使用步驟(b)所述的詞法分析器對該組博客文章進行詞法分析,根據步驟(c)得到的興趣分類特征項集合和性格分類特征項集合將該作者所有博客文章表示成向量形式,分別得到用于預測該作者興趣的向量集合和預測該作者性格的向量; (g)將步驟(f)的用于預測該作者興趣的向量集合作為步驟(e)興趣分類器的輸入,得到該作者每篇文章的興趣類別;將步驟(f)的用于預測該作者性格的向量作為步驟(e)性格分類器的輸入,得到該作者的性格類別。
2.如權利要求I所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于所述步驟(a)包括以下步驟 (a-Ι)使用網絡爬蟲從博客站點的分類目錄搜集一組博客文章,根據分類目錄的主題特征將該目錄包含主題類別劃分為興趣主題類別和非興趣主題類別, 其中興趣主題類別表示作者的興趣,興趣主題包含育兒、房產、家居、教育、娛樂、財經、游戲、健康、科技、汽車、文化、美食、體育、旅游和軍事中的一種以上;非興趣主題類別不可以表示作者的興趣,非興趣主題包括星座、女性、公益中的一種以上; (a-2)根據作者注冊博客時填寫的個人資料,使用網絡爬蟲從博客站點搜集一組性格為內向或外向類別作者全部的博客文章,將每一個作者的全部博客文章作為一個樣本; (a-3)對步驟(a-Ι)搜集的博客文章進行去噪處理; (a-4)分別將步驟(a-3)處理后的博客文章和步驟(a_2)搜集的博客文章作為興趣 分類和性格分類訓練樣本集,具體是將興趣主題類別包含的每個子類看作一個單獨的興趣類別,將非興趣主題類別包含的所有子類合并為一個非興趣類別;將內向和外向類別作為性格分類訓練樣本集的兩種類別。
3.如權利要求2所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于步驟(a-3)所述博客文章去噪處理包括以下步驟 (I)對于步驟(a-Ι)搜集的每類博客文章,使用中科院ICTCLAS詞法分析器進行分詞,統計該類別所有博客文章中包含的詞語,得到詞語集合T = {key1;key2, A , keyj ,詞語Iceyi在該類別博客文章中出現的文檔頻數為df (keyi),η為分詞得到的詞語個數,i取值為I η ;(2)將該類別中的每篇博客文章表示成向量形式dj= (W1, w2, Λ,wn),其中 IcIW1 = -tfj(key,Pj(key,)logPj(key,), C表示該類別包含的博客文章數,Pj (key^表示 J=I 在該類別博客文章中詞語keyi在第j篇文章dj出現的概率,tfj (key^表示詞語Iceyi在第j篇文章Clj出現的次數,j取值為I |C| ; (3)對該類別所有博客文章對應的向量取算術平均值,得到該類別博客文章的中心向量; (4)采用余弦相似度計算該類別中每篇博客文章對應的向量與該類別博客文章中心向量之間的相似度,剔除相似度小于δ的博客文章,δ取值為O. 2 O. 3。
4.如權利要求I所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于步驟(b)包括以下步驟 (b-Ι)使用中科院ICTCLAS詞法分析器處理興趣分類和性格分類訓練樣本集,得到這兩組樣本集中文章分詞結果和詞語的詞性; (b-2)分析興趣分類訓練樣本集,保留名詞、動詞和形容詞作為候選興趣特征項集合;分析性格分類訓練樣本集,將分詞結果按照N個連續的詞語分組,得到這N個詞語對應的N元詞性序列,并保留N元詞性序列作為候選性格特征項集合,N < 4。
5.如權利要求I所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于步驟(C)包括以下步驟 (c-1)使用信息增益方法度量候選興趣特征項集合中的每個特征項區分不同類別的興趣訓練樣本的能力,并篩選出信息增益值最大的前P個特征項作為興趣分類特征項集合,P取值為2000 4000 ; (c-2)使用F分布(以統計學家R.A. Fisher姓氏的第一個字母命名)和Eta相關系數(相關比率,Correlation Ratio)度量候選性格特征項集合中的每個特征項區分不同類別的性格訓練樣本的能力以及每個特征項與性格之間的相關性;并篩選出F值大于α且Eta值大于β的一組特征項作為性格分類特征項集合,α取值為3. 85,β取值為O. 03 O.04。
6.如權利要求I所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于步驟(d)包括以下步驟 (d-D根據興趣分類特征項集合將興趣分類訓練樣本集的每個樣本S表示成向量形式,即s = Cn1, η2, λ,ηρ),nm為第m個特征項^的權值,m取值為I p ; (d-2)根據性格分類特征項集合將性格分類訓練樣本集的每個樣本H表示成向量形式,即H = ( λ P λ 2,Λ,λ q),其中q為性格分類特征項集合的大小,λ ^為第r個特征項匕的權值,r取值為I q ; (d-3)分別將興趣分類訓練樣本和性格分類訓練樣本的向量結果定義為興趣分類訓練樣本向量集合和性格分類訓練樣本向量集合。
7.如權利要求6所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于所述步驟(d-1)具體是興趣分類訓練樣本集的每個樣本S的向量表示中,第m個特征項tm的權值!^計算過程具體是根據綜合評價模型的Gl法,分別給博客內容中標題、標簽、類別、首段、末段以及其他正文部分的特征詞賦予不同的權重φ,并結合文檔頻-逆文檔頻方法給出每個特征項最終的權值,即
8.如權利要求I所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于步驟(e)具體過程是根據支持向量機統計學習理論,使用興趣分類訓練樣本向量集合和性格分類訓練樣本向量集合分別訓練興趣分類器和性格分類器,生成相應的興趣分類模型文件和性格分類模型文件。
9.如權利要求I所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于步驟(f)具體過程是給定一個待預測其興趣和性格類別的作者,使用網絡爬蟲搜集該作者的所有博客文章,使用步驟(b)所述的詞法分析器對該作者的所有博客文章進行詞法分析,根據步驟(c)得到的興趣分類特征項集合和性格分類特征項集合將該作者的所有博客文章表示成向量形式,分別得到用于預測該作者興趣的向量集合和預測該作者性格的向量。
10.如權利要求I所述基于支持向量機的博客作者興趣與性格自動識別方法,其特征在于步驟(g)具體過程是將步驟(f)的用于預測該作者興趣的向量集合作為步驟(e)得到的興趣分類器的輸入,得到該作者每篇文章的興趣類別,綜合該作者所有的興趣類別構建作者的興趣向量,篩選最重要的興趣作為該作者最終的興趣;將步驟(f)的用于預測該作者性格的向量作為步驟(e)得到的性格分類器的輸入,得到該作者的性格類別; 所述的構建作者的興趣向量的具體過程是根據待預測作者所有博客文章的興趣類另IJ,統計每種興趣類別的文章數量,并剔除非興趣類別的文章數量,按照每種興趣類別的文章數量衡量作者興趣的重要程度,篩選出最重要的M個興趣作為作者最終的興趣,M < 3。
全文摘要
本發明提供基于支持向量機的博客作者興趣與性格自動識別方法,首先構建興趣分類訓練樣本集和性格分類訓練樣本集,然后使用中文詞法分析器分別處理這兩組訓練樣本集,得到候選興趣特征項集合和候選性格特征項集合,接著使用統計方法分析這兩組候選特征項集合,構建興趣分類特征項集合和性格分類特征項集合,然后分別使用這兩組特征項集合將興趣分類訓練樣本集和性格分類訓練樣本集表示成向量形式,最后分別使用這兩組向量訓練興趣分類器和性格分類器,該分類器被用于識別其他作者的興趣和性格。本發明能夠準確地識別作者的興趣和性格,適用于各種基于作者信息的個性化服務,使服務商更加充分地了解用戶,從而提高服務質量,具有極大的實用價值。
文檔編號G06F17/30GK102663001SQ20121007017
公開日2012年9月12日 申請日期2012年3月15日 優先權日2012年3月15日
發明者劉偉慶, 張遠峰, 蔡昭權, 郝志峰, 魯夢平, 黃翰 申請人:華南理工大學