專利名稱::一種互聯網輿情信息的分類處理方法
技術領域:
:本發明屬于互聯網信息發布監控
技術領域:
,具體來講,涉及一種互聯網輿情信息的分類處理方法。
背景技術:
:隨著互聯網技術的快速發展,人們可以更方便地在線瀏覽網頁,'閱讀新聞,同時也能發布帖子和評論,編輯個人網頁。用戶對信息的產生,傳播和消費等對互聯網的發展發揮著重要作用。由于互聯網傳播的虛擬性、隱蔽性、發散性、滲透性和隨意性,互聯網輿情以"內容威脅"的形式逐漸對社會公共安全構成威脅。輿情是指在一定的社會空間內,圍繞中介性社會事件的發生、發展和變化,民眾對社會管理者產生和持有的社會政治態度。它是較多群眾關于社會中各種現象、問題所表達的信念、態度、意見和情緒等等表現的總和。網絡的開放性和虛擬性使得互聯網輿情具有以下特點1、直接性,通過BBS,新聞點評和博客網站,網民可以立即發表意見;2、突發性,網絡輿論的形成迅速,一個熱點事件加上一種情緒化的意見,可以成為點燃一片輿論的導火索;3、偏差性,由于發言者身份隱蔽,并且缺少規則限制和有效監督,網絡自然成為一些網民發泄情緒的空間;此外在現實生活中遇到挫折,對社會問題片面認識等等,都會利用網絡宣泄。因此,互聯網輿情形成迅速,對社會影響巨大,不僅受到國內外各級管理部門密切關注,也受到社會各界的高度重視,不少國家通過立法的方式從法律和行政制度上采取相應措施進行管理。鑒于互聯網具有的開放性,個人對互聯網的使用又具有相當的自由性,因此從技術的角度對互聯網輿情信息進行分類處理,對互聯網輿情信息的分析及預測具有重要意義。互聯網輿情信息常規分類方法分為兩類一是基于知識的分類方法;二是基于統計的分類方法。基于知識的分類方法需要知識庫作為支撐,另外,由于知識提取、更新、維護以及自我學習等方面存在的種種問題,使得它適用面較窄。基于統計的分類方法由于不苛求復雜的語言學知識和領域知識,在實際應用中收到的良好效果,成為目前最流行的文本分類方法。現有廣泛應用的基于統計的模型有向量空間模型,貝葉斯模型等。G.Salton等人在20世紀60年代提出的向量空間模型(VSM)把文本表示為以特征詞的權重為分量的向量,作為向量空間的一個點,然后通過計算向量間的距離決定文本類別的歸屬。由于把文本分類簡化為空間向量的運算,使得問題的復雜性大大降低。傳統基于向量空間模型的文本分類處理方法存在如下缺點一是簡單將模型中的"項"取為文本中的特征詞,而特征詞之間具有一定的相關性,因此會導致向量之間距離的計算不夠準確,從而造成文本分類效果不理想;二是局限于慣用的相似性度量的分類模式,簡單將文本對應一個高維空間上的特征向量,相似度計算量巨大。
發明內容本發明的目的在于克服上述現有技術的不足,提供一種分類更為準確、計算量更小的互聯網輿情信息的分類處理方法。為實現上述目的,本發明的互聯網輿情信息的分類處理方法,包括以下步驟(1)、將互聯網輿情信息分為M類,從互聯網網站下載、提取輿情信息,人工將其分為M類輿情信息中的一種,并以文本文件的格式保存在相應的文件目錄中,每類選取/個的輿情信息文本作為訓練文本;(2)、采用漢字分詞系統對每個訓練文本進行分詞,根據詞性,從分出詞語中選取名詞和動詞作為候選特征詞進行篩選,提取代表該類輿情信息的g個特征詞,從而得到所有訓練文本的G個特征詞,其中G-Mxg;(3)、獲取主成分分析變換矩陣按步驟(2)得到G個特征詞在每個訓練文本中出現的詞頻,向量化每一個訓練文本,得到^個(7維的向量《=(\1,氣2,...,^),^/《仏構成訓練文本的向量矩陣CTM)穌,其中,7V=Mx/;計算iV個訓練文本在每一個維度上的均值<formula>formulaseeoriginaldocumentpage7</formula>其中巧,為iV個訓練文本向量在第_/維上的均值,、表示第/個向量;c,在第_/維上的值,lSy^G。計算G個特征詞之間的協方差矩陣C:其中&,x力,分別為向量x,和x^.在第A與/維上的值,&,^,分別為樣本在第A維和第/維上的均值,la,AAM^W^G,協方差矩陣C為對稱矩陣,即有<formula>formulaseeoriginaldocumentpage7</formula>計算協方差矩陣(:特征值^及其對應的特征向量",(/=1,2,...,^),并按特征值的大小降序排列,即^選取前r個特征值A,對應的主成分特征向量"^2,...,",.,得到主成分分析變換特征矩陣^^(",,^,...,0、其中r=min{,I^+^+…"(280%};+4+...+AG(4)、獲取BP神經網絡模型的網絡權值矩陣w與偏移值6將訓練文本的向量矩陣(rMke乘以主成分分析變換特征矩陣^的轉置矩陣(^;u.,得到經主成分分析變換后的向量矩陣(7^r—尸C4)^,將其中的iV個r維行向量作為BP神經網絡模型的7V個輸入向量,將每一個訓練文本對應一個表示該訓練文本所屬輿情信息分類的M維輸出向量,訓練BP神經網絡,當BP神經網絡漸趨穩定時,保存訓練好的神經網絡模型參數,即網絡權值矩陣w與偏移值6,獲得BP神經網絡模型;(5)、獲取決策樹規則集利用步驟(4)得到的神經網絡模型,將訓練文本的向量矩陣(rMX^經主成分分析變換后得到的向量矩陣(rMJC4L作為神經網絡模型iV個輸入向量,計算得到對應的iV個M維的神經網絡模型輸出向量,構成BP神經網絡輸出矩陣在矩陣(rMJC4—^kM中每一行都對應一個M維的神經網絡輸出向量,根據每一行對應訓練文本所屬的輿情信息分類,將每一個M維神經網絡輸出向量增加一維表示該訓練文本所屬的輿情信息分類,這7V個M+1維向量構成了決策樹樣本矩陣(&,/^^+,);矩陣中iV個向量在第/(1M)維上有A;個不同的數對于其中的每個數x/l《/S",將7V個向量在第Z維上的值分為兩類,小于x,.的為一類,不超過、.的為另一類,第一類和第二類中分別有w,和^個值,按如下公式求出個行向量在第/維上基于x;(1Sj、A)的熵值/(~)=-X)-X)7iViVTVTV將A:個熵值中最大熵值對應的數、,記為max&,計算W個向量在前M維上的最大熵值對應的數,得到一個熵值數組S^maxS,max&,…,max^J。根據熵值數組S對矩陣OSm甲/e)^(M+,)中個iV行向量在前M維上的值進行離散化,如果在第/維上的值大于等于max《,則離散化為l,否則離散化為O;然后利用C4.5決策樹算法建立基于離散化后矩陣(&m;^)w+。的決策樹分類模型,得到決策樹規則集i"/e;(6)、從互聯網網站下載、提取輿情信息,并以文本格式保存,作為待分類輿情信息文本,其個數為F;(7)、采用漢字分詞系統對每個待分類輿情信息文本進行分詞,按步驟(2)得到G個特征詞在每個待分類輿情信息文本中出現的詞頻,向量化每一個待分類輿情信息文本,得到F個G維的向量x,.=(xu,x,,2,...,x,、c),l"SF,構成待分類輿情信息文本的向量矩陣(r)^;將待分類輿情信息文本的向量矩陣(r)^乘以步驟(3)得到的主成分分析變換特征矩陣x的轉置矩陣(y)",得到經主成分分析變換后的向量矩陣將主成分分析變換后的向量矩陣(r—尸C4)^中的F個r維向量作為步驟(4)獲取BP神經網絡模型的F個輸入向量,計算出F個輸入向量對應的F個M維的神經網絡輸出向量;根據步驟(5)獲得的熵值數組S對F個M維神經網絡輸出向量的每一維進行離散化;將離散化后的每一個M維神經網絡輸出向量與步驟(5)中得到的決策樹規則集^/e中的決策樹規則進行匹配,若有,則待分類輿情信息文本屬于該規則所標記的輿情信息分類。本發明通過選取已分類的輿情信息文本作為訓練文本,采用漢字分詞系統分詞,根據詞性,選取名詞和動詞進行篩選,提取代表得到該類輿情信息的特征詞,得到訓練文本特征詞。根據訓練文本特征詞將訓練文本向量化,得到訓練文本的向量矩陣,根據該向量矩陣得到PCA變換特征矩陣、BP神經網絡模型、決策樹規則。利用PCA變換特征矩陣將待分類輿情信息文本的向量矩陣的向量降維,然后根據獲得的BP神經網絡模型對其進行變換,得到與輿情信息文本分類數量相同維數的神經網絡輸出向量,再用決策樹規則進行匹配,若有,則待分類輿情信息文本屬于該規則所標記的輿情信息分類。由于PCA變換將高維相關的特征詞空間轉化為低維正交的特征空間,解決了傳統算法中利用原始特征詞空間進行分類,特征詞之間具有一定的相關性,導致向量之間距離的計算不夠準確,造成互聯網輿情信息分類不準確的缺點;同時,降維后的待分類輿情信息文本的向量矩陣在神經網絡模型再進行一次變換,得到與輿情信息文本分類數量相同維數的神經網絡輸出向量,維數進一步降低,同時利用決策樹規則來進行分類無需比較數據之間的相似性,能夠在相對短的時間內處理大量數據源。這樣克服傳統的決策樹分類將向量每一維對應于單獨的一個特征詞,待分類輿情信息文本對應一個高維空間上的特征向量,相似度計算量巨大的缺占。y、、、o圖1是本發明互聯網輿情信息的分類處理方法的一種具體實施方式流程圖。具體實施例方式下面對本發明的具體實施方式進行描述,需要特別提醒注意的是,在以下的描述中,當采用已知功能和設計的詳細描述也許會淡化本發明的主要內容時,這些描述在這兒將被忽略。圖1是本發明互聯網輿情信息的分類處理方法的一種具體實施方式流程圖。在本實施例中,互聯網輿情信息的分類處理方法包括以下步驟(1)、將互聯網輿情信息分為M類,從互聯網網站下載、提取輿情信息,人工將其分為M類輿情信息中的一種,并以文本文件的格式保存在相應的文件目錄中,每類選取/個的輿情信息文本作為訓練文本。該步驟為圖1中的步驟ST1,目的是M類互聯網輿情信息文本作為訓練文本。在本實施中,將所提取的互聯網輿情信息分為重大刑事案件、涉外突發事件、恐怖襲擊事件、經濟安全事件、公共衛生事件、突發自然災害事件六大類,即M=6。每類選取200個輿情信息文本作為訓練文本,即/=200。(2)、采用漢字分詞系統對每個訓練文本進行分詞,根據詞性,從分出詞語中選取名詞和動詞作為候選特征詞進行篩選,提取代表該類輿情信息的g個特征詞,從而得到所有訓練文本的G個特征詞,其中G:Mxg。該步驟為圖1中的步驟ST2,目的是提取互聯網輿情信息文本中的特征詞。在本實施例中,采用的漢字分詞為ICTC1AS分詞系統,該分詞系統先進行原子切分,然后在此基礎上進行N-最短路徑粗切分,找出前N個最符合的切分結果,生成二元分詞表,然后生成分詞結果,接著進行詞性標注并完成主要分詞步驟。例如中訓練文本一個語句上海法院高院開庭公告信息欄里信息顯示,上海市高級人民法院將在第五法庭公開審理此案,開庭時間是10月13日上午9點30分。承辦部門是刑一庭,審判長/主審人是徐偉,上訴人為楊佳。分詞效果上海/ns法院/n高院/j開庭/v公告/n信息/n欄/n里/f信息/n顯示/v,/w上海市/ns高級/a人民法院/1將/d在/p第五/m法庭/n公開/ad審理/v此案/r,/w開庭/v時間/n是/v10月13日/td上午/t9點30分/td。Av承辦/v部門/n是/v刑/n—/m庭/ng,/w審判長/n〃m主/bg審/vn人/n是/v徐偉/nr,/w上訴/v人為/d楊/ng佳/a。/w其中/xxx代表前面的詞對應的詞性。其中/n表示名詞,/v表示動詞,/ns表示地名,/f表示助詞/w表示符號/a表示形容詞/td表示時間/m表示量詞/nr表示人名。由于在一個輿情信息文本中,形容詞,副詞以及包括助詞、介詞和代詞等停留對輿情信息的中心含義沒有影響,因此從分出詞語中出現的屬于這些類的詞去掉,只留下名詞和動詞作為候選特征詞進行篩選。另外,在本實施例中,為了防止特征詞重復出現,需要先對選取的候選特征詞進行同義詞合并,以保證訓練文本的特征詞沒有重復。在本實施例中,還需要統計候選特征詞的詞頻,如上述句子中的選特征詞的詞頻為這時上面的句子為開庭2,信息2,上訴1,法院1,法庭1,部門1,審理1,顯示1,公告1,承辦1,時間1。對選取的候選特征詞中出現頻率低于2的低頻詞進行去除,這些低頻候選特征中有很多是與該訓練文本所在類別無關的詞,如果保留的話會對分類造成干擾,因此需要去掉詞頻較低的候選特征詞。在本實施例中,利用低頻詞清理后的候選特征詞的卡方統計,每類選取關聯度較大的前200個候選特征詞。具體為候選特征詞的卡方值,卡方值表示候選特征詞在選取的訓練文本中,與所在類的關聯度。候選特征詞的卡方值為;tr20,c)=-^-^-(i)(v4+C)x(5+Z))x04+5)x(C+D)其中,^代表候選特征詞^在c類別文本中出現的次數,^代表候選特征詞Z在非c類別文本中出現的次數,C代表c類別文本中出現非候選特征詞,的次數,"代表所有非c類文檔中出現非候選特征詞^的次數,代表整個訓練文本集含有文本的數目。如在恐怖襲擊輿情分類中,數字表示計算出來該候選特征詞的關聯度,關聯度越大表示訓練文本中該候選特征詞與所在類的關聯越大,反之越小襲擊939.783853670575爆炸565.442971962338炸彈542.543135561674事件463.40578926054917分子406.42742982745347汽車401.67318890869973武裝292.95992942339245發生270.92415281885593自殺202.65176549770203發動173.87469429704223組織138.43465748646707基地137.42406992956194利用公式(l)計算所有候選特征詞與所在類別的相關度,即卡方值,每類選取關聯度較大的前200個候選特征詞,刪除對應類中的文檔所出現的其它候選特征詞,以便于在不犧牲分類準確度的前提下降低特征空間的維度,降低分類算法運算的復雜度。人工清理各類別下不能代表該類互聯網輿情信息的侯選特征詞'將每類選取的關聯度較大的前200個侯選特征詞,按其對應的卡方值從大到小進行排列,理論上位置越靠前的侯選特征詞,與本類的關聯度越大。但是由于個別訓練樣本帶來的噪聲以及選取訓練樣本的局限性,在位置靠前的侯選特征詞中,會出現一些不能代表該類互聯網輿情信息的詞,這些詞需要人工清理以保證待建立特征詞空間的準確性。如在恐怖襲擊輿情分類中排在第30位的是"大樓",但是該特征詞不能代表該輿情分類的特征,所以將該詞去掉。從人工清理后的候選特征詞中,按候選特征詞對應卡方值的大小每一類選取前100個特征詞,即^=100,六類該類輿情信息共選取600個特征詞作為原始特征詞空間<9=(^,^2,.">^)A:=600,艮卩(?=600(3)、獲取主成分分析變換矩陣,該步驟為圖1中的步驟ST3。按步驟(2)得到0=600個特征詞在每個訓練文本中出現的詞頻,向量化每一個訓練文本,得到W即1200個600維的向量1,",1,氣2,...,^6。。),1^^1200,構成訓練文本的向量矩陣(rM、。,。,其中,TV=Mx/=6x200=1200;計算1200個訓練文本在每一個維度上的均值1/Vi1200J7V臺w1200^"其中^.為1200個訓練文本向量在第y維上的均值,、表示第/個向量x,在第y維上的值,1^^600。計算600個特征詞之間的協方差矩陣C:1<formula>formulaseeoriginaldocumentpage13</formula>其中^,^/分別為向量1,和在第^與/維上的值,&,示,分別為樣本在第A維和第/維上的均值,K1200,1600,協方差矩陣C為600x600對稱矩陣,即有0:/,力=07力;計算協方差矩陣C特征值義,及其對應的特征向量",(^1,2,…,600),并按特征值的大小降序排列,即i^4^.》4。;選取前r個特征值A,對應的主成分特征向量MpM2,...,",.,得到主成分分析變換特征矩陣^^0^^,…,"j,其中^+4+...+/lG在本實施例中,r=41。這樣,通過PCA變換將高維,即600維相關的特征詞空間轉化為低維,即41維正交的特征空間。(4)、獲取BP神經網絡模型的網絡權值矩陣w與偏移值6,該步驟為圖1中的步驟ST4。將訓練文本的向量矩陣(7^),^。乘以主成分分析變換特征矩陣j的轉置矩陣"7),^,得到經主成分分析變換后的向量矩陣(rM—尸C4U。w,將其中的1200個41維行向量作為BP神經網絡模型的1200個輸入向量,將每一個訓練文本對應一個表示該訓練文本所屬輿情信息分類的輸出向量。在本實施例中,取第一類訓練文本對應的輸出向量為ftQQQQq,第二類訓練樣本對應的輸出向量為[QlQQQ01,...,第六類訓練樣本對應的輸出向量為[QQQQQl]。這樣N個訓練樣本對應的輸出向量構成了一個矩陣(r(尸C4,)論6。訓練BP神經網絡,當BP神經網絡漸趨穩定時,保存訓練好的神經網絡模型參數,即網絡權值矩陣w與偏移值6,獲得BP神經網絡模型;(5)、獲取決策樹規則集,該步驟為圖1中的步驟ST5。利用步驟(4)得到的神經網絡模型,即網絡權值矩陣w與偏移值"將訓練文本的向量矩陣(rMU,。經主成分分析變換后得到的向量矩陣(rM—尸C4),2。一作為神經網絡模型1200個輸入向量,計算得到對應的1200個6維的神經網絡"200x6模型輸出向量,構成BP神經網絡輸出矩陣(rM—尸C4—在矩陣(rM—尸C4—^P^。^中每一行都對應一個6維的神經網絡輸出向量,根據每一行對應訓練文本所屬的輿情信息分類,將每一個6維神經網絡輸出向量增加一維表示該訓練文本所屬的輿情信息分類,這1200個7維向量構成了決策樹樣本矩陣(&^^)12,7;決策樹樣本矩陣(&附/^),7中1200個向量在第/(B"6)維上有A:個不同的數^,^2,...,&,對于其中的每個數、.(K/s/t),將1200個向量在第/維上的值分為兩類,小于^的為一類,不超過、的為另一類,第一類和第二類中分別有",和個值,按如下公式求出1200個行向量在第/維上基于(l^^"的熵值/(x》=-x)_x)JTVTVTVjV將A:個熵值中最大熵值對應的數、,記為maxS,,計算1200個向量在前6維上的最大熵值對應的數,得到一個熵值數組S^maxS,max&,…,max^^。在本實施例中,熵值數組5={0.99,0.01,1.0,0.01,0.99,0.98}。根據熵值數組S對決策樹樣本矩陣(&,/e)^中個1200行向量在前6維上的值進行離散化,如果在第/維上的值大于等于max《,則離散化為l,否則離散化為0;然后利用C4.5決策樹算法建立基于離散化后決策樹樣本矩陣(&,w;^)^+,)的決策樹分類模型,得到決策樹規則集及"/e,在本實施例中,共得到35條規則組成的規則集iM/e。(6)、從互聯網網站下載、提取輿情信息,并以文本格式保存,作為待分類輿情信息文本,其個數為F。該步驟為圖1中的步驟ST6。在本實施例中,F=1866。(7)、采用漢字分詞系統對每個待分類輿情信息文本進行分詞,按步驟(2)得到600個特征詞在每個待分類輿情信息文本中出現的詞頻,向量化每一個待分類輿情信息文本,得到1934個600維的向量1,=(氣1,^2,...,\6。。),1《^1934,構成待分類輿情信息文本的向量矩陣(7%34><6。。;將待分類輿情信息文本的向量矩陣(r),,乘以步驟(3)得到的主成分分析變換特征矩陣^的轉置矩陣04、。一,得到經主成分分析變換后的向量矩陣(r_PC4)1934x41■,將主成分分析變換后的向量矩陣(T—尸C4)^中的1934個41維向量作為步驟(4)獲取BP神經網絡模型的1934個輸入向量,計算出1934個輸入向量對應的1934個6維的神經網絡輸出向量;根據步驟(5)獲得的熵值數組S對1934個6維神經網絡輸出向暈的每一維進行離散化;將離散化后的每一個6維神經網絡輸出向量與步驟(5)中得到的決策樹規則集i"/e中的決策樹規則進行匹配,若有,則待分類輿情信息文本屬于該規則所標記的輿情信息分類。為驗證本發明的輿情信息分類準確率,我們對1934個待分類輿情信息文本進行了人工分類,情況如下<table>tableseeoriginaldocumentpage15</column></row><table>表2表2中,類似公共衛生361,這里的361指的是該類輿情信息文本的個數。從表2中我們可以看出,本發明實施例進行分類,輿情信息文本分類的平均準確率為88.5°/。。同時,為比較本發明的有益效果,利用本實施例獲得的600個特征詞,以及傳統的BP神經網絡模型對上述1934個待分類輿情信息文本進行分類,結果如下<table>tableseeoriginaldocumentpage16</column></row><table>表4從表3我們可以看出,輿情信息文本分類的平均準確率為77.4%。從實驗結果可以看出利用本發明互聯網輿情信息的分類處理方法對互聯網輿情信息進行分類處理有較好的實驗結果,平均準確率能提高15%左右。盡管上面對本發明說明性的具體實施方式進行了描述,以便于本技術領的技術人員理解本發明,但應該清楚,本發明不限于具體實施方式的范圍,對本
技術領域:
的普通技術人員來講,只要各種變化在所附的權利要求限定和確定的本發明的精神和范圍內,這些變化時顯而易見的,一切利用本發明構思的發明創造均在保護之列。權利要求1、一種互聯網輿情信息的分類處理方法,其特征在于,包括以下步驟(1)、將互聯網輿情信息分為M類,從互聯網網站下載、提取輿情信息,人工將其分為M類輿情信息中的一種,并以文本文件的格式保存在相應的文件目錄中,每類選取f個的輿情信息文本作為訓練文本;(2)、采用漢字分詞系統對每個訓練文本進行分詞,根據詞性,從分出詞語中選取名詞和動詞作為候選特征詞進行篩選,提取代表該類輿情信息的g個特征詞,從而得到所有訓練文本的G個特征詞,其中G=M×g;(3)、獲取主成分分析變換矩陣按步驟(2)得到G個特征詞在每個訓練文本中出現的詞頻,向量化每一個訓練文本,得到N個G維的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤N,構成訓練文本的向量矩陣(TM)N×G,其中,N=M×f;計算N個訓練文本在每一個維度上的均值其中<overscore>m</overscore>j為N個訓練文本向量在第j維上的均值,xi,j表示第i個向量xi在第j維上的值,1≤j≤G。計算G個特征詞之間的協方差矩陣C其中xi,k,xj,l分別為向量xi和xj在第k與l維上的值,<overscore>m</overscore>k,<overscore>m</overscore>l分別為樣本在第k維和第l維上的均值,1≤i,j≤N,1≤k,l≤G,協方差矩陣C為對稱矩陣,即有C(i,j)=C(j,i);計算協方差矩陣C特征值λi及其對應的特征向量ui(i=1,2,...,G),并按特征值的大小降序排列,即λ1>λ2>...>λG;選取前r個特征值λi對應的主成分特征向量u1,u2,...,ur,得到主成分分析變換特征矩陣A=(u1,u2,...,ur)T,其中(4)、獲取BP神經網絡模型的網絡權值矩陣w與偏移值b將訓練文本的向量矩陣(TM)N×G乘以主成分分析變換特征矩陣A的轉置矩陣(AT)G×1,得到經主成分分析變換后的向量矩陣(TM_PCA)N×1,將其中的N個r維行向量作為BP神經網絡模型的N個輸入向量,將每一個訓練文本對應一個表示該訓練文本所屬輿情信息分類的M維輸出向量,訓練BP神經網絡,當BP神經網絡漸趨穩定時,保存訓練好的神經網絡模型參數,即網絡權值矩陣w與偏移值b,獲得獲取BP神經網絡模型;(5)、獲取決策樹規則集利用步驟(4)得到的神經網絡模型,將訓練文本的向量矩陣(TM)N×G經主成分分析變換后得到的向量矩陣(TM_PCA)N×r作為神經網絡模型N個輸入向量,計算得到對應的N個M維的神經網絡模型輸出向量,構成BP神經網絡輸出矩陣(TM_PCA_BP)N×M;在矩陣(TM_PCA_BP)N×M中每一行都對應一個M維的神經網絡輸出向量,根據每一行對應訓練文本所屬的輿情信息分類,將每一個M維神經網絡輸出向量增加一維表示該訓練文本所屬的輿情信息分類,這N個M+1維向量構成了決策樹樣本矩陣(Sample)N×(M+1);矩陣(Sample)N×(M+1)中N個向量在第l(1≤l≤M)維上有k個不同的數x1,x2,...,xk,對于其中的每個數x(1≤J≤k),將N個向量在第i維上的值分為兩類,小于xi的為一類,不超過xj的為另一類,第一類和第二類中分別有n1和n2個值,按如下公式求出N個行向量在第i維上基于xJ(1≤J≤k)的熵值將k個熵值中最大熵值對應的數xJ,記為maxSl,計算N個向量在前M維上的最大熵值對應的數,得到一個熵值數組S={maxS1,maxS2,...,maxSM}。根據熵值數組S對矩陣(Sample)N×(M+1),中個N行向量在前M維上的值進行離散化,如果在第i維上的值大于等于maxSi,則離散化為1,否則離散化為0;然后利用C4.5決策樹算法建立基于離散化后矩陣(Sample)N×(M+1)的決策樹分類模型,得到決策樹規則集Rule;(6)、從互聯網網站下載、提取輿情信息,并以文本格式保存,作為待分類輿情信息文本,其個數為F;(7)、采用漢字分詞系統對每個待分類輿情信息文本進行分詞,按步驟(2)得到G個特征詞在每個待分類輿情信息文本中出現的詞頻,向量化每一個待分類輿情信息文本,得到F個G維的向量xi=(xi,1,xi,2,…,xi,G),1≤i≤F,構成待分類輿情信息文本的向量矩陣(T)F×G;將待分類輿情信息文本的向量矩陣(T)F×G乘以步驟(3)得到的主成分分析變換特征矩陣A的轉置矩陣(AT)G×r,得到經主成分分析變換后的向量矩陣(T_PCA)F×r;將主成分分析變換后的向量矩陣(T_PCA)F×r中的F個r維向量作為步驟(4)獲取BP神經網絡模型的F個輸入向量,計算出F個輸入向量對應的F個M維的神經網絡輸出向量;根據步驟(5)獲得的熵值數組S對F個M維神經網絡輸出向量的每一維進行離散化;將離散化后的每一個M維神經網絡輸出向量與步驟(5)中得到的決策樹規則集Rule中的決策樹規則進行匹配,若有,則待分類輿情信息文本屬于該規則所標記的輿情信息分類。2、根據權利要求1所述的互聯網輿情信息的分類處理方法,其特征在于,步驟(2)所述的從分出詞語中選取名詞和動詞作為候選特征詞進行篩選,提取代表該類輿情信息的g個特征詞,從而得到所有訓練文本的G個特征詞,其步驟為對選取的候選特征詞進行同義詞合并,對選取的候選特征詞中的低頻詞進行去除,計算候選特征詞的卡方值,每類依據卡方值,選取大小靠前的候選特征詞進行人工清理,清除各類別下不能代表該類互聯網輿情信息的侯選特征詞,從而提取出代表該類輿情信息的g個特征詞,得到所有訓練文本的G個特征詞。3、根據權利要求2所述的互聯網輿情信息的分類處理方法,其特征在于,所述候選特征詞的卡方值,依據如下公式計算<formula>formulaseeoriginaldocumentpage4</formula>其中,乂代表候選特征詞r在c類別文本中出現的次數,S代表候選特征詞f在非c類別文本中出現的次數,C代表c類別文本中出現非候選特征詞,的次數,"代表所有非c類文檔屮出現非候選特征詞Z的次數,W代表整個訓練文本集含有文本的數目。全文摘要本發明公開了一種互聯網輿情信息的分類處理方法,選取已分類的輿情信息文本作為訓練文本并分詞,選取名詞和動詞并進行篩選,提取得到特征詞將訓練文本向量化,然后得到PCA變換特征矩陣、BP神經網絡模型、決策樹規則。利用PCA變換特征矩陣將待分類輿情信息文本的向量矩陣的向量降維,然后根據BP神經網絡模型對其進行變換,得到與分類數量相同維數的輸出向量,再用決策樹規則進行匹配,若有,則待分類輿情信息文本屬于該規則所標記的輿情信息分類。由于PCA變換將高維相關的特征詞空間轉化為低維正交的特征空間,解決了分類不準確的缺點;同時利用決策樹規分類無需比較數據之間的相似性,能夠在相對短的時間內處理大量數據源。文檔編號G06F17/30GK101414300SQ200810147719公開日2009年4月22日申請日期2008年11月28日優先權日2008年11月28日發明者彥傅,旭陳,輝高申請人:電子科技大學