,所述初始化操作和對(duì)所述預(yù)分類(lèi)失敗的測(cè)試數(shù)據(jù)的初始化操作包括:刪除話題標(biāo)簽、去除文本信息中的標(biāo)點(diǎn)符號(hào)以及非中文字符。
[0041]本發(fā)明,采用監(jiān)督機(jī)器學(xué)習(xí)方法,在網(wǎng)絡(luò)服務(wù)終端發(fā)生故障時(shí)和網(wǎng)絡(luò)正常操作時(shí)收集微博數(shù)據(jù)來(lái)作為訓(xùn)練數(shù)據(jù),利用訓(xùn)練數(shù)據(jù)基于SVM構(gòu)造一個(gè)分類(lèi)器,采用分類(lèi)器實(shí)時(shí)檢測(cè)微博中與網(wǎng)絡(luò)服務(wù)終端相關(guān)的信息,有效地降低了網(wǎng)絡(luò)大數(shù)據(jù)的規(guī)模和網(wǎng)絡(luò)大數(shù)據(jù)的復(fù)雜度。
【附圖說(shuō)明】
[0042]圖1為本發(fā)明實(shí)施例提供的基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法流程圖;
[0043]圖2為本發(fā)明實(shí)施例提供的基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的框架圖。
【具體實(shí)施方式】
[0044]下面結(jié)合說(shuō)明書(shū)附圖和【具體實(shí)施方式】對(duì)本發(fā)明做出詳細(xì)的說(shuō)明。
[0045]本發(fā)明實(shí)施例提供了一種基于微博大數(shù)據(jù)獲取網(wǎng)絡(luò)服務(wù)狀態(tài)的方法,如圖1和圖2所示,該方法包括以下步驟:
[0046]步驟S1、隨機(jī)獲取微博數(shù)據(jù)集中的一小部分微博數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)集。
[0047]本實(shí)施例中,所采集的微博數(shù)據(jù)集有上百萬(wàn)條微博,可隨機(jī)獲取其中的幾千條作為訓(xùn)練數(shù)據(jù)集。
[0048]步驟S2、對(duì)訓(xùn)練數(shù)據(jù)集進(jìn)行預(yù)處理,即刪除無(wú)意義微博。
[0049]其中,無(wú)意義微博包括垃圾微博文本和廣告營(yíng)銷(xiāo)微博文本,本實(shí)施例中所用到的刪除無(wú)意義微博算法是參考貝葉斯垃圾郵件過(guò)濾算法設(shè)計(jì)的,主要做法是構(gòu)建無(wú)意義微博詞庫(kù),設(shè)置門(mén)檻值為0.9,當(dāng)計(jì)算出一條微博數(shù)據(jù)的概率值大于等于0.9時(shí),則判斷該條微博數(shù)據(jù)無(wú)意義。
[0050]步驟S3、對(duì)預(yù)處理后的訓(xùn)練數(shù)據(jù)集中的每條訓(xùn)練數(shù)據(jù)進(jìn)行分類(lèi)標(biāo)記。
[0051]在本實(shí)施例中,分類(lèi)標(biāo)記時(shí)可按實(shí)際需求進(jìn)行分類(lèi),由5位工作人員對(duì)訓(xùn)練數(shù)據(jù)集中的所有訓(xùn)練數(shù)據(jù)同時(shí)進(jìn)行標(biāo)記,標(biāo)記為網(wǎng)絡(luò)服務(wù)狀態(tài)類(lèi)或非網(wǎng)絡(luò)服務(wù)狀態(tài)類(lèi),統(tǒng)計(jì)標(biāo)記結(jié)果后,根據(jù)每條訓(xùn)練數(shù)據(jù)標(biāo)記類(lèi)別的多寡,確定其最終類(lèi)別。
[0052]步驟S4、對(duì)經(jīng)過(guò)標(biāo)記的每條訓(xùn)練數(shù)據(jù)進(jìn)行初始化操作,刪除訓(xùn)練數(shù)據(jù)中的話題標(biāo)簽。
[0053]即刪除“#”符號(hào)和兩個(gè)符號(hào)中間的文本內(nèi)容,同時(shí)對(duì)訓(xùn)練數(shù)據(jù)中的文本信息去除標(biāo)點(diǎn)符號(hào)和去除非中文字符。
[0054]步驟S5、使用分詞工具對(duì)經(jīng)過(guò)初始化操作的每條訓(xùn)練數(shù)據(jù)進(jìn)行分詞處理,獲得訓(xùn)練數(shù)據(jù)集的微博文本詞項(xiàng)集。
[0055]其中,比較常見(jiàn)的分詞工具有ICTCLAS(Institute of ComputingTechnology, Chinese Lexical Analysis System,計(jì)算技術(shù)研究所,漢語(yǔ)詞法分析系統(tǒng))和IK Analyzer (IK分詞器)等,在本實(shí)施例中分詞處理采用的是ICTCLAS分詞工具。
[0056]步驟S6、使用停用詞典,對(duì)訓(xùn)練數(shù)據(jù)集的微博文本詞項(xiàng)集進(jìn)行停詞處理,獲取訓(xùn)練數(shù)據(jù)集的微博文本原始特征詞項(xiàng)集。
[0057]停詞處理包括去除微博文本詞項(xiàng)集中沒(méi)有實(shí)義的字或詞,如“的”、“了”、“不但”、“而且”等,此外還包括一些生僻字和特殊符號(hào)。
[0058]步驟S7、對(duì)訓(xùn)練數(shù)據(jù)集的微博文本原始特征詞項(xiàng)集進(jìn)行特征選擇,得到特征詞項(xiàng)字典。
[0059]特征選擇的方法包括DF (Document Frequency,文檔頻率)、IG (Informat1nGain,信息增益)、MI (Mutual Informat1n,互信息)和CHI (開(kāi)方擬合檢驗(yàn))等,在本實(shí)施例中,采用算法簡(jiǎn)單且質(zhì)量高的DF方法進(jìn)行特征選擇,主要做法是根據(jù)微博文本原始特征詞項(xiàng)集中每個(gè)微博文本原始特征詞項(xiàng)在訓(xùn)練數(shù)據(jù)的各類(lèi)別中出現(xiàn)的頻率對(duì)微博文本原始特征詞項(xiàng)進(jìn)行排序,保留出現(xiàn)頻率高的前N個(gè)微博文本原始特征詞項(xiàng)作為特征詞項(xiàng)字典,該特征詞項(xiàng)字典按照微博文本原始特征詞項(xiàng)的出現(xiàn)頻率由高到低排列,本實(shí)施例中N設(shè)定為 1000
[0060]步驟S8、根據(jù)特征詞項(xiàng)字典生成訓(xùn)練數(shù)據(jù)集中每條訓(xùn)練數(shù)據(jù)的特征向量,得到訓(xùn)練數(shù)據(jù)集的特征向量集。
[0061]目前,生成特征向量比較常用的方法是基于TF-1DF(Term Frequency -1nverseDocument Frequency,詞頻-逆向文件頻率)和基于 TF-RF(Term Frequency - RelatedFrequency,詞頻-相關(guān)頻率)的傳統(tǒng)特征權(quán)重算法,在本實(shí)施例中,采用的是TF-1DF算法,主要做法是先將微博文本原始特征詞項(xiàng)集中的每個(gè)微博文本原始特征詞項(xiàng)與特征詞項(xiàng)字典進(jìn)行比較,若該微博文本原始特征詞項(xiàng)在特征詞項(xiàng)字典中,則采用TF-1DF算法計(jì)算該微博文本原始特征詞項(xiàng)在對(duì)應(yīng)訓(xùn)練數(shù)據(jù)中的特征值;若該微博文本原始特征詞項(xiàng)不在特征詞項(xiàng)字典中,則忽略該微博文本原始特征詞項(xiàng);若某特征詞項(xiàng)字典中的微博文本原始特征詞項(xiàng)沒(méi)有出現(xiàn)在微博文本原始特征詞項(xiàng)集中,則該微博文本原始特征詞項(xiàng)的特征值為O。在本實(shí)施例中,每條微博的微博文本數(shù)據(jù)被轉(zhuǎn)換成一個(gè)維度為1000的特征向量。
[0062]步驟S9、使用Libsvm構(gòu)建分類(lèi)器,輸入訓(xùn)練數(shù)據(jù)集的特征向量集,通過(guò)對(duì)特征向量集的訓(xùn)練,得到SVM分類(lèi)器。
[0063]步驟S10、由訓(xùn)練數(shù)據(jù)集獲取預(yù)置關(guān)鍵詞庫(kù)。
[0064]包括以下幾步:
[0065]a、按照訓(xùn)練數(shù)據(jù)的類(lèi)別提取訓(xùn)練數(shù)據(jù)集中的每?jī)蓚€(gè)符號(hào)之間的文本內(nèi)容,并對(duì)文本內(nèi)容進(jìn)行分詞處理,然后分別統(tǒng)計(jì)分詞處理所得微博文本原始特征詞項(xiàng)的詞頻,并將微博文本原始特征詞項(xiàng)按詞頻降序排列;
[0066]b、從每個(gè)訓(xùn)練數(shù)據(jù)的類(lèi)別中詞頻最高的微博文本原始特征詞項(xiàng)開(kāi)始,依次檢查微博文本原始特征詞項(xiàng)是否在其它類(lèi)別中出現(xiàn)過(guò),若該微博文本原始特征詞項(xiàng)在其它類(lèi)別中出現(xiàn)的次數(shù)占訓(xùn)練數(shù)據(jù)集的比例小于等于1%,則將該微博文本原始特征詞項(xiàng)選取為該類(lèi)別的預(yù)置關(guān)鍵詞,統(tǒng)計(jì)完后,得到預(yù)置關(guān)鍵詞庫(kù)。
[0067]步驟S11、獲取微博數(shù)據(jù)集中的剩余微博數(shù)據(jù)作為測(cè)試數(shù)據(jù)集。
[0068]步驟S12、對(duì)測(cè)試數(shù)據(jù)集進(jìn)行預(yù)處理,刪除無(wú)意義微博。
[0069]步驟S13、使用預(yù)置關(guān)鍵詞庫(kù)對(duì)測(cè)試數(shù)據(jù)集中的測(cè)試數(shù)據(jù)進(jìn)行預(yù)分類(lèi),得到預(yù)分類(lèi)結(jié)果。
[0070]包括以下幾步:
[0071 ] a、提取測(cè)試數(shù)據(jù)集中的測(cè)試數(shù)據(jù)中每?jī)蓚€(gè)“#”符號(hào)之間的文本內(nèi)容,并對(duì)文本內(nèi)容進(jìn)行分詞處理,將分詞處理所得微博文本原始特征詞項(xiàng)與預(yù)置關(guān)鍵詞庫(kù)相比較,判斷各微博文本原始特征詞項(xiàng)所屬類(lèi)別,統(tǒng)計(jì)各微博文本原始特征詞項(xiàng)在各類(lèi)別中出現(xiàn)的頻度;
[0072]b、若屬于某個(gè)類(lèi)別的微博文本原始特征詞項(xiàng)頻度最大,則認(rèn)為該微博文本原始特征詞項(xiàng)所屬的測(cè)試數(shù)據(jù)屬于該類(lèi)別,其它情況則通過(guò)SVM分類(lèi)器對(duì)測(cè)試數(shù)據(jù)進(jìn)行分類(lèi)。
[0073]步驟S14、對(duì)預(yù)分類(lèi)失敗的測(cè)試數(shù)據(jù)進(jìn)行初始化操作,刪除測(cè)試數(shù)據(jù)中的話題標(biāo)簽。
[0074]步驟S15、使用分詞工具對(duì)經(jīng)過(guò)初始化操作的預(yù)分類(lèi)失敗的測(cè)試數(shù)據(jù)進(jìn)行分詞處理,得到預(yù)分類(lèi)失敗的測(cè)試數(shù)據(jù)的微博文本詞項(xiàng)集。
[0075]步驟S16、使用停用詞典,對(duì)預(yù)分類(lèi)失敗的測(cè)試數(shù)據(jù)的微博文本詞項(xiàng)集進(jìn)行停詞處理,得到預(yù)分類(lèi)失敗的測(cè)試數(shù)據(jù)的微博文本原始特征詞項(xiàng)集。
[0076]停詞處理包括去除預(yù)分類(lèi)失敗的測(cè)試數(shù)據(jù)的微博文本詞項(xiàng)集中沒(méi)有實(shí)義的字或詞,如“的”、“ 了 ”、“不但”、“而且”等,此外還有一些生僻字和特殊符號(hào)。
[0077]步驟S17、根據(jù)特征詞項(xiàng)字典生成預(yù)分類(lèi)失敗的測(cè)試數(shù)據(jù)的特征向量,并得到其特征向量集。
[0078]在本實(shí)