互聯網數據分析系統的制作方法
【專利摘要】本申請公開了一種互聯網數據分析系統,包括:數據預處理模塊,從互聯網的網頁信息中提取其主要內容,過濾而得到每個網頁對應的文本;對獲取的文本首先由分詞器得到多個分詞,再經過特征值降維僅保留突出該文本特征的分詞。數據分析模塊,根據分析要求,從分類算法、聚類算法、關聯規則算法、特殊規則算法這四類算法中選擇相應的一類對多類算法,每類算法中采用一種或多種算法,對所述數據預處理模塊輸出的每個網頁所對應的經過降維后的分詞進行處理,并存儲分析結果。本申請避免了使用單一數據挖掘算法造成數據分析結果不準確的缺陷,或在使用一種算法的基礎上再使用其它算法時需要進行系統的二次開發的時間成本,提高了數據分析的效率和準確率。
【專利說明】互聯網數據分析系統
【技術領域】
[0001] 本申請涉及一種數據挖掘(data mining)技術,特別是涉及一種對互聯網數據進 行分析的方法。
【背景技術】
[0002] 數據挖掘是指從大量的數據中揭示出隱含的、先前未知的并有潛在價值的信息的 過程。它主要基于人工智能、機器學習、模式識別、統計學、數據庫、數據檢索等技術來實現 上述目標。
[0003] 現有的數據挖掘過程使用一種或者固定的幾種數據分析算法構建出數據分析系 統,由于每種算法都具有各自的優勢和劣勢,往往造成數據分析結果之間產生偏差,導致基 于數據分析的上層業務應用難以進行決策。
【發明內容】
[0004] 本申請所要解決的技術問題是提供一種互聯網數據分析系統,可根據不同行業需 求對互聯網數據按照一種或多種算法同時進行挖掘分析,實現各種算法的優勢互補。
[0005] 為解決上述技術問題,本申請互聯網數據分析系統包括:
[0006] 數據預處理模塊,從互聯網的網頁信息中提取其主要內容,過濾而得到每個網頁 對應的文本;對獲取的文本首先由分詞器得到多個分詞,再經過特征值降維僅保留突出該 文本特征的分詞;
[0007] 數據分析模塊,根據分析要求,從分類算法、聚類算法、關聯規則算法、特殊規則算 法這四類算法中選擇相應的一類對多類算法,每類算法中采用一種或多種算法,對所述數 據預處理模塊輸出的每個網頁所對應的經過降維后的分詞各自獨立地進行處理,并存儲分 析結果。
[0008] 本申請互聯網數據分析系統中包含了四類數據分析算法,每一類算法中又可采用 一種或多種算法并可任意替換。這便避免了使用單一數據挖掘算法造成數據分析結果不準 確的缺陷,或在使用一種算法的基礎上再使用其它算法時需要進行系統的二次開發的時間 成本,提高了數據分析的效率和準確率。
【專利附圖】
【附圖說明】
[0009] 圖1是本申請互聯網數據分析系統的結構示意圖;
[0010] 圖2是本申請互聯網數據分析系統用于對互聯網網站進行分類的一個實施例的 實施方法流程圖。
[0011] 圖中附圖標記說明:
[0012] 10為數據預處理模塊;20為數據分析模塊。
【具體實施方式】
[0013] 請參閱圖1,本申請互聯網數據分析系統包括數據預處理模塊10和數據分析模塊 20 〇
[0014] 所述數據預處理模塊10從互聯網的網頁信息中提取其主要內容,過濾掉標簽等 無用信息,從而獲取每個網頁對應的文本。對獲取的文本首先由分詞器進行有效切分而得 到多個分詞,再經過特征值降維從中過濾掉不太重要的分詞,僅保留可以明顯突出該文本 特征的分詞。
[0015] 所述數據分析模塊20根據分析要求,從分類算法、聚類算法、關聯規則算法、特殊 規則算法這四類算法中選擇相應的一類或多類算法,每類算法中采用一種或多種算法,對 所述數據預處理模塊10輸出的每個網頁所對應的經過降維后的分詞數據進行處理,并存 儲分析結果。
[0016] 所述分類(classi fica tion)算法主要是通過對已知類別的文本進行訓練,得 出訓練模型,從而根據模型對待處理的數據進行分類。分類算法適用于在已經規定了類別 的前提下,對數據進行分類。常見的分類算法有svm算法、貝葉斯(bayes)算法、隨機森立 (ramdom forest)算法等。
[0017] 所述聚類(clustering)算法又稱為無監督學習算法,主要通過tf-idf (term frequency - inverse document frequency、詞步頁-反文檔步頁率)、idf (inverse document frequency、反文檔頻率)等算法將文本中的分詞轉換為向量,通過比較文本中對應向量的 距離與設定閾值的大小,從而對這些文本進行分類。聚類算法適用于在類別未知的前提下, 對數據進行分類。常見的聚類算法有k-means算法等。
[0018] 所述關聯規則(Association Rules)算法主要是從大量數據中獲取數據之間的關 聯關系。關聯規則算法適用于從海量數據中尋求各數據之間的關聯性。例如,美國沃爾瑪 超市發現嬰兒尿布與啤酒被同時采購的概率很高,經分析發現年輕爸爸在為孩子采購尿布 的同時往往為自己采購啤酒。
[0019] 所述特殊規則匹配(rules matching)算法主要是通過大量經驗的積累,總結出在 出現某種規則的前提下,該文本一定屬于某個類別的一種特殊的算法。特殊規則匹配算法 可與上述三類算法相結合使用。
[0020] 以上四類算法均有多種已存在的實現方式,在此不做贅述。
[0021] 請參閱圖2,下面就以一個具體實施例對本申請所述的互聯網數據分析系統進行 詳細說明,該實施例是用來分析互聯網網站的性質,至少區分為經營性網站和非經營性網 站兩大類,這兩者的區別主要在于是否以營利為目的。
[0022] 第1步,對采集下來的大量互聯網的網頁數據中進行文本預處理,即過濾掉無用 信息,獲取網頁主要內容,并將獲取到的內容保存為文本。然后,選用分詞器對文本進行分 詞,得到包含文本和此時分詞的中間文本集。如果是針對中文分詞,所述分詞器例如采用 ansj分詞器、_seg4j分詞器、lucene分詞器中的一種或多種。最后,選用特征值降維算法 從中間文本集中過濾掉無用的分詞,僅保留權重較高、可以比較明顯表示出該文本類別特 征的分詞,得到包含文本和此時分詞的最終文本集。所述特征值降維例如采用tf-idf算 法、權重計算等方法。
[0023] 第2步,由于類別已定為至少兩種,因而適于采用分類算法和/或特殊規則匹配算 法。對于分類算法而言構建模型,對于特殊規則匹配算法而言歸納規則。
[0024] 所述分類算法構建模型所用的數據稱為訓練數據,是所屬類別已知的多個互聯網 網站經過第1步處理后的最終文本集。例如構建經營性網站模型的時候,選擇公司類、網上 大賣場類、收費的俱樂部類的網站的最終文本集作為訓練數據。構建非經營性網站模型的 時候,選擇政府部門網站、學校類、社會公益類的網站的最終文本集作為訓練數據。
[0025] 可根據多種分類算法構建各自的模型。當采用svm算法時,可首先構建公司類網 站和非公司類網站模型,然后用非公司類網站再構建學校類網站和非學校類網站的模型, 以此類推,最終得到多個類別模型。這是由于svm算法雖然分類準確率較高,但具有一定的 局限性,每次只能分成兩個類別。當采用bayes算法時,其一次可構建多個類別的模型,可 分別選取公司類網站、政府類網站、網上大賣場類網站等具有代表性的網站的最終文本集, 對這些最終文本集用bayes算法同時構建多個類別模型。
[0026] 所述特殊規則匹配算法歸納的規則例如是:政府類網站一定為非經營性網站,從 而可以得出url中含有gov. "的網頁一定是非經營性網站,為此建立一條規則。
[0027] 第3步,以所選擇分類算法和特殊規則匹配算法,并以分類算法中的一種或多種, 例如svm算法、bayes算法、隨機森林(random forest)算法等,對待分類文本的最終文本集 各自獨立地進行分類,并將分類的結果存入結果庫。
[0028] 第4步,如果一個互聯網網站的最終文本集用多種算法分類的結果都屬于公司類 網站,則可以確定該最終文本集對應的網站一定為經營性網站。如果一個互聯網網站的最 終文本集用多種算法的分類結果不一樣,則有兩種處理方式:一種是區分各類算法的權重 并由此判斷分類結果的權重,采納權重較大的分類結果;另一種最終由人工判定。
[0029] 例如,可將特殊規則匹配算法設為具有最高優先級,一旦符合某條規則后就采用 特殊規則匹配算法的結論。在不符合任何規則的前提下,為svm算法、bayes算法、隨機森林 算法賦予不同的權重Wl、W2、W3。若一個互聯網網站的最終文本集用svm算法被分為A類 另IJ,用bayes算法和隨機森林算法均被分為B類別。若WDW2+W3,則該互聯網網站被分為 A類別;若W1〈W2+W3,則該互聯網網站被分為B類別;若W1=W2+W3,則交由人工判定。
[0030] 以上僅為本申請的優選實施例,并不用于限定本申請。對于本領域的技術人員來 說,本申請可以有各種更改和變化。凡在本申請的精神和原則之內,所作的任何修改、等同 替換、改進等,均應包含在本申請的保護范圍之內。
【權利要求】
1. 一種互聯網數據分析系統,其特征是,包括: 數據預處理模塊,從互聯網的網頁信息中提取其主要內容,過濾而得到每個網頁對應 的文本;對獲取的文本首先由分詞器得到多個分詞,再經過特征值降維僅保留突出該文本 特征的分詞; 數據分析模塊,根據分析要求,從分類算法、聚類算法、關聯規則算法、特殊規則算法這 四類算法中選擇相應的一類對多類算法,每類算法中采用一種或多種算法,對所述數據預 處理模塊輸出的每個網頁所對應的經過降維后的分詞各自獨立地進行處理,并存儲分析結 果。
2. 根據權利要求1所述的互聯網數據分析系統,其特征是,所述分詞器包括ansj分詞 器、_seg4j分詞器、lucene分詞器中的一種或多種。
3. 根據權利要求1所述的互聯網數據分析系統,其特征是,所述特征值降維采用 tf-idf算法、權重計算的一種或多種。
4. 根據權利要求1所述的互聯網數據分析系統,其特征是,所述分類算法包括svm算 法、貝葉斯算法、隨機森林算法。
5. 根據權利要求1所述的互聯網數據分析系統,其特征是,所述聚類算法包括k-means 算法。
6. 根據權利要求1所述的互聯網數據分析系統,其特征是,當所述數據分析模塊采用 多種算法處理時,當分析結果不一致,則根據各種算法的權重判斷分析結果的權重,并采納 權重較大的分析結果。
【文檔編號】G06F17/30GK104142960SQ201310172687
【公開日】2014年11月12日 申請日期:2013年5月10日 優先權日:2013年5月10日
【發明者】顧青, 倪慶洋, 謝超, 梁佐泉, 馮四風, 梁艷敏, 張士鵬, 田文晉, 賈偉峰, 田肖 申請人:上海普華誠信信息技術有限公司