隨機森林分類模型的可視化優化處理方法及裝置的制造方法
【技術領域】
[0001] 本發明涉及數據挖掘技術領域,特別是涉及一種隨機森林分類模型的可視化優化 處理方法及裝置。
【背景技術】
[0002] 分類問題是統計學、數據分析、機器學習和數據挖掘研究領域常遇到的最基本任 務之一。該任務的主要目標是利用訓練數據構建一個具有較強泛化能力的預測模型(即學 習機),集成學習在該方面具有顯著優勢。集成學習的基本思路是使用多個學習機來解決同 一問題。兩個前提條件決定集成學習之可行性:一是單個基學習機是有效的,也就是說單個 基學習機的精度應該大于隨機猜對的概率;二是各基學習機之間的差異性。
[0003] 隨機森林是一種有監督的集成學習分類技術,其分類模型由一組決策樹分類器組 成,模型對數據的分類是通過單個決策樹的分類結果進行集體投票來決定最終結果。它結 合了LeoBreiman的Bagging集成學習理論與Ho提出的隨機子空間方法,通過對訓練樣本 空間和屬性空間注入隨機性,充分保證了每個決策樹之間的獨立性和差異性,很好地克服 了決策樹過擬合問題,同時對噪聲和異常值也有較好的魯棒性。
[0004] 本申請的發明人在長期的研發中發現,隨機森林預測效果顯著優于單個決策樹, 但存在一些缺點:與單個決策樹相比,預測速度明顯下降,并且隨著決策樹數目的增多,所 需的存儲空間也急劇增多。
【發明內容】
[0005] 本發明主要解決的技術問題是提供一種隨機森林分類模型的可視化優化處理方 法及裝置,能夠減少隨機森林分類模型中決策樹的數目,降低隨機森林分類模型所需的內 存空間,同時還能提高預測速度和精度。
[0006] 第一方面,本發明提供一種隨機森林分類模型的可視化優化處理方法,包括:對于 已構建的隨機森林分類模型,通過袋外數據估計所述隨機森林分類模型各個決策樹之間的 相關度;利用所述隨機森林分類模型各個決策樹之間的相關度,構建相關性矩陣;根據所 述相關性矩陣,通過降維技術獲取三維以下空間的所述隨機森林分類模型的可視化圖形; 根據所述隨機森林分類模型的可視化圖形,對所述隨機森林分類模型進行優化處理,以使 得所述處理后的隨機森林分類模型第二泛化誤差上界不超過處理前的隨機森林分類模型 的第一泛化誤差上界。
[0007] 在第一方面的第一種可能的實現方式中,所述根據所述相關性矩陣,通過降維技 術獲取三維以下空間的所述隨機森林分類模型的可視化圖形的步驟,包括:根據所述相關 性矩陣,通過多維尺度分析MDS降維技術獲取三維以下空間的所述隨機森林分類模型的可 視化圖形。
[0008] 結合第一方面的第一種可能的實現方式,在第一方面的第二種可能的實現方式 中,所述可視化圖形是散點圖,所述散點圖的每個點代表一個決策樹,所述散點圖每兩個點 之間的距離代表所述隨機森林分類模型對應的決策樹之間的相關度。
[0009] 結合第一方面的第二種可能的實現方式,在第一方面的第三種可能的實現方式 中,所述散點圖的點用不同顏色表示,以表達所述散點圖的點所對應的決策樹的分類強度 信息。
[0010] 結合第一方面的第二種可能的實現方式,在第一方面的第四種可能的實現方式 中,所述散點圖是密度分布的熱力圖。
[0011] 在第一方面的第五種可能的實現方式中,所述根據所述隨機森林分類模型的可視 化圖形,對所述隨機森林分類模型進行優化處理的步驟包括:根據所述隨機森林分類模型 的可視化圖形,選擇一個決策樹;將距離所述選擇的決策樹最近的K個決策樹刪除,獲得處 理后所述隨機森林分類模型對應的第二泛化誤差上界;將所述處理后所述隨機森林分類 模型對應的第二泛化誤差上界與處理前的隨機森林分類模型的第一泛化誤差上界進行比 較;若處理后所述隨機森林分類模型對應的第二泛化誤差上界減小,則返回所述根據所述 隨機森林分類模型的可視化圖形,選擇一個決策樹的步驟進行循環,直到處理后所述隨機 森林分類模型對應的第二泛化誤差上界不再減小。
[0012] 結合第一方面的第五種可能的實現方式,在第一方面的第六種可能的實現方式 中,所述與處理前的隨機森林分類模型的第一泛化誤差上界進行比較的步驟之后,包括:若 處理后所述隨機森林分類模型對應的第二泛化誤差上界增大,則撤銷所述與處理前的隨機 森林分類模型的第一泛化誤差上界進行比較的步驟之前的步驟;采用決策樹規則匹配算法 將所述隨機森林分類模型中結構相似的決策樹刪除。
[0013] 在第一方面的第七種可能的實現方式中,所述相關性矩陣的第i行第j列的元素 是所述隨機森林分類模型第i個決策樹和第j個決策樹之間的相關度,其中,所述i和j是 不為零的自然數。
[0014] 第二方面,本發明提供一種隨機森林分類模型的可視化優化處理裝置,所述裝置 包括:估計模塊、構建模塊、獲取模塊以及優化模塊;所述估計模塊用于對于已構建的隨機 森林分類模型,通過袋外數據估計所述隨機森林分類模型各個決策樹之間的相關度;所述 構建模塊用于利用所述估計模塊估計的所述隨機森林分類模型各個決策樹之間的相關度, 構建相關性矩陣;所述獲取模塊用于根據所述構建模塊構建的所述相關性矩陣,通過降維 技術獲取三維以下空間的所述隨機森林分類模型的可視化圖形;所述優化模塊用于根據所 述獲取模塊獲取的所述隨機森林分類模型的可視化圖形,對所述隨機森林分類模型進行優 化處理,以使得所述處理后的隨機森林分類模型第二泛化誤差上界不超過處理前的隨機森 林分類模型的第一泛化誤差上界。
[0015] 在第二方面的第一種可能的實現方式中,所述獲取模塊具體用于根據所述相關性 矩陣,通過多維尺度分析MDS降維技術獲取三維以下空間的所述隨機森林分類模型的可視 化圖形。
[0016] 結合第二方面的第一種可能的實現方式,在第二方面的第二種可能的實現方式 中,所述可視化圖形是散點圖,所述散點圖的每個點代表一個決策樹,所述散點圖每兩個 點之間的距離代表所述隨機森林分類模型對應的決策樹之間的相關度。
[0017] 結合第二方面的第二種可能的實現方式,在第二方面的第三種可能的實現方式 中,所述散點圖的點用不同顏色表示,以表達所述散點圖的點所對應的決策樹的分類強度 信息。
[0018] 結合第二方面的第三種可能的實現方式,在第二方面的第四種可能的實現方式 中,所述散點圖是密度分布的熱力圖。
[0019] 在第二方面的第五種可能的實現方式中,所述優化模塊包括:選擇單元、獲得單 元、比較單元以及返回單元;所述選擇單元用于根據所述隨機森林分類模型的可視化圖形, 選擇一個決策樹;所述獲得單元用于將距離所述選擇單元選擇的決策樹最近的K個決策樹 刪除,獲得處理后所述隨機森林分類模型對應的第二泛化誤差上界;所述比較單元用于將 所述獲得單元獲得的所述處理后所述隨機森林分類模型對應的第二泛化誤差上界與處理 前的隨機森林分類模型的第一泛化誤差上界進行比較;所述返回單元用于在所述比較單元 的比較結果是處理后所述隨機森林分類模型對應的第二泛化誤差上界減小時,返回所述選 擇單元進行循環,直到處理后所述隨機森林分類模型對應的第二泛化誤差上界不再減小。
[0020] 結合第二方面的第五種可能的實現方式,在第二方面的第六種可能的實現方式 中,所述優化模塊還包括:撤銷單元和刪除單元;所述撤銷單元用于在所述比較單元的比 較結果是處理后所述隨機森林分類模型對應的第二泛化誤差上界增大時,撤銷所述比較單 元之前的所有操作;所述刪除單元用于在所述撤銷單元撤銷所述比較單元之前的所有操作 后,采用決策樹規則匹配算法將所述隨機森林分類模型中結構相似的決策樹刪除。
[0021] 在第二方面的第七種可能的實現方式中,所述相關性矩陣的第i行第j列的元素 是所述隨機森林分類模型第i個決策樹和第j個決策樹之間的相關度,其中,所述i和j是 不為零的自然數。
[0022] 本發明的有益效果是:區別于現有技術的情況,本發明由于獲得隨機森林分類模 型的可視化圖形,在根據隨機森林分類模型的可視化圖形,對隨機森林分類模型進行優化 處理時,不僅能夠提高隨機森林分類模型的學習性能,減少隨機森林分類模型中決策樹的 數目,同時由于可視化圖形的形象、直觀,在根據隨機森林分類模型的可視化圖形優化時, 可以直接看到優化的效果,因此所以能夠提高預測速度和精度,不需要大量的內存空間存 儲優化算法的結果,能夠降低隨機森林分類模型所需的內存空間。
【附圖說明】
[0023] 圖1是本發明隨機森林分類模型的可視化優化處理方法一實施方式的流程圖;
[0024] 圖2是本發明隨機森林分類模型的可視化優化處理方法中決策樹的訓練過程示 意圖;
[0025] 圖3是本發明隨機森林分類模型的可視化優化處理方法另一實施方式的流程圖;
[0026] 圖4是本發明隨機森林分類模型的可視化優化處理方法中密度分布熱力圖可視 化的示意圖;
[0027] 圖5是本發明隨機森林分類模型的