的用戶安裝了已運營的安裝包,且,一個用戶安裝的60 %的安裝包已運營。
[0159](7)平均安裝包個數,是指一個國家每個用戶安裝的安裝包的個數的平均值。
[0160](8)不同機型的占比關系,例如,將機型劃分為高中低三種,則確定出三種機型的比例關系。
[0161](9)檢出的首次可清理的垃圾文件大小在預設范圍內的用戶數的占比率。
[0162]本實施例中,該占比率包括:
[0163]檢出的首次可清理的垃圾文件大小在[200M,500M]這一范圍的用戶數的占比率;
[0164]檢出的首次可清理的垃圾文件大小在[500M,1G]這一范圍的用戶數的占比率。
[0165]如上所述,首掃size包括用戶的首掃size,不同用戶的首掃size可以不同,因此可以對一個目標區域的每個用戶的首掃size進行統計,例如,得到用戶的首掃size在[200M,500M]這一范圍的用戶的總數,之后再用該范圍的用戶總數除以該國家的用戶總數,得到檢出的首次可清理的垃圾文件大小在[200M,500M]這一范圍的用戶數的占比率。
[0166]劃分模塊72,用于根據所述特征點數據,將所述所有目標區域分成訓練集和測試集;
[0167]例如,在得到特征點數據后,可以將所有目標區域進行劃分,得到清理效果好的一組目標區域,以及,清理效果差的另一組目標區域,其中,清理效果好的一組目標區域組成訓練集,清理效果差的另一組目標區域組成測試集。
[0168]可選的,所述劃分模塊72具體用于:
[0169]根據所述特征點數據,確定所述所有目標區域中每個目標區域的清理效果;
[0170]按照所述清理效果從好到差的順序,選擇預設個數的目標區域組成訓練集;
[0171]將所述所有目標區域中除組成所述訓練集的目標區域之外的其他目標區域,組成測試集。
[0172]具體的清理效果可以根據特征點數據確定,例如,選擇安裝比例較高的500個安裝包中已運營的安裝包的占比率作為衡量指標,該指標的數值越大表明清理效果越好。
[0173]可以理解的是,選擇哪個特征點數據,或者哪些特征點數據的組合作為衡量清理效果的指標不限于上述示例,可以進行其他配置。
[0174]確定模塊73,用于根據所述訓練集中每個目標區域的特征點數據,確定所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0175]可選的,參見圖8,所述確定模塊73包括:
[0176]第一單元731,用于根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系;
[0177]可選的,所述第一單元731具體用于:
[0178]采用分類回歸樹算法,根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系。
[0179]訓練算法可以有多種,本實施例以分類回歸樹算法為例。分類回歸樹算法是weka軟件提供的算法。由于分類回歸樹算法是已有技術,在此不過多描述,簡要描述如下:
[0180]采用分類回歸樹算法最后會建立一顆樹,該樹包括多個節點,例如,參見圖4,包括根節點41,中間節點42和葉子節點43,葉子節點中保存國家的首掃size與特征點數據之間函數關系,假設首掃size分別用Y表示,特征點數據分別用X = xl, x2,…表示,則參見圖4,一個葉子節點中的函數關系用Y = fl(X)表示,另一個葉子節點中的函數關系用Y =f2 (X)表示,其余葉子節點類似。
[0181]根節點和中間節點分別表示相應的特征點數據,例如,根節點41表示已有的首掃size,一個中間節點421表示安裝比例較高的500個安裝包中已運營的安裝包的占比率(圖4中簡寫為top500占比),另一個中間節點422表示檢出的首次可清理的垃圾文件大小在[200M, 500M]這一范圍的用戶數的占比率(圖4中簡寫為[200M, 500M]占比)。
[0182]另外,在該分類回歸樹中走的路徑可以根據相應的閾值確定,例如,從根節點開始,假設閾值用a表示,則已有的首掃size小于或等于a時,進入中間節點421,否則,當已有的首掃size大于a時,進入中間節點422。
[0183]具體的分類回歸樹的根節點和中間節點表示的特征點數據,葉子節點中保存的函數關系,以及,各路徑的閾值,都可以對訓練集內每個國家的特征點數據進行訓練后得到。
[0184]第二單元732,用于根據所述函數關系,以及所述測試集中每個目標區域的特征點數據,得到所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0185]在得到如圖4所示的分類回歸樹后,就可以根據一個國家的特征點數據得到相應的國家首掃size。例如,從該國已有的首掃size開始,如果該國的已有的首掃size小于a,則進入中間節點421,之后比對該國中間節點421的值與該中間節點的閾值,例如,該國top500占比小于top500占比對應的閾值,則進入中間節點421的左側節點,假設該左側節點就是葉子節點,則可以從葉子節點中獲取相應的函數關系,例如,得到的函數關系是Y =f I (X),則可以根據該f I (X)得到該國的首掃size (Y) ο
[0186]另一實施例中,參見圖8,該裝置70還包括:
[0187]計算模塊74,用于根據確定出的每個目標區域的首次可清理的垃圾文件大小,計算預設的衡量參數;
[0188]衡量參數是可以配置的。
[0189]本實施例以確定出的各國首掃size的相關系數為例。
[0190]判斷模塊75,用于判斷所述衡量參數是否滿足預設的最優條件;
[0191 ] 根據衡量參數的不同,最優條件可以相應配置。
[0192]假設衡量參數時相關系數,則最優條件是相關系數最大。
[0193]可以理解的是,在評估最優時,還可以進一步進行人工評價。
[0194]保存模塊76,用于如果滿足,保存所述確定出的每個目標區域的首次可清理的垃圾文件大小。
[0195]例如,計算出的相關系數最大,貝Ij表明確定出的測試集中每個國家的首掃size是準確的,之后,可以對確定出的國家首掃size進行保存,以便后續為運營等處理提供基礎數據。
[0196]另一實施例中,參見圖8,該裝置70還包括:
[0197]調整模塊77,用于如果不滿足,重新組成新的訓練集和測試集,并重新確定新的測試集中每個目標區域的首次可清理的垃圾文件大小。
[0198]在重新選擇訓練集和測試集時,可以依據新的指標進行重新選擇,例如初始是根據top500占比選擇的,重新選擇時可以根據(70% , 60% )覆蓋率選擇等。
[0199]在重新選擇出訓練集和測試集后,可以參照上述流程重新確定出測試集中每個國家的首掃size。
[0200]另一實施例中,參見圖8,該裝置70還包括:
[0201]處理模塊78,用于按照首次可清理的垃圾文件大小的從大到小的順序,對相應目標區域進行垃圾文件清理的處理。
[0202]以目標區域是國家為例,該流程也可以具體是在國家首掃size被保存后執行的。
[0203]對相應國家進行垃圾文件清理的處理例如對該國家的安裝包進行垃圾清理的運營,例如,找到安裝包需要清理的部分。
[0204]該步驟可以對國家的首掃size較大的國家進行優先運營。
[0205]本實施例中,通過得到訓練集和測試集,并根據訓練集中每個目標區域的特征點數據得到測試集中每個目標區域的首掃size,可以預估目標區域的首掃size。
[0206]本發明實施例還提出一種電子設備,該電子設備可以具體是服務器。該電子設備包括:殼體、處理器、存儲器、電路板和電源電路,其中,電路板安置在殼體圍成的空間內部,處理器和存儲器設置在電路板上;電源電路,用于為電子設備的各個電路或器件供電;存儲器用于存儲可執行程序代碼;處理器通過讀取存儲器中存儲的可執行程序代碼來運行與可執行程序代碼對應的程序,以用于執行以下步驟:
[0207]獲取已有的所有目標區域中每個目標區域的用于進行垃圾文件清理的特征點數據;
[0208]根據所述特征點數據,將所述所有目標區域分成訓練集和測試集;
[0209]根據所述訓練集中每個目標區域的特征點數據,確定所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0210]可選的,所述根據所述特征點數據,將所述所有目標區域分成訓練集和測試集,包括:根據所述特征點數據,確定所述所有目標區域中每個目標區域的清理效果;按照所述清理效果從好到差的順序,選擇預設個數的目標區域組成訓練集;將所述所有目標區域中除組成所述訓練集的目標區域之外的其他目標區域,組成測試集。
[0211]可選的,所述根據所述訓練集中每個目標區域的特征點數據,確定所述測試集中每個目標區域的首次可清理的垃圾文件大小,包括:根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系;根據所述函數關系,以及所述測試集中每個目標區域的特征點數據,得到所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0212]可選的,所述根據所述訓練集中每