確定垃圾文件大小的方法和裝置及電子設備的制造方法
【技術領域】
[0001]本發明涉及垃圾文件清理技術領域,尤其涉及一種確定垃圾文件大小的方法和裝置及電子設備。
【背景技術】
[0002]當前用戶手機存儲中,由于應用的開發規范不當,導致大量存儲空間被無用數據占用,致使手機存儲空間不足,存儲數據雜亂不堪,因此清理更多的無用數據,釋放更多存儲空間,成為用戶的強烈需求。而各國清理需求并不一致,需結合各國因素預估該國首次可清理的垃圾文件大小,進而可以根據該大小制定相應的運營策略。
【發明內容】
[0003]本發明旨在至少在一定程度上解決相關技術中的技術問題之一。
[0004]為此,本發明的一個目的在于提出一種確定垃圾文件大小的方法,該方法可以預估出每個目標區域的首次可清理的垃圾文件大小。
[0005]本發明的另一個目的在于提出一種確定垃圾文件大小的裝置。
[0006]本發明的另一個目的在于提出一種電子設備。
[0007]為達到上述目的,本發明第一方面實施例提出的確定垃圾文件大小的方法,包括:獲取已有的所有目標區域中每個目標區域的用于進行垃圾文件清理的特征點數據;根據所述特征點數據,將所述所有目標區域分成訓練集和測試集;根據所述訓練集中每個目標區域的特征點數據,確定所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0008]可選的,所述根據所述特征點數據,將所述所有目標區域分成訓練集和測試集,包括:根據所述特征點數據,確定所述所有目標區域中每個目標區域的清理效果;按照所述清理效果從好到差的順序,選擇預設個數的目標區域組成訓練集;將所述所有目標區域中除組成所述訓練集的目標區域之外的其他目標區域,組成測試集。
[0009]可選的,所述根據所述訓練集中每個目標區域的特征點數據,確定所述測試集中每個目標區域的首次可清理的垃圾文件大小,包括:根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系;根據所述函數關系,以及所述測試集中每個目標區域的特征點數據,得到所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0010]可選的,所述根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系,包括:采用分類回歸樹算法,根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系。
[0011]可選的,所述確定所述測試集中每個目標區域的首次可清理的垃圾文件大小之后,所述方法還包括:根據確定出的每個目標區域的首次可清理的垃圾文件大小,計算預設的衡量參數;判斷所述衡量參數是否滿足預設的最優條件;如果滿足,保存所述確定出的每個目標區域的首次可清理的垃圾文件大小。
[0012]可選的,所述判斷所述衡量參數是否滿足預設的最優條件之后,所述方法還包括:如果不滿足,重新組成新的訓練集和測試集,并重新確定新的測試集中每個目標區域的首次可清理的垃圾文件大小。
[0013]可選的,所述確定所述測試集中每個目標區域的首次可清理的垃圾文件大小之后,所述方法還包括:按照首次可清理的垃圾文件大小的從大到小的順序,對相應目標區域進行垃圾文件清理的處理。
[0014]可選的,所述獲取已有的所有目標區域中每個目標區域的特征點數據,包括:獲取已有的所有目標區域中每個目標區域的初始數據;根據預設規則,對所述初始數據進行過濾,得到所述特征點數據。
[0015]可選的,所述根據預設規則,對所述初始數據進行過濾,包括:去除所述初始數據中的無效數據。
[0016]可選的,所述特征點數據包括如下項中的至少一項:已有的首次可清理的垃圾文件大小;首次垃圾清理的用戶數;非首次可清理的垃圾文件大小;非首次垃圾清理的用戶數;安裝比例較高的預設個數的安裝包中已運營的安裝包的占比率;要完成預設比例的覆蓋率,剩余待運營的安裝包個數;平均安裝包個數;不同機型的占比率;檢出的首次可清理的垃圾文件大小在預設范圍內的用戶數的占比率。
[0017]本發明第一方面實施例提出的確定垃圾文件大小的方法,通過得到訓練集和測試集,并根據訓練集中每個目標區域的特征點數據得到測試集中每個目標區域的首次可清理的垃圾文件大小,可以預估出每個目標區域的首次可清理的垃圾文件大小。
[0018]為達到上述目的,本發明第二方面實施例提出的確定垃圾文件大小的裝置,包括:獲取模塊,用于獲取已有的所有目標區域中每個目標區域的用于進行垃圾文件清理的特征點數據;劃分模塊,用于根據所述特征點數據,將所述所有目標區域分成訓練集和測試集;確定模塊,用于根據所述訓練集中每個目標區域的特征點數據,確定所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0019]可選的,所述劃分模塊具體用于:根據所述特征點數據,確定所述所有目標區域中每個目標區域的清理效果;按照所述清理效果從好到差的順序,選擇預設個數的目標區域組成訓練集;將所述所有目標區域中除組成所述訓練集的目標區域之外的其他目標區域,組成測試集。
[0020]可選的,所述確定模塊包括:第一單元,用于根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系;第二單元,用于根據所述函數關系,以及所述測試集中每個目標區域的特征點數據,得到所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0021]可選的,所述第一單元具體用于:采用分類回歸樹算法,根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系。
[0022]可選的,還包括:計算模塊,用于根據確定出的每個目標區域的首次可清理的垃圾文件大小,計算預設的衡量參數;判斷模塊,用于判斷所述衡量參數是否滿足預設的最優條件;保存模塊,用于如果滿足,保存所述確定出的每個目標區域的首次可清理的垃圾文件大小。
[0023]可選的,還包括:調整模塊,用于如果不滿足,重新組成新的訓練集和測試集,并重新確定新的測試集中每個目標區域的首次可清理的垃圾文件大小。
[0024]可選的,還包括:處理模塊,用于按照首次可清理的垃圾文件大小的從大到小的順序,對相應目標區域進行垃圾文件清理的處理。
[0025]可選的,所述獲取模塊具體用于:獲取已有的所有目標區域中每個目標區域的初始數據;根據預設規則,對所述初始數據進行過濾,得到所述特征點數據。
[0026]可選的,所述獲取模塊具體用于根據預設規則,對所述初始數據進行過濾,得到所述特征點數據,包括:去除所述初始數據中的無效數據。
[0027]本發明第二方面實施例提出的確定垃圾文件大小的裝置,通過得到訓練集和測試集,并根據訓練集中每個目標區域的特征點數據得到測試集中每個目標區域的首次可清理的垃圾文件大小,可以預估出每個目標區域的首次可清理的垃圾文件大小。
[0028]為達到上述目的,本發明第三方面實施例提出的電子設備,包括:殼體、處理器、存儲器、電路板和電源電路,其中,電路板安置在殼體圍成的空間內部,處理器和存儲器設置在電路板上;電源電路,用于為電子設備的各個電路或器件供電;存儲器用于存儲可執行程序代碼;處理器通過讀取存儲器中存儲的可執行程序代碼來運行與可執行程序代碼對應的程序,以用于執行以下步驟:獲取已有的所有目標區域中每個目標區域的用于進行垃圾文件清理的特征點數據;根據所述特征點數據,將所述所有目標區域分成訓練集和測試集;根據所述訓練集中每個目標區域的特征點數據,確定所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0029]可選的,所述根據所述特征點數據,將所述所有目標區域分成訓練集和測試集,包括:根據所述特征點數據,確定所述所有目標區域中每個目標區域的清理效果;按照所述清理效果從好到差的順序,選擇預設個數的目標區域組成訓練集;將所述所有目標區域中除組成所述訓練集的目標區域之外的其他目標區域,組成測試集。
[0030]可選的,所述根據所述訓練集中每個目標區域的特征點數據,確定所述測試集中每個目標區域的首次可清理的垃圾文件大小,包括:根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系;根據所述函數關系,以及所述測試集中每個目標區域的特征點數據,得到所述測試集中每個目標區域的首次可清理的垃圾文件大小。
[0031]可選的,所述根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系,包括:采用分類回歸樹算法,根據所述訓練集中每個目標區域的特征點數據進行訓練,得到對應每個目標區域的首次可清理的垃圾文件大小與所述特征點數據之間的函數關系。
[0032]可選的,所述確定所述測試集中每個目標區域的首次可清理的垃圾文件大小之后,所述方法還包括:根據確定出的每個目標區域的首次可清理的垃圾文件大小,計算預設的衡量參數;判斷所述衡量參數是否滿足預設的最優條件;如果滿足,保存所述確定出的每個目標區域的首次可清理的垃圾文件大小。
[0033]可選的,所述判斷所述衡量參數是否滿足預設的最優條件之后,所述方法還