本技術涉及數據處理領域,特別涉及一種可用判定規則挖掘方法、系統、設備及介質。
背景技術:
1、隨著網約車的普及,在出行方便的同時開始出現了一些司乘勾結以套取網約車平臺補貼的虛假訂單,給平臺帶來了較大的損失。
2、現有技術主要針對虛假訂單的判定,通常是通過人為開發的一系列特征與設定好的閾值進行比較以判定當前訂單是否是虛假訂單;但人工判定總是會具有局限性,且判定準確率低。
3、因此,亟需一種可用于判定虛假訂單的可用判定規則挖掘方法以解決上述技術問題。
技術實現思路
1、基于此,有必要針對上述技術問題,提供一種可用判定規則挖掘方法,以解決上述技術問題。
2、第一方面,本技術提供一種可用判定規則挖掘方法,所述方法包括:
3、根據預設規則在歷史樣本中選取第一目標樣本,并對所述第一目標樣本進行打標;
4、隨機選取判定樣本為第二目標樣本并對所述第二目標樣本進行打標;
5、為所述第一目標樣本和第二目標樣本分配樣本權重值,并根據所述樣本權重值生成權重評價函數;
6、根據所述第一目標樣本、第二目標樣本以及權重評價函數對第一決策樹進行訓練;
7、選取所述第一決策樹中符合預設條件的目標決策樹分支對應的判定規則為可用判定規則。
8、在一些實施例中,所述權重評價函數為:其中,d表示第一決策樹中一個葉節點上的樣本集,k表示樣本類別,包括第一目標樣本和第二目標樣本兩類樣本,c'k表示第k類別樣本的權重值求和。
9、在一些實施例中,所述根據預設規則在歷史樣本中選取第一目標樣本包括:
10、隨機選取歷史樣本中未被判定的歷史樣本作為待定樣本;
11、利用多個已訓練好的第二決策樹分別對所述待定樣本進行0、1預測;
12、計算每一所述待定樣本的預測為1的預測概率值;
13、根據所述預測概率值從高到低選取預設數量的待定樣本作為第一目標樣本。
14、在一些實施例中,所述為所述第一目標樣本和第二目標樣本分配樣本權重值,包括:
15、根據所述待定樣本被所述第二決策樹的預測總次數與被所述第二決策樹預測為1的次數的比值,確定所述待定樣本的預測概率值;
16、將所述待定樣本的預測概率值作為所述待定樣本對應的所述第一目標樣本的樣本權重值;
17、為所述第二目標樣本分配樣本權重值1。
18、在一些實施例中,所述根據所述第一目標樣本、第二目標樣本以及權重評價函數對第一決策樹進行訓練,包括:
19、對所述第一目標樣本和第二目標樣本開發樣本特征;
20、根據分裂策略對所有所述樣本特征中的可分裂點進行分裂直至滿足分裂停止條件,其中,所述分裂策略包括:
21、計算各分裂點的權重評價函數值;
22、選取各分裂點中權重評價函數值最小的分裂點進行分裂。
23、在一些實施例中,所述選取所述第一決策樹中符合預設條件的目標決策樹分支對應的判定規則為可用判定規則,包括:
24、選取所述第一決策樹中預測準確率大于第一預設閾值且打標為1的目標決策樹分支;
25、修剪所述第一決策樹中除所述目標決策樹分支外的決策樹分支以生成目標決策樹;
26、利用所述目標決策樹對新的預設時間段內的數據樣本進行預測;
27、比較所述目標決策樹的預測準確率是否大于等于第一預設閾值;
28、若所述目標決策樹的預測準確率大于等于第一預設閾值,則確定所述目標決策樹分支對應的判定規則為可用判定規則。
29、在一些實施例中,所述方法還包括第二決策樹的訓練過程:
30、隨機選取判定樣本并作為訓練樣本及驗證樣本,并對所述訓練樣本進行打標;
31、對所述訓練樣本開發多組樣本特征,利用多組所述樣本特征分別訓練多個所述第二決策樹;
32、根據所述驗證樣本驗證所述第二決策樹的預測準確率;
33、若所述預測準確率大于等于第二預設閾值,則所述第二決策樹訓練成功。
34、第二方面,本技術提供一種可用判定規則挖掘系統,所述系統包括:
35、樣本處理模塊,用于根據預設規則在歷史樣本中選取第一目標樣本,并對所述第一目標樣本進行打標;
36、所述樣本處理模塊,還用于隨機選取判定樣本為第二目標樣本并對所述第二目標樣本進行打標;
37、數據處理模塊,用于為所述第一目標樣本和第二目標樣本分配樣本權重值,并根據所述樣本權重值生成權重評價函數;
38、所述數據處理模塊,還用于根據所述第一目標樣本、第二目標樣本以及權重評價函數對第一決策樹進行訓練;
39、規則挖掘模塊,用于選取所述第一決策樹中符合預設條件的目標決策樹分支對應的判定規則為可用判定規則。
40、第三方面,本技術提供了一種電子設備,所述電子設備包括:
41、一個或多個處理器;
42、以及與所述一個或多個處理器關聯的存儲器,所述存儲器用于存儲程序指令,所述程序指令在被所述一個或多個處理器讀取執行時,執行如下操作:
43、根據預設規則在歷史樣本中選取第一目標樣本,并對所述第一目標樣本進行打標;
44、隨機選取判定樣本為第二目標樣本并對所述第二目標樣本進行打標;
45、為所述第一目標樣本和第二目標樣本分配樣本權重值,并根據所述樣本權重值生成權重評價函數;
46、根據所述第一目標樣本、第二目標樣本以及權重評價函數對第一決策樹進行訓練;
47、選取所述第一決策樹中符合預設條件的目標決策樹分支對應的判定規則為可用判定規則。
48、第四方面,本技術還提供了一種計算機可讀存儲介質,所述存儲介質上存儲計算機程序,所述計算機程序使得計算機執行如下操作:
49、根據預設規則在歷史樣本中選取第一目標樣本,并對所述第一目標樣本進行打標;
50、隨機選取判定樣本為第二目標樣本并對所述第二目標樣本進行打標;
51、為所述第一目標樣本和第二目標樣本分配樣本權重值,并根據所述樣本權重值生成權重評價函數;
52、根據所述第一目標樣本、第二目標樣本以及權重評價函數對第一決策樹進行訓練;
53、選取所述第一決策樹中符合預設條件的目標決策樹分支對應的判定規則為可用判定規則。
54、本技術實現的有益效果為:
55、本技術提供了一種可用判定規則挖掘方法,包括根據預設規則在歷史樣本中選取第一目標樣本,并對所述第一目標樣本進行打標;隨機選取判定樣本為第二目標樣本并對所述第二目標樣本進行打標;為所述第一目標樣本和第二目標樣本分配樣本權重值,并根據所述樣本權重值生成權重評價函數;根據所述第一目標樣本、第二目標樣本以及權重評價函數對第一決策樹進行訓練;選取所述第一決策樹中符合預設條件的目標決策樹分支對應的判定規則為可用判定規則。實現了對不同特征之間關聯規則的挖掘,進一步挖掘出人為判定遺漏的可用判定規則,突破了人工設定判定規則的局限性;進一步通過機器學習生成的可自動判定的決策樹,大大提高了判定虛假訂單的判定效率以及準確性。