本發明涉及數據分析,具體涉及基于數據挖掘和機器學習的欺詐行為分析系統。
背景技術:
1、數據挖掘是從大量數據中自動提取出有用信息和知識的過程,它涉及多種技術,包括統計分析、數據庫管理和機器學習;機器學習是一種人工智能技術,它通過算法和統計模型使計算機系統在沒有明確編程指令的情況下能夠進行某些任務,機器學習特別適合處理復雜、多變的數據,通過從數據中學習并作出預測或決策。
2、傳統系統通常依賴人工制定的規則來識別欺詐行為,但這些規則可能無法覆蓋所有情況,難以應對新型的欺詐手段和變種,且傳統系統的規則和邏輯一般較為固定,難以根據實時數據和變化的欺詐模式做出調整和優化,并且在處理大量交易數據時,傳統系統可能無法有效地捕捉和分析復雜的特征之間的關聯關系,導致識別能力受限,而且人工規則的維護和更新需要大量的人力成本,而且系統可能會產生大量誤報,增加了處理的負擔。
技術實現思路
1、本發明目的是針對背景技術中存在的問題,提出基于數據挖掘和機器學習的欺詐行為分析系統。
2、本發明的技術方案:基于數據挖掘和機器學習的欺詐行為分析系統,包括特征平衡模塊、特征去噪模塊、模型訓練模塊、實時監控模塊和報警與響應模塊,還包括:
3、數據獲取模塊,所述數據獲取模塊用于獲取目標交易平臺的交易數據和行為數據,所述交易數據包括下單數據和售后數據,所述行為數據包括搜索數據、瀏覽數據和點擊數據,并將所述交易數據和所述行為數據傳輸至數據預處理模塊;
4、數據預處理模塊,所述數據預處理模塊對數據獲取模塊傳輸的所述交易數據和所述行為數據進行接收,并對所述交易數據和所述行為數據進行清洗、歸一化和降維,以得到標準交易數據和標準行為數據,并將所述標準交易數據和所述標準行為數據傳輸至特征工程模塊;
5、特征工程模塊,所述特征工程模塊對數據預處理模塊傳輸的所述標準交易數據和所述標準行為數據進行接收,并對所述標準交易數據和所述標準行為數據進行集劃分與標簽處理,以將所述標準交易數據和所述標準行為數據劃分為訓練集和測試集,并根據欺詐交易和正常交易,將標簽設置為1和0,將所述訓練集和所述測試集中的字符串特征的數據列進行one-hot編碼,通過特征縮放方法對所述訓練集和所述測試集特征縮放,以得到特征訓練集和特征測試集,并將所述特征訓練集和所述特征測試集傳輸至特征平衡模塊。
6、優選的,所述特征平衡模塊對特征工程模塊傳輸的所述特征訓練集和所述特征測試集進行接收,并通過特征平衡方法對所述特征訓練集和所述特征測試集進行特征平衡,以得到平衡特征訓練集和平衡特征測試集,并將所述平衡特征訓練集和所述平衡特征測試集傳輸至特征去噪模塊。
7、優選的,所述特征去噪模塊對特征平衡模塊傳輸的所述平衡特征訓練集和所述平衡特征測試集進行接收,并通過特征去噪方法對所述平衡特征訓練集和所述平衡特征測試集進行特征去噪,以得到標準訓練集和標準測試集,并將所述標準訓練集和所述標準測試集傳輸至模型訓練模塊。
8、優選的,所述模型訓練模塊對特征去噪模塊傳輸的所述標準訓練集和所述標準測試集進行接收,并基于神經網絡構建欺詐行為識別模型,并基于所述標準訓練集通過損失函數對所述行為識別模型進行訓練和參數調優,以得到訓練好的欺詐行為識別模型,并通過所述標準測試集對所述訓練好的欺詐行為識別模型進行測試,以得到優化的欺詐行為識別模型,并將所述優化的欺詐行為識別模型傳輸至實時監控模塊。
9、優選的,所述實時監控模塊對模型訓練模塊傳輸的所述優化的欺詐行為識別模型進行接收,并通過所述優化的欺詐行為識別模型對實時交易數據和實時行為數據進行分析,以得到欺詐行為識別結果,并將所述欺詐行為識別結果傳輸至報警與響應模塊。
10、優選的,所述報警與響應模塊對實時監控模塊傳輸的所述欺詐行為識別結果進行接收,并將所述欺詐行為識別結果與預設的報警觸發表進行匹配,以得到相應的報警機制,基于所述報警機制進行相應的響應措施。
11、優選的,所述特征平衡方法,包括以下步驟:
12、a1、計算所述特征訓練集和所述特征測試集中的每個數據點與其他樣本點的歐式距離,以確定k個最近鄰樣本,其中,k表示預設的數量閾值;
13、a2、根據所述特征訓練集和所述特征測試集的不平衡比例,確定采樣倍率n,對于每數據點的k個最近鄰樣本隨機選擇n個樣本,以得到隨機樣本;
14、a3、通過隨機線性插值在所述數據點和所述隨機樣本之間合成新樣本,所述隨機線性插值公式如下:
15、xnew=xi+γ(xi-xold);
16、其中,xnew表示新樣本,xi表示數據點,γ表示區間[0,1]之間的隨機數,xold表示隨機樣本。
17、優選的,所述特征去噪方法,包括以下步驟:
18、b1、基于knn算法找到所述特征訓練集和所述特征測試集中每個樣本的k個最近鄰居;
19、b2、比較所述特征訓練集和所述特征測試集中每個樣本與其最近鄰居之間的類標簽是否相同,若最近鄰居的類標簽與樣本不同,則將所述樣本從所述特征訓練集和所述特征測試集中刪除。
20、優選的,所述欺詐行為識別模型包括輸入層、隱藏層和輸出層,所述輸入層、所述隱藏層和所述輸出層的神經元均通過全連接方式連接,將上一層神經元的輸出值與相應的權重矩陣相乘,并將結果累加求和,并加上偏置項,且將總和傳遞到下一層與相應神經元相連,經過激活函數的映射后作為下一層神經元的輸入值,所述輸入值計算公式如下:
21、
22、其中,表示第l層的第k個神經元的相對應的輸出值,表示第l-1層的第k個神經元連接到第l層的第i個神經元相對應的權重,表示第l-1層的第k個神經元的相對應的輸出值,表示偏移量,σ表示相關的激活函數。
23、與現有技術相比,本發明的上述技術方案具有如下有益的技術效果:
24、1、本發明通過數據獲取模塊自動獲取并傳輸交易平臺的交易數據和行為數據,包括下單數據、售后數據、搜索數據、瀏覽數據和點擊數據,確保數據源的全面性和實時性,為后續數據分析提供基礎,通過數據預處理模塊對獲取的數據進行清洗、歸一化和降維處理,去除噪聲和異常值,提高數據質量和一致性,為特征工程打下良好基礎,通過特征工程模塊進行特征提取、集劃分與標簽處理,將數據轉換為適用于機器學習模型的格式,提升模型訓練的效果,且通過one-hot編碼和特征縮放,進一步優化數據特征,使模型更易于學習和泛化,通過特征平衡模塊利用特征平衡方法處理訓練集和測試集中的數據不平衡問題,防止模型偏向多數類數據,從而提升模型對少數類的識別能力。
25、2、本發明通過特征去噪模塊去除數據中的噪聲,保留關鍵特征,減少模型誤判的可能性,提高模型的準確性和魯棒性,通過模型訓練模塊基于神經網絡方法構建欺詐行為識別模型,并通過損失函數進行訓練和參數調優,得到優化的、準確度高的欺詐行為識別模型,從而有效識別潛在的欺詐行為,通過實時監控模塊利用優化的欺詐行為識別模型對實時交易數據和行為數據進行分析,及時檢測出欺詐行為,實現實時監控,提高平臺安全性,通過報警與響應模塊根據識別出的欺詐行為結果與預設的報警觸發表進行匹配,觸發相應的報警機制和響應措施,及時阻止和處理欺詐事件,保護用戶和平臺免受損失。