專利名稱:一種基于數據挖掘的b2b平臺欺詐訪問的檢測方法和系統的制作方法
技術領域:
本發明主要涉及企業對企業(Business To Business,B2B)電子商務領域,尤其涉及一種基于數據挖掘的B2B平臺欺詐訪問的檢測方法和系統。
背景技術:
隨著市場經濟的發展,市場欺詐行為也隨之成為大多數行業必須面對的一個重要問題,在銀行、保險、證券、電信、制造、電子商務行業,表現得尤為突出。因此,在這幾個行業領域,都進行過欺詐問題的建模嘗試,并取得了一定的效果。在保險行業領域,保險欺詐行為屢屢發生,在這方面發表的主要文獻有在《運籌與管理》中2006年發表的《基于再保險人分擔理賠費用的保險欺詐博弈模型分析》,本文以夸大風險損失的索賠欺詐問題為例,建立了再保險人分擔理賠調查費用的保險欺詐博弈模型,分析和解釋了保險理賠過程中所存在的這種事后道德風險。綜合此文的研究結論可知,博弈模型存在某種形式的精煉貝葉斯納什均衡,當保險人負擔的理賠費用在某一范圍內變化時,博弈模型存在某種形式的合并均衡,局中人會交替使用分離策略與合并策略。因為在保險領域,離不開損失費用、理賠費用、保險費用等保險財務相關數據,對財務數據的要求是非常苛刻的,如果缺乏這方面的數據,就根本不能保證模型的質量。針對電信惡意欠費欺詐客戶,國內學者在數據挖掘技術的基礎上,建立了有效的欺詐行為模型,發表的文獻主要包括在《計算機應用》中2008年發表的《基于貝葉斯網絡的電信話費欺詐模型的研究及應用》。此類技術將電信業務人員的經驗知識和樣本數據相結合,在數據挖掘技術的基礎上,提出了一種基于貝葉斯網絡的電信話費欺詐建模方法。實驗表明,基于聯機分析處理(on-line analytical processing, 0LAP)分析和貝葉斯網絡的話費欺詐預測效果比較好,是一種有效的客戶欺詐分析工具。但此類模型的建立要依賴用戶計費類型、賬務周期、客戶的通話費用等財務數據,如果缺乏這類數據將會導致無法建立合適的模型。從上面的文獻研究發現,現有的欺詐模型主要從客戶的交易、資金流動出發進行建模,其模型的建立離不開準確的財務數據和交易數據。對于B2B電子商務平臺而言,主要分為兩大類
(I)以信息服務為核心的B2B電子商務平臺,這種電子商務平臺沒有在線交易功能。(2)以在線交易服務為核心的B2B電子商務平臺,這種電子商務平臺具有在線交易功能。后者是近2年才發展起來的新模式,是以小額批發零售為主,相對采購的頻次比較高。這種B2B電子商務平臺達成的交易規模相對來說還比較小。而目前絕大部分通過互聯網達成的交易,還是依靠以信息服務為核心的B2B電子商務平臺來實現的,這種平臺特點是匯集供應商產品,面向采購商,提供信息交流與貿易服務,為供應商與采購商創造商機,體現的是企業對企業之間的營銷關系。這種情況使以信息服務為核心的B2B電子商務平臺在與上述其他行業相比時,最大的區別在于無法監控到客戶的交易行為,導致了缺乏交易的實體行為記錄,因此不能從交易行為的角度獲取重要的信息,例如交易產品數量、交易產品金額、財務數據等,這就給欺詐分析識別帶來了巨大的挑戰。 但是以信息服務為核心的B2B電子商務中,欺詐交易行為很盛行,供應商和采購商雙方都存在欺詐的可能性,而且這類電子商務促成的交易往往存在著交易產品數量多、交易額度大的特點,一旦發生欺詐,給用戶帶來的損失要遠遠大于有明細交易記錄的行業,因此針對這類B2B電子商務平臺特點,構建一套適合這以信息服務為核心的B2B電子商務平臺特點的欺詐檢測系統尤為重要。當然,有些以信息服務為核心B2B電子商務服務提供商也開始進行欺詐行為的研究,有關模型數據顯示,欺詐特征主要是帳戶的注冊地址信息與使用IP地址所在地區不匹配,以及公司相關信息與電子商務平臺的黑名單客戶重合等簡單方法。但這種欺詐檢測方法存在著檢測范圍小導致檢測效果不穩定的不足。因此如何充分挖掘以信息服務為核心的B2B電子商務平臺的特點獲取足夠的可用信息有效進行欺詐訪問檢測是亟待解決的問題。
發明內容
本發明的目的是提供一種基于數據挖掘的B2B平臺欺詐訪問的檢測方法和系統,用以解決以信息服務為核心的B2B電子商務平臺,在缺乏交易數據和相關財務數據的情況下,難以有效對供應商和采購商欺詐訪問進行檢測的問題。為了解決上述問題,本發明采用如下技術方案
一種基于數據挖掘的B2B平臺欺詐訪問的檢測方法,通過將客戶的信息分為靜態信息和動態信息,對靜態信息采用關聯分析的數據挖掘方法進行檢測,對動態信息采用邏輯回歸分類模型的數據挖掘方法進行檢測,綜合計算兩種數據挖掘方法得出的預警分值,把預警分值超過閾值的客戶進行等級劃分,對于被劃分為特定級別的訪問客戶,則判斷他們是欺詐訪問者,列入欺詐客戶黑名單信息庫。客戶的靜態信息包括客戶賬號、企業名稱、企業所在地區、聯系電話、電子郵件、產品關鍵字、相關投訴信息;動態信息包括客戶的點擊行為、搜索行為、郵件收發行為、信息發布行為。其中預警分值的獲取包括以下步驟對于利用兩種數據挖掘方法得出的結果,分別置予不同的權重,進行綜合計算分析,得出最終的預警分值。欺詐客戶黑名單隨著檢測過程中的檢測結果持續進行更新。一種基于數據挖掘的B2B平臺欺詐訪問的檢測系統,包括客戶信息處理器、欺詐分析處理器、前端展現處理器;客戶信息處理器用于將客戶的信息資料、網站行為進行收集整理,匯集存儲到相應的存儲單元,便于欺詐分析處理器的抽取;欺詐分析處理器,用于抽取客戶資料信息以及網站行為數據后,通過數據挖掘手段,進行綜合計算得出預警分值,根據預警分值進行一定的級別劃分;前端展現處理器,用于將預警分值超過閾值的客戶信息部署到服務商內部信息系統中,供相關部門的參考查詢。其中欺詐分析處理器還包括數據抽取單元、關聯分析單元、邏輯回歸單元、綜合計算單元、數據發送單元;關聯分析單元,用于通過數據抽取單元獲得客戶信息資料后,從多個維度進行關聯分析;邏輯回歸單元,用于利用訓練后得到邏輯回歸分類模型,來檢測客戶的訪問行為;綜合計算單元,用于針對靜態信息關聯分析挖掘結果和動態信息邏輯回歸分類模型的數據挖掘結果,分別置予不同的權重,進行綜合計算分析,得出最終的預警分值。把客戶的信息分為靜態信息和動態信息,靜態信息指的是各個維度的客戶信息,包括客戶賬號、企業名稱、企業所在地區、聯系電話、電子郵件、產品關鍵字、相關投訴信息等;動態信息主要指的是客戶的訪問行為數據,包括客戶的點擊行為、搜索行為、郵件收發行為、信息發布行為等。對靜態信息采用 關聯分析的數據挖掘方法進行檢測,分為以下幾個步驟
靜態信息的抽取。讀取客戶登陸IP、電話、郵箱、投訴等信息,為關聯挖掘準備基礎數據。數據清洗預處理。對數據進行一定的預處理,標準化成統一的格式以方便關聯分析模型的應用。支持度、置信度閾值的設置。從不同維度數據的實際情況出發,設置各自維度的支持度、置信度閾值。其中置信度是對關聯規則準確度的衡量,度量關聯規則的強度。支持度是對關聯規則重要性的衡量,反映關聯是否是普遍存在的規律,說明這條規則有多大的代表性。關聯探測。在B2B電子商務平臺上,客戶信息和客戶行為數據具有海量數據的特征,采用關聯分析的數據挖掘方法,從多維度進行關聯探測,以發現異常關聯模式。結果對比。得出關聯挖掘的結果后,與支持度、置信度閾值進行比較,篩選出超過閾值的結果數據進行保存。對動態信息采用邏輯回歸分類模型的數據挖掘方法進行檢測,分為以下步驟 動態信息數據抽取。讀取客戶搜索、點擊、郵件收發、信息發布等數據,為數據挖掘準備
基礎數據。數據清洗預處理。對數據進行一定的預處理,清洗、缺失值填充、異常值剔除等。用戶行為、用戶信息指標構建。根據抽取的動態信息數據、預先設計的用戶行為和用戶信息方面的指標,對建模所需要的候選變量進行實例化。分類模型異常探測。用邏輯回歸分類模型對欺詐客戶的行為和信息進行探測,挖掘出欺詐客戶在網站行為方面的異常點。結果對比。通過邏輯回歸分類模型得出欺詐嫌疑度后,與閾值進行比較。篩選出超過閾值的結果數據進行保存。其中欺詐嫌疑度指利用邏輯回歸分類模型計算出來的值,即該客戶的欺詐概率,用以判斷其欺詐的可能性。針對靜態信息關聯分析挖掘結果和動態信息邏輯回歸分類模型的數據挖掘結果,分別置予不同的權重,進行綜合計算分析,得出預警分值,把預警分值超過閾值的客戶,進行等級的劃分。對于被劃分為特定級別的訪問客戶,則判斷為欺詐訪問者,列入欺詐客戶黑名單信息庫。欺詐客戶黑名單信息庫隨著檢測過程中的檢測結果持續進行更新。一種基于數據挖掘的B2B平臺欺詐訪問檢測系統,包括客戶信息處理器、欺詐分析處理器、前端展現處理器。所述客戶信息處理器將客戶的信息資料、網站行為進行收集整理,匯集存儲到相應的存儲單元,便于欺詐分析處理器的抽取。所述欺詐分析處理器,通過關聯分析和邏輯回歸分類模型的數據挖掘方法,對所抽取的數據進行欺詐行為綜合計算,欺詐判斷是結合關聯分析和邏輯回歸分類模型這兩種方法的綜合結果來實現的,并根據預警分值對客戶進行一定的級別劃分,輔助相關部門進行欺詐行為的識別和預防,并同時更新欺詐客戶黑名單信息庫。所述欺詐分析處理器還包括關聯分析單元、邏輯回歸單元、綜合計算單元。所述關聯分析單元,通過數據抽取單元獲得客戶信息資料,同時結合欺詐客戶黑名單信息庫中的已確認為欺詐訪問的客戶資料信息,將兩者客戶的信息從多個維度進行關聯。
所述邏輯回歸單元,選取一批客戶網站訪問行為數據作為邏輯回歸分類模型的訓練樣本,這些不同維度的數據代表了客戶的訪問行為指標。訓練后,得到邏輯回歸分類模型,通過此模型檢測客戶網站訪問行為的欺詐嫌疑度。所述綜合計算單元,針對靜態信息關聯分析挖掘結果和動態信息邏輯回歸分類模型的數據挖掘結果,分別置予不同的權重,進行綜合計算,得出預警分值。所述前端展現處理器,在所述欺詐分析處理器進行欺詐等級劃分的客戶信息,按照一定的模塊和劃分等級進行信息整合后,通過所述前端展現處理器將其部署到服務商內部信息系統中,供相關部門的參考查詢。本發明的有益結果如下
(I)本發明從B2B電子商務平臺的特點出發,充分以客戶信息資料、客戶訪問行為等多維度數據為基礎,引入數據挖掘技術進行建模,檢測B2B電子商務平臺的欺詐訪問行為,解決了由于交易行為無法監控而導致的難以檢測欺詐訪問這一行業問題。(2)本發明采用客戶關聯分析,打擊那些人工難以排查的欺詐訪問客戶,并采用邏輯回歸分類模型對人工難以識別出來的異常行為進行預警,提高排查欺詐客戶的效率。(3)本發明從客戶信息資料和客戶訪問行為等多維度數據出發,不僅可以檢測B2B電子商務平臺中供應商的欺詐訪問,也可以檢測采購商的欺詐訪問,使預警檢測更加全面。(4)本發明不僅使用客戶信息資料等靜態信息,而且引入了客戶訪問行為數據等動態信息,從多個維度對客戶的訪問行為進行挖掘分析,檢測效果比只用部分客戶資料信息進行檢測效果大為提升。(5)本發明根據預警檢測結果持續更新欺詐客戶黑名單信息庫,保證不斷提高系統檢測的效率,持續提升預警檢測效果。
圖I為本發明實施例中的系統結構圖。圖2為本發明實施例中的欺詐分析處理器結構示意圖。圖3為本發明實施例中的關聯分析流程圖。圖4為本發明實施例邏輯回歸流程圖。圖5為本發明實施例中預警分值處理流程圖。圖6為本發明實施例中預警檢測結果展示結構圖。
具體實施例方式在本發明中,根據以信息服務為核心的B2B電子商務平臺的應用特點,充分發揮多個維度的用戶信息資料和網絡行為數據的作用,引入數據挖掘技術進行建模,對客戶的訪問行為進行分析,以檢測欺詐訪問客戶。參閱附圖I所示,本發明實施例中的系統結構包括供應商客戶端11、采購商客戶端12、B2B電子商務服務器13、欺詐訪問預警檢測系統服務器14、內部信息系統服務器15、B2B電子商務平臺運營人員客戶端16。供應商客戶端11,用于供應商訪問B2B電子商務平臺,進行注冊、瀏覽、登錄、點擊、搜索、郵件收發等各項工作。
采購商客戶端12,用于采購商訪問B2B電子商務平臺,進行注冊、瀏覽、登錄、點擊、搜索、詢價、發布商情等各項工作。B2B電子商務服務器13,用于在互聯網上發布供應商的產品信息、企業信息,以及采購商發布商情信息等,以增加在互聯網上更多的展示機會,增加供應商與目標采購商的接觸機會,從而達成交易。欺詐訪問預警檢測系統服務器14,用于檢測供應商和采購商的訪問行為,預警檢測有欺詐訪問行為的客戶,對象是是注冊的供應商和采購商。欺詐訪問預警檢測系統14包括客戶信息處理器141、欺詐分析處理器142、前端展現處理器143。客戶信息處理器141,將客戶的信息資料、客戶的網站訪問行為數據進行收集整理,匯集存儲到相應的存儲單元,便于欺詐分析處理器142的抽取。欺詐分析處理器142,抽取客戶信息以及客戶網站訪問行為數據后,通過關聯分析和邏輯回歸分類模型的數據挖掘手段,進行欺詐行為綜合計算,欺詐判斷是結合關聯分析和邏輯回歸分類模型兩種數據挖掘方法來實現的,并對客戶的預警分值進行一定的級別劃分,輔助相關部門更好地進行欺詐行為的識別和預警。前端展現處理器143,在欺詐分析處理器142對欺詐客戶信息按照一定的模塊和劃分等級進行信息整合后,通過所述前端展現處理器143將其部署到內部信息系統服務器15上,供相關部門的參考查詢。內部信息系統服務器15,用于接收欺詐訪問預警檢測系統的輸出結果,以易于理解的方式在內部信息系統中展現。B2B電子商務平臺運營人員客戶端16,用于B2B電子商務平臺運營人員查詢預警檢測系統的輸出結果。參閱附圖2所示,本發明實施例中的欺詐分析處理器結構,包括數據抽取單元21、關聯分析單元22、邏輯回歸單元23、綜合計算單元24、數據發送單元25。數據抽取單元21,用于抽取客戶信息處理器141存儲單元中整理好的客戶信息資料,以及客戶網站訪問行為數據,作為數據挖掘的數據基礎。關聯分析單元22,通過數據抽取單元21獲得客戶信息資料,包括客戶的ID、姓名、電話、郵箱、注冊IP和登錄IP等信息,然后結合欺詐客戶黑名單信息庫中的已確認為欺詐訪問的客戶資料信息,將兩者客戶的信息從姓名、電話、郵箱、注冊IP和登錄IP等多個維度進行關聯,不同維度信息和不同類型客戶之間的關聯支持度和置信度閾值是不同的,若客戶符合閾值判斷條件,則把結果保存,準備進行綜合計算,若客戶不符合閾值判斷條件則直接通過。
邏輯回歸單元23,首先選取一批客戶網站訪問行為數據作為邏輯回歸分類模型的訓練樣本,包括登錄、發布信息、郵件收發、點擊、搜索等多個維度的行為數據,這些不同維度的數據代表了客戶的訪問行為指標。訓練后,得到邏輯回歸分類模型,通過此模型檢測客戶網站訪問行為的欺詐嫌疑度。若客戶的欺詐嫌疑度大于閾值,則把結果保存,準備進行綜合計算;若客戶不符合閾值判斷條件則直接通過。綜合計算單元24,針對靜態信息關聯分析挖掘結果和動態信息邏輯回歸分類模型的數據挖掘結果,分別置予不同的權重,進行綜合計算分析,得出預警分值,把預警分值超過閾值的客戶,進行等級的劃分“非常嚴重”、“嚴重”、“可疑”、“關注”、“一般”。對于被劃分為“非常嚴重”級別的,則判斷他們是欺詐訪問者,列入欺詐客戶黑名單信息庫。數據發送單元25,用于把等級劃分后的客戶數據發送給前端展示處理器143。參閱附圖3所示,本發明實施例中的關聯分析流程如下
步驟31 :通過數據抽取單元21,抽取客戶信息處理器141存儲單元中整理好的客戶信息資料,主要是客戶登陸IP、電話、郵箱等信息,為關聯分析準備基礎數據。步驟32 :對客戶信息資料進行一定的清洗、預處理,把數據標準化以方便關聯分析。步驟33 :采用關聯分析數據挖掘方法,從多維度進行關聯探測,以發現異常關聯模式。結合欺詐客戶黑名單信息庫中的欺詐客戶信息資料,不僅可以檢測到與黑名單信息庫中存在對應關系的訪問者,而且能檢測到未在黑名單信息庫中,但登錄賬號之間存在著關聯關系的訪問者,這種情況也增加了他們進行欺詐訪問的可能性。本實例中關聯分析數據挖掘采用FP_TREE算法,具體方法
掃描一次事務數據庫D,獲得D中頻繁項集(1_項集),對它們的支持度計數,并將頻繁項集按其支持度計數降序排列得到結果集L。生成FP_TREE。首先創建樹的根結點T,以“null”標記,第二次掃描事務數據庫D,每個事務中的項按L中次序處理(即按遞減支持度計數排序)。設排序后的頻繁項表為[P IP],其中P是第一個頻繁項,而P是剩余的頻繁項。調用insert_tree([p|P], T)。根結點T有多個子結點N,如果P非空,遞歸地調用insert_tree(P,N),按照項集描繪出一棵FP-tree,同時依然保留其中的關聯信息;最后再掃描事務數據庫一次,由下往上循序進行挖掘,刪除FP-tree中的子節點,即可產生需要的頻繁模式。步驟34:采用關聯分析方法,需要設置合理的支持度和置信度閾值,對客戶信息資料中存在異常關聯的賬號進行挖掘。對于支持度和置信度大于閾值的結果,進行步驟35,對于支持度和置信度小于等于閾值的結果,則執行步驟36。關聯中存在2種情況第一種情況,關聯賬號中已經有確認為欺詐的賬號;第二種情況,關聯賬號中還沒有已經確認為欺詐的賬號。顯然第一種情況比第二種情況更加嚴重,所以第一種和第二種情況的支持度和置信度的設置要加以區分。步驟35 :對于支持度和置信度大于閾值的結果,進行保存,準備在綜合計算時使用。步驟36:結束流程。參閱附圖4所示,本發明實施例邏輯回歸流程如下
步驟41 :通過數據抽取單元21,抽取客戶信息處理器141存儲單元中整理好的客戶網站訪問行為數據,主要是讀取客戶搜索、點擊、郵件收發、產品商情發布等信息,為進行邏輯回歸挖掘準備基礎數據。步驟42 :對客戶訪問行為數據進行一定的處理,主要是對數據進行一定的預處理,清洗、缺失值填充、異常值剔除等。
步驟43 :欺詐客戶在網站上的操作行為和普通客戶應該存在一定的差異,從客戶的點擊、搜索、信件查收發等角度構建了一套客戶行為指標。基于這一套客戶行為指標,弓丨入數據挖掘中的邏輯回歸分類模型,對客戶是否存在異常行為進行分類預測并總結欺詐客戶的異常規則。本實施例中邏輯回歸采用的是Logit模型,是離散選擇法模型之一,屬于多重變量分析范疇。本實施例中邏輯回歸模型公式如下
其中,公式中的、...代表的是入選指標變量,指客戶搜索、點擊、郵件收發、產品商情發布等網站訪問行為數據。步驟44 :通過邏輯回歸分類模型得出客戶的欺詐嫌疑度,若客戶的欺詐嫌疑度大于閾值,則進行步驟45 ;若客戶的嫌疑度小于預設的嫌疑度閾值,則執行步驟46。步驟45 :對于欺詐嫌疑度大于閾值的結果,進行保存,準備在綜合計算時使用。步驟46:結束流程。參考附圖5所示,本發明實施例中預警分值處理流程如下
步驟51 :獲取綜合計算后的預警分值。步驟52 :判斷預警分值是否大于閾值,如果是,執行步驟53,如果不是,執行步驟55。步驟53 :進行等級的劃分“非常嚴重”、“嚴重”、“可疑”、“關注”、“一般”。步驟54 :對于被劃分為“非常嚴重”級別的,則判斷他們是欺詐訪問者,列入欺詐客戶黑名單,更新欺詐客戶黑名單信息庫。步驟55:結束流程。參閱附圖6所示,本發明實施例中預警檢測結果展示結構包括前端展示處理器61、內部信息系統62。前端展示處理器61,包括數據接收單元611、數據整合單元612、數據部署單元613。數據接收單元611,用于接收欺詐分析處理器中數據發送單元25發送的結果數據,主要是最終的預警分值超過閾值的客戶數據。數據整合單元612,用于對數據接收單元611接收到的數據按照規則和劃分等級進行數據整合,為部署到內部信息系統服務器15做準備。數據部署單元613,把整合好的數據,通過數據接口傳遞給內部信息系統62,將由內部信息系統62把結果數據展示給B2B電子商務平臺相關工作人員。內部信息系統62,是用于B2B電子商務服務提供商管理、運營、統計的內部管理系統,其中與欺詐訪問檢測系統相關的有預警客戶關聯信息展示子系統621、預警客戶投訴信息展示子系統622、預警客戶異常信息展示子系統623。預警客戶關聯信息展示子系統621,記錄并展示了經過綜合計算后得到的預警客戶的信息,詳細展示了預警客戶關聯方面的信息,包括關聯次數、關聯原因、關聯客戶類型等預警客戶投訴信息展示子系統622,詳細展示了預警客戶投訴方面的信息,包括投訴類型、投訴次數等。預警客戶異常信息展示子系統623,詳細展示了預警客戶存在的行為異常,包括登錄、發布信息、郵件收發、點擊、搜索等多維度信息。本發明的目的是提供一種基于數據挖掘的B2B平臺欺詐訪問的檢測方法和系統,從供應商和采購商的信息資料和訪問行為的數據出發,在缺乏交易數據和相關財務數據的情況下,將欺詐分析識別的重點放在客戶注冊信息,以及客戶登錄、瀏覽、搜索、郵件收發等多維度網站行為數據上,并引入數據挖掘技術進行建模,從而解決了以信息服務為核心的B2B電子商務平臺中由于交易行為難以監控而導致不能有效對欺詐訪問行為進行預警檢測這一問題。本領域的開發人員可以對本發明的實施例進行各種改動和變型而不脫離本發明的精神和范圍。這樣,倘若本發明實施例中的這些修改和變型屬于本發明權利要求及其等同的范圍之內,則本發明中的實施例也包含這些改動和變型在內。
權利要求
1.一種基于數據挖掘的B2B平臺欺詐訪問的檢測方法,其特征在于,包括 以客戶信息資料、客戶訪問行為等多維度數據為基礎,引入數據挖掘技術進行建模,預警檢測以信息服務為核心的B2B電子商務平臺的欺詐訪問行為; 根據客戶信息資料、客戶訪問行為數據兩者的特點,分別采用兩種相應的數據挖掘方法,用以發現異常關聯,以及客戶的異常訪問行為; 綜合計算兩種數據挖掘方法得出的預警分值,把預警分值超過閾值的客戶進行等級劃分,對于被劃分為特定級別的訪問客戶,則判斷他們是欺詐訪問者,列入欺詐客戶黑名單信息庫。
2.根據權利要求I所述的檢測方法,其特征在于把客戶的信息分為靜態信息和動態信息,靜態信息指的是各個維度的客戶信息資料,包括客戶賬號、企業名稱、企業所在地區、聯系電話、電子郵件、產品關鍵字、相關投訴信息等;動態信息主要指的是客戶的訪問行為數據,包括客戶的點擊行為、搜索行為、郵件收發行為、信息發布行為等。
3.根據權利要求I所述的檢測方法,其特征在于對靜態信息采用關聯分析的數據挖掘方法進行檢測。
4.根據權利要求I所述的檢測方法,其特征在于對動態信息采用邏輯回歸分類模型的數據挖掘方法進行檢測。
5.根據權利要求I所述的檢測方法,其特征在于對于利用兩種數據挖掘方法得出的結果,分別置予不同的權重,進行綜合計算分析,得出最終的預警分值。
6.根據權利要求I所述的檢測方法,其特征在于把預警分值超過閾值的客戶,進行等級的劃分;對于被劃分為“非常嚴重”的訪問客戶,列入欺詐客戶黑名單信息庫,并更新欺詐訪問黑名單信息庫。
7.一種基于數據挖掘的B2B平臺欺詐訪問的檢測方法,其特征在于將客戶的信息分為靜態信息和動態信息,對靜態信息采用關聯分析的數據挖掘方法進行檢測,對動態信息采用邏輯回歸分類模型的數據挖掘方法進行檢測,綜合計算兩種數據挖掘方法得出的預警分值,把預警分值超過閾值的客戶進行等級劃分,對于被劃分為特定級別的訪問客戶,則判斷他們是欺詐訪問者,列入欺詐客戶黑名單信息庫。
8.根據權利要求7所述的檢測方法,其特征在于所述客戶的靜態信息包括客戶賬號、企業名稱、企業所在地區、聯系電話、電子郵件、產品關鍵字、相關投訴信息;動態信息包括客戶的點擊行為、搜索行為、郵件收發行為、信息發布行為。
9.根據權利要求7所述的檢測方法,其特征在于其中預警分值的獲取包括以下步驟對于利用兩種數據挖掘方法得出的結果,分別置予不同的權重,進行綜合計算分析,得出最終的預警分值。
10.根據權利要求7所述的檢測方法,其特征在于所述欺詐客戶黑名單隨著檢測過程中的檢測結果持續進行更新。
11.一種基于數據挖掘的B2B平臺欺詐訪問的檢測系統,其特征在于,包括客戶信息處理器、欺詐分析處理器、前端展現處理器; 客戶信息處理器將客戶的信息資料、網站行為進行收集整理,匯集存儲到相應的存儲單元,便于欺詐分析處理器的抽取; 欺詐分析處理器,抽取客戶資料信息以及網站行為數據后,通過數據挖掘手段,進行綜合計算得出預警分值,根據預警分值進行一定的級別劃分; 前端展現處理器,用于將預警分值超過閾值的客戶信息部署到服務商內部信息系統中,供相關部門的參考查詢。
12.根據權利要求11所述的檢測系統,其特征在于所述欺詐分析處理器還包括數據抽取單元、關聯分析單元、邏輯回歸單元、綜合計算單元、數據發送單元。
13.根據權利要求12所述的檢測系統,其特征在于所述關聯分析單元,用于通過數據抽取單元獲得客戶信息資料后,從多個維度進行關聯分析。
14.根據權利要求12所述的檢測系統,其特征在于所述邏輯回歸單元,利用訓練后得到邏輯回歸分類模型,來檢測客戶的訪問行為。
15.根據權利要求12所述的檢測系統,其特征在于所述綜合計算單元,針對靜態信息關聯分析挖掘結果和動態信息邏輯回歸分類模型的數據挖掘結果,分別置予不同的權重,進行綜合計算分析,得出最終的預警分值。
全文摘要
本發明公開了一種基于數據挖掘的B2B平臺欺詐訪問的檢測方法和系統,檢測方法包括通過將客戶的信息分為靜態信息和動態信息,對靜態信息采用關聯分析的數據挖掘方法進行檢測,對動態信息采用邏輯回歸分類模型的數據挖掘方法進行檢測,綜合計算兩種數據挖掘方法得出的預警分值,把預警分值超過閾值的客戶進行等級劃分,對于被劃分為特定級別的訪問客戶,則判斷他們是欺詐訪問者,列入欺詐客戶黑名單信息庫。檢測系統包括客戶信息處理器、欺詐分析處理器、前端展現處理器。本發明從B2B電子商務平臺的特點出發,充分以客戶信息資料、客戶訪問行為等多維度數據為基礎,引入數據挖掘技術進行建模,檢測B2B電子商務平臺的欺詐訪問行為,解決了由于交易行為無法監控而導致的難以檢測欺詐訪問這一行業問題。
文檔編號G06F21/00GK102622552SQ20121010561
公開日2012年8月1日 申請日期2012年4月12日 優先權日2012年4月12日
發明者佘華, 蔣巧娜, 魏寶軍, 黃建鵬 申請人:焦點科技股份有限公司