一種基于貝葉斯網絡和互信息的客戶信用評分方法
【技術領域】
[0001] 本發明涉及一種利用數據挖掘或機器學習技術進行客戶信用評分的方法,尤其是 一種基于貝葉斯網絡和互信息的客戶信用評分方法。
【背景技術】
[0002] 信用評分(credit scoring)也稱客戶信用(或資信)評估(或評級),是近年來 興起的一種為了保障銀行等金融機構的金融安全(即降低其市場活動風險)而采用的一種 對客戶資信進行分析預測的方法。
[0003] 信用評分是指根據客戶的實證屬性(empirical attributes)(如:客戶的年齡、 學歷、收入、家庭情況,等)和客戶信用歷史屬性(如:客戶的按時還款(貸)情況、騙保情 況,等)來構建一個信用評分模型(credit scoring model),然后利用該信用評分模型來預 測客戶的信用分數(credit score),從而評估客戶的未來信用表現。
[0004] 現有的信用評分方法主要分為四類(參見:"Nan_Chen Hsieha, Lun-Ping Hung:A data driven ensemble classifier for credit scoring analysis.Expert Systems with ApplicationsjVolume 37, Issue IjJanuary 2010, Pages 534 - 545 ;D01:10. 1016/ j.eswa. 2009. 05. 059"):支持向量機(support vector machine)方法、決策樹(decision tree)方法、神經網絡(neural network)方法、以及貝葉斯網絡(^Bayesian network)方法D
[0005] 支持向量機方法,典型的是Kima和Ahn于2012年提出的方法(參見:aKyoung-jae Kima,Hyunchul Ahn:A corporate credit rating model using multi-class support vector machines with an ordinal pairwise partitioning approach. Computers&Operations Research, Volume 39,Issue 8,August 2012,Pages 1800 - 1811 ; DOI: 10. 1016/j. con 2011. 06. 023")。該類方法需要通過訓練樣本來構建信用評分模型,但 由于其難以處理大規模的訓練樣本,在實際中應用效果不佳。
[0006] 決策樹方法,典型的是Bozsik和K^miendi于2011年提出的方法(參見:"j0zsef Bozsikj Gergely Kormendi: Decision tree-based credit decision support system. LINDI 2011_3rd IEEE International Symposium on Logistics and Industrial Informatics,Proceedings,IEEE Computer Society,2011,Pages:189-193 ;D01:10.1109/ LINDI. 2011. 6031145"h該類方法難以根據不完整的客戶數據來構建信用評分模型,且預 測準確性(accuracy)與精度(precision)較低。
[0007] 神經網絡方法,典型的是Hsieh于2005年提出的方法(參見:"Nan-Chen Hsieh:Hybrid mining approach in the design of credit scoring models. Expert Systems with Applications, Volume 28, Issue 4, May 2005, Pages 655 - 665; D0I:10. 1016/j.eswa. 2004. 12.022")。該類方法存在以下缺陷:(1)除了大量客戶數據外, 還需很多的輸入參數(如:網絡拓撲結構、閾值、權重值,等)才能構建信用評分模型"2) 信用評分模型的直觀性、評價結果的可解釋性不夠,從而影響輸出結果的可信度。
[0008] 貝葉斯網絡方法,典型的有Pavlenko和Chemyak于2010年提出的方法(參 見:"Tatjana Pavlenko, Oleksandr Chernyak:Credit risk modeling using bayesian networks. International Journal of Intelligent Systems, Volume 25,Issue 4, April 2010, pages 326 - 344 ;D01:10. 1002/int. 20410")以及 Leong 于最近提出的方法 (參見:''Chee Kian Leong:Credit Risk Scoring with Bayesian Network Models. Computational Economics, First online on 24June2015at http://link, springer. com/article/10. 1007/sl0614-015-9505-8 ;D01:10. 1007/sl0614-015-9505-8")。現有 研究工作表明,該類方法具有以下優點:(1)在預測準確性與精度、信用評分模型的敏感性 (sensitivity)等方面比現有模型(尤其是基于神經網絡方法的信用評分模型)更佳;(2) 能處理大規模的客戶數據;(3)貝葉斯網絡的圖結構(graph structure)和概率參數估計 (probability parameter estimate)易于根據實際情況進行合理調整。
[0009] 在客戶信用評分方法的實際應用中,常常會面臨這樣的問題或挑戰:有的客戶數 據(實證屬性與信用歷史信息)與客戶的信用表現關系不大,這就需要合理篩選有用的 客戶數據,以便構建更有效的信用評分模型。然而,僅用貝葉斯網絡無法解決這個問題。 在概率論和信息論中,互信息(mutual information, MI)(參見:"Wenbin Qiana, Wenhao Shu:Mutual information criterion for feature selection from incomplete data. Neurocomputing, Volume 168, 30November 2015,Pages 210 - 220 ;D01:10. 1016/ j. neucom. 2015. 05. 105")是變量之間相互依賴關系(mutual dependence)的一種度量,可 用來有效地衡量變量之間的相關性。因此,在構建基于貝葉斯網絡的信用評分模型過程中, 可借助互信息機制來合理篩選有用的客戶數據。正是基于這個思想,本發明提出一種基于 貝葉斯網絡和互信息的客戶信用評分方法。
[0010] 下面簡要說明本發明技術方案中采用的若干現有計算方法或算法。
[0011] 在構建初始貝葉斯網絡過程中,采用了貝葉斯信息準則(Bayesian information criterion, BIC)(參見:''Ernst Wit, Edwin van den Heuvel, Jan-ffillem Romei jn: 'All models are wrong···' : an introduction to model uncertainty.Statistica NeerlandicajVolume 66, Issue 3,August 2012,pages 217 - 236 ;D01:10. 1111/ j. 1467-9574. 2012. 00530. x")對貝葉斯網絡進行評分。
[0012] 在構建初始貝葉斯網絡過程中,采用了爬山(hill climbing)算法(參 見:''J. A. Gamez, J. L. Mateo, and J. M. Puerta, "Learning Bayesian networks by hill climbing:efficient methods based on progressive restriction of the neighborhood, ''Data Mining and Knowledge Discovery, vol. 22, no. I - 2, January 2011,pp. 106 - 148,D0I:10. 1007/sl0618-010-0178-6. ")基于預處理過的客戶數據來創建 貝葉斯網絡。
[0013] 在對客戶信用評分模型的網絡結構進行參數學習過程中,采用了最大似然估 計(maximum-likelihood estimation)方法(參見:"Michiel Hazewinkel(editor ):"Maximum-likelihood method", Encyclopedia of Mathematics, Springer,2001 ; ISBN978-1-55608-010-4")。
[0014] 最后,為了評價本發明技術方案(即基于貝葉斯網絡和互信息的客戶信用評 分方法)的性能(客戶信用的預測準確性與精度),在本
【發明內容】
的【具體實施方式】中, 我們給出了一個基于基準(benchmark)客戶數據集的具體實施例,并將本發明技術方 案與其他典型的客戶信用評分方法(決策樹方法、神經網絡方法、初始貝葉斯網絡方 法)進行了性能比較。在性能比較時,我們采用了常用的接受者操作特征(receiver operating characteristic, ROC)(參見:''James A. Hanley, Barbara J. McNeil: The meaning and use of the area under a receiver operating characteristic(ROC) curve. Radiology, Volume 143, Is