本申請涉及互聯網技術領域,尤其涉及一種針對不平衡樣本集的模型訓練方法及裝置、一種針對不平衡樣本集的樣本平衡方法及裝置、以及一種個人信用評分系統。
背景技術:
隨著大數據時代的到來,可以根據歷史數據以及歷史數據對應的結果進行分析,從而預測未來可能發生的事。比如,根據歷史數據以及對應的結果生成至少包含正負兩種樣本的樣本集,根據樣本集訓練特定的模型。當模型接收到現有的數據時,就可以預測現有數據對應的結果。具體比如,根據癌癥患者與健康人的歷史數據(包括:病歷、飲食、作息等等)生成包含正樣本(癌癥患者)和負樣本(健康人)的樣本集,并根據該樣本集訓練癌癥預測模型,當癌癥預測模型接收到疑似癌癥患者的歷史數據時,就可以預測出患癌癥的可能性,從而及早治療。
在訓練模型時如果基于平衡樣本集進行訓練,通常都會得到較好的性能,平衡樣本集是指樣本中包含的種類的數量相差不多,比如,新生兒樣本的男女比例會接近1:1。然而,隨著信息化的發展,預測小概率事件成為了各行各業的焦點,比如預測患癌癥的概率,預測用戶信用卡逾期的概率,預測金融市場突變的概率等。但這些小概率事件的樣本都存在一個共性,就是樣本集的嚴重失衡,癌癥患者是少數,信用卡逾期的人是少數,金融市場的突變也是少有的,在根據不平衡樣本集進行模型訓練時,往往會存在偏性,從而影響模型的性能。
現有技術為了實現樣本平衡,采用的方式多為過抽樣處理,即隨機復制少數類樣本,從而達到少數類樣本與多數類樣本的數量達到平衡的目的,但是隨 機復制的結果就是會出現完全相同的至少兩個樣本,但在實際應用中,一般不會出現完全相同的兩個樣本,所以僅僅是簡單復制的處理方式,顯然會導致樣本的真實性較低。基于真實性較低的樣本進行模型訓練也勢必會影響模型的性能。
技術實現要素:
本申請實施例提供一種針對不平衡樣本集的模型訓練方法,對不平衡樣本集進行樣本平衡后再訓練模型,從而提高模型的性能。
本申請實施例提供一種針對不平衡樣本集的模型訓練裝置,對不平衡樣本集進行樣本平衡后再訓練模型,從而提高模型的性能。
本申請實施例提供一種針對不平衡樣本集的樣本平衡方法,用于在對不平衡樣本集進行過抽樣處理時,提高處理后的樣本集的真實性。
本申請實施例提供一種針對不平衡樣本集的樣本平衡裝置,用于在對不平衡樣本集進行過抽樣處理時,提高處理后的樣本集的真實性。
本申請實施例提供一種個人信用評分系統,用于提高個人信用評分的真實性。
本申請實施例采用下述技術方案:
一種針對不平衡樣本集的模型訓練方法,包括:
獲取不平衡樣本集,所述不平衡樣本集中包含負樣本和正樣本,且負樣本與正樣本的樣本數量比大于不平衡閾值,所述不平衡閾值大于1;
根據所述不平衡樣本集中的正樣本,以及與所述正樣本相鄰的樣本,建立合成正樣本,所述與所述正樣本相鄰的樣本包含負樣本和/或正樣本;
當合成正樣本與正樣本的數量之和與負樣本數量的比值在平衡閾值區間內時,將合成正樣本修改為正樣本,生成平衡樣本集;
根據所述平衡樣本集進行模型訓練。
優選地,根據所述不平衡樣本集中的正樣本,以及與所述正樣本相鄰的 樣本,建立合成正樣本,包括:從所述不平衡樣本集中選取一個正樣本;以所述一個正樣本為基準,從樣本空間中選取與所述一個正樣本相鄰的樣本集合,所述樣本集合中包含負樣本和/或正樣本;根據所述一個正樣本與所述樣本集合中的樣本在樣本空間中分別對應的特征和特征值,在所述一個正樣本與所述樣本集合中的樣本之間建立合成正樣本。
優選地,當合成正樣本與正樣本的數量之和與負樣本數量的比值在平衡閾值區間內時,將合成正樣本修改為正樣本,生成平衡樣本集,包括:判斷合成正樣本與正樣本的數量之和與負樣本數量的比值是否在平衡閾值區間內;當是時,將合成正樣本修改為正樣本,生成平衡樣本集。
優選地,所述方法還包括:當否,且小于所述平衡閾值區間的最小值時,從所述不平衡樣本集中再選取一個正樣本,重復執行所述以所述一個正樣本為基準,從樣本空間中選取與所述一個正樣本相鄰的樣本集合。
優選地,以所述一個正樣本為基準,從樣本空間中選取與所述一個正樣本相鄰的樣本集合,包括:根據所述樣本數量比,以及所述一個正樣本在樣本空間中與至少一個正樣本之間的距離,確定相鄰距離閾值;根據所述相鄰距離閾值以及所述樣本數量比,以所述一個正樣本為基準,從樣本空間中選取與所述一個正樣本相鄰的樣本集合。
優選地,根據所述一個正樣本與所述樣本集合中的樣本在樣本空間中分別對應的特征值,在所述一個正樣本與所述樣本集合中的樣本之間建立合成正樣本,包括:根據所述一個正樣本與所述樣本集合中的樣本在樣本空間中分別對應的特征值,在所述一個正樣本與所述樣本集合中的樣本的中間位置建立合成正樣本。
優選地,所述方法應用于針對不平衡的原始個人信用樣本集,正樣本為逾期樣本,負樣本為非逾期樣本。一種針對不平衡樣本集的模型訓練裝置,包括:樣本集獲取單元、樣本建立單元、樣本集生成單元以及模型訓練單元,其中,
所述樣本集獲取單元,用于獲取不平衡樣本集,所述不平衡樣本集中包含負樣本和正樣本,且負樣本與正樣本的樣本數量比大于不平衡閾值,所述不平衡閾值大于1;
所述樣本建立單元,用于根據所述不平衡樣本集中的正樣本,以及與所述正樣本相鄰的樣本,建立合成正樣本,所述與所述正樣本相鄰的樣本包含負樣本和/或正樣本;
所述樣本集生成單元,用于當合成正樣本與正樣本的數量之和與負樣本數量的比值在平衡閾值區間內時,將合成正樣本修改為正樣本,生成平衡樣本集;
所述模型訓練單元,用于根據所述平衡樣本集進行模型訓練。
優選地,所述樣本建立單元包括:正樣本選取單元、樣本集合選取單元以及合成正樣本建立單元,其中,
所述正樣本選取單元,用于從所述不平衡樣本集中選取一個正樣本;
所述樣本集合選取單元,用于以所述一個正樣本為基準,從樣本空間中選取與所述一個正樣本相鄰的樣本集合,所述樣本集合中包含負樣本和/或正樣本;
所述合成正樣本建立單元,用于根據所述一個正樣本與所述樣本集合中的樣本在樣本空間中分別對應的特征和特征值,在所述一個正樣本與所述樣本集合中的樣本之間建立合成正樣本。
優選地,所述樣本集生成單元包括:判斷單元、平衡樣本集生成單元以及跳轉單元,其中,
所述判斷單元,用于判斷合成正樣本與正樣本的數量之和與負樣本數量的比值是否在平衡閾值區間內;
所述平衡樣本集生成單元,用于當判斷結果為否是時,將合成正樣本修改為正樣本,生成平衡樣本集;
所述跳轉單元,用于當判斷結果為否,且小于所述平衡閾值區間的最小 值是時,跳轉執行所述樣本建立單元。
優選地,樣本集合選取單元,具體用于:根據所述樣本數量比,以及所述一個正樣本在樣本空間中與至少一個正樣本之間的距離,確定相鄰距離閾值;根據所述相鄰距離閾值以及所述樣本數量比,以所述一個正樣本為基準,從樣本空間中選取與所述一個正樣本相鄰的樣本集合。
優選地,合成正樣本建立單元,具體用于:根據所述一個正樣本與所述樣本集合中的樣本在樣本空間中分別對應的特征值,在所述一個正樣本與所述樣本集合中的樣本的中間位置建立合成正樣本。
一種針對不平衡樣本集的樣本平衡方法,其特征在于,所述不平衡樣本集中包含負樣本和正樣本,且負樣本與正樣本的樣本數量比大于不平衡閾值,所述不平衡閾值大于1,所述方法包括:
從所述不平衡樣本集中選取一個正樣本;
以所述一個正樣本為基準,從樣本空間中選取與所述一個正樣本相鄰的樣本集合,所述樣本集合中包含負樣本和/或正樣本;
根據所述一個正樣本與所述樣本集合中的樣本在樣本空間中分別對應的特征和特征值,在所述一個正樣本與所述樣本集合中的樣本之間建立合成正樣本;
判斷合成正樣本與正樣本的數量之和與負樣本數量的比值是否在平衡閾值區間內;
當是時,將合成正樣本修改為正樣本,生成平衡樣本集。
一種針對不平衡樣本集的樣本平衡裝置,包括:正樣本選取單元、樣本集合選取單元、合成正樣本建立單元、判斷單元以及平衡樣本集生成單元,其中,
所述正樣本選取單元,用于從所述不平衡樣本集中選取一個正樣本;
所述樣本集合選取單元,用于以所述一個正樣本為基準,從樣本空間中選取與所述一個正樣本相鄰的樣本集合,所述樣本集合中包含負樣本和/或正 樣本;
所述合成正樣本建立單元,用于根據所述一個正樣本與所述樣本集合中的樣本在樣本空間中分別對應的特征和特征值,在所述一個正樣本與所述樣本集合中的樣本之間建立合成正樣本;
所述判斷單元,用于判斷合成正樣本與正樣本的數量之和與負樣本數量的比值是否在平衡閾值區間內;
所述平衡樣本集生成單元,用于當判斷結果為是時,將合成正樣本修改為正樣本,生成平衡樣本集。
優選地,所述裝置還包括跳轉單元,具體用于:當判斷結果為否,且小于所述平衡閾值區間的最小值是時,跳轉執行所述正樣本選取單元。
一種個人信用評分系統,包括:原始個人信用建立系統、樣本平衡系統、信用模型訓練系統、個人信用評分系統,其中,
所述原始個人信用建立系統,用于根據用戶對應的特征和特征值,建立原始個人信用樣本集;
所述樣本平衡系統,用于對原始個人信用樣本集進行樣本平衡;
所述信用模型訓練系統,用于根據平衡后的個人信用樣本集訓練信用模型;
所述個人信用評分系統,用于根據用戶對應的特征和特征值,利用信用模型對用戶的逾期情況進行預測,并根據預測結果進行個人信用評分。
本申請實施例采用的上述至少一個技術方案能夠達到以下有益效果:由于在不平衡本集中,少數類樣本(正樣本)是較少的,但是與正樣本相鄰不遠的樣本往往存在與該正樣本相同或相似的特征,以該正樣本為基準選取與該正樣本相鄰的樣本集合,再從樣本集合中選取樣本,并根據特征和特征值與該正樣本建立合成正樣本,使得合成正樣本也與正樣本存在特征值上的相似性,相對于現有技術針對不平衡樣本集進行簡單復制某些正樣本的過抽樣處理方法而言,提高了平衡樣本集的真實性。根據本申請生成的真實性較高的平衡樣本集 進行模型訓練后,模型的性能也會得到提升。
附圖說明
此處所說明的附圖用來提供對本申請的進一步理解,構成本申請的一部分,本申請的示意性實施例及其說明用于解釋本申請,并不構成對本申請的不當限定。在附圖中:
圖1為本申請實施例1提供的一種針對不平衡樣本集的樣本平衡方法的流程示意圖;
圖2為本申請實施例1提供的選取一個正樣本示意圖;
圖3為本申請實施例1提供的根據鄰居距離閾值選取相鄰的樣本集合的示意圖;
圖4為本申請實施例1提供的確定相鄰距離閾值的示意圖;
圖5為本申請實施例1提供的確定相鄰距離閾值的示意圖;
圖6為本申請實施例1提供的根據確定出的鄰居距離閾值選取相鄰的樣本集合示意圖;
圖7為本申請實施例1提供的建立合成正樣本的示意圖;
圖8為本申請實施例1提供的建立合成正樣本并達到樣本平衡的示意圖;
圖9為本申請實施例1提供的將合成正樣本修改為正樣本并生成平衡樣本集的示意圖;
圖10為本申請實施例2提供的一種針對不平衡信用樣本進行信用模型訓練的方法的流程示意圖;
圖11為本申請實施例3提供的一種針對不平衡樣本集的樣本平衡裝置的結構框圖;
圖12為本申請實施例4提供的一種針對不平衡樣本集的模型訓練方法的流程示意圖;
圖13為本申請實施例5提供的一種針對不平衡樣本集的模型訓練裝置的結構框圖;
圖14為本申請實施例6提供的一種個人信用評分系統的結構框圖。
具體實施方式
為使本申請的目的、技術方案和優點更加清楚,下面將結合本申請具體實施例及相應的附圖對本申請技術方案進行清楚、完整地描述。顯然,所描述的實施例僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護的范圍。
在進行本申請的技術方案的詳細介紹之前,為了明確起見,這里先對幾個術語作簡要說明。在本申請實施例中將涉及不平衡樣本集和平衡樣本集,負樣本和正樣本,以及樣本空間和特征值。樣本集中包含正樣本和負樣本,每個樣本表示一個對象。比如,當需要建立健康人群與癌癥患者的樣本集時,每個人就是一個樣本,健康的人是負樣本,癌癥患者就是正樣本,這里的負樣本就是代表多數類樣本,正樣本代表少數類樣本。由于癌癥患者畢竟是少數,所以負樣本與正樣本的樣本數量比一定大于1,可以設定一個不平衡閾值,比如1.2,當樣本集中負樣本與正樣本的樣本數量比大于1.2時,即可認為該樣本集是不平衡樣本。可以預設一個平衡樣本閾值區間,該區間為有界區間,比如該區間為(0.9,1.1),即表示當樣本集中負樣本與正樣本的樣本數量比在(0.9,1.1)范圍內時,可認為該樣本集是平衡樣本。每個樣本都有自己的特征和特征值,比如一個胃癌患者正樣本中,會有早期癥狀:嘔吐、胃潰瘍等,“早期癥狀”就是特征,“嘔吐、胃潰瘍等”就是特征值。每個樣本會有多維度的特征和特征值,可以根據多維度的特征和特征值建立多維度的樣本空間,根據每個維度的特征值將每個樣本放置在樣本空間的某個位置中,并可以根據指定的距離度量方法確定出每兩個樣本之間的距離。
以下結合附圖,詳細說明本申請各實施例提供的技術方案。
實施例1
如前所述,隨著信息化的發展,預測小概率事件成為了各行各業的焦點,比如預測患癌癥的概率,預測用戶信用卡逾期的概率,預測金融市場突變的概率等。但這些小概率事件的樣本集都是嚴重失衡的,比如(1000:1,即每1000個人里才有一個逾期不還信用卡的人),在根據不平衡樣本集進行模型訓練時,往往會存在偏性,從而影響模型的性能。現有技術為了解決這一問題,采用的方式多為過抽樣處理,即隨機復制少數類樣本,從而達到少數類樣本與多數類樣本的數量達到平衡的目的,比如對于樣本集中的少數類樣本中的樣本1而言,復制了兩次,那么在樣本空間中樣本1的位置上就會有樣本1、樣本1’以及樣本1”這3個的樣本,但在實際應用中,一般不會出現完全相同的兩個樣本,就像每位癌癥患者的患病原因、早期癥狀等都不盡相同,每個不還信用卡的人的歷史行為以及個人本身也是不是完成相同的,所以如果僅僅是對若干個少數類樣本進行簡單地復制,顯然會導致樣本的真實性較低。在訓練模型時由于出現多個相同的樣本,也會導致這些樣本的權重較高,從而造成過度擬合的問題,進而影響模型的訓練效果。基于此缺陷,本發明人提出了一種針對不平衡樣本集的樣本平衡方法,用于在對不平衡樣本集進行過抽樣處理時,提高處理后的樣本集的真實性。該方法是針對不平衡樣本集進行的一種過抽樣處理方法,樣本集中包含負樣本和正樣本,且負樣本與正樣本的樣本數量比大于不平衡閾值,該不平衡閾值可以是預先設定的(比如1.2或1.5等),由于建立樣本集的步驟不是本方案重點,所以不過多介紹。該方法的流程示意圖如圖1所示,包括下述步驟:
步驟11:從不平衡樣本集中選取一個正樣本。
由于過抽樣處理是針對少數類樣本的,所以可以從不平衡樣本集中選取一個正樣本,選取的方式可以是隨機選取,也可以是按照樣本空間中的位置進行 選取,比如,對于二維樣本平面,可以根據特征值由小到大的順序進行選取,對于三維樣本空間,可以根據特征值在樣本空間中由中心向四周進行選取,等。需要說明的是,本實施例中所說的樣本空間包括二維樣本平面以及多位樣本空間。
需要說明的是,在對術語作簡要說明時,已經介紹這里的負樣本就是代表多數類樣本,正樣本代表少數類樣本。在實際應用中,可以自行定義正負樣本,比如也可以把正樣本定義為多數類樣本。這兩個定義是預先定好的,且在一個流程中,一旦定好是不可更改的。如果在實際應用中將負樣本定義為少數類樣本,那么該步驟就是選取一個負樣本。本申請將正樣本定義為少數類樣本,此后不再贅述。
以二維樣本平面為例,如圖2所示,“○”為負樣本,“□”為正樣本,可以從5個正樣本中隨機選取一個,比如選取了正樣本1。
步驟12:以這個正樣本為基準,從樣本空間中選取與這個正樣本相鄰的樣本集合。
因為在樣本空間中,樣本之間的相對位置是根據樣本的特征值確定出來的,可以認為距離越近的兩個樣本,它們之間的關系越緊密,它們的特征值的差別越小,所以,可以根據距離來選取與這個正樣本相鄰的樣本集合。
該步驟中,可以預設一個相鄰距離閾值,這個相鄰距離閾值可以是預先設定的,以步驟11中選取到的這個正樣本為基準,與該正樣本的距離小于相鄰距離閾值的樣本都可以被選取到樣本集合中,樣本集合中可以包含負樣本和/或正樣本。比如,如圖3所示,對于正樣本1而言,預先設定的相鄰距離閾值為r,則可以從以這個樣本的位置為圓心,以r為半徑的范圍內,從二維樣本平面中選取與這個正樣本相鄰的樣本集合,該樣本集合中包括3個負樣本(標識為“√”的3個“○”)。
需要說明的是,本申請中的距離,是按照指定的距離度量方法確定的,比如,歐氏距離(Euclidean Distance),曼哈頓距離(Manhattan Distance),標準化歐 氏距離(Standardized Euclidean distance),等等。
在實際應用中,預先設定相鄰距離閾值不一定適用于全部的正樣本,比如,某個正樣本與其它樣本的距離都很遠,那么再根據預先設定相鄰距離閾值區選取與之相鄰的樣本集合就有可能選不出來,所以,在一定實施方式中,為了能夠根據正樣本本身的位置自適應的調節相鄰距離閾值,以這個正樣本為基準,利用相鄰距離閾值從樣本空間中選取與這個正樣本相鄰的樣本集合,可以包括:
根據樣本數量比,以及這個正樣本在樣本空間中與至少一個其它正樣本之間的距離,確定相鄰距離閾值;根據相鄰距離閾值以及樣本數量比,以這個正樣本為基準,從樣本空間中選取與這個正樣本相鄰的樣本集合。
具體地,可以根據下述公式確定相鄰距離閾值:
其中,K為選取的一個正樣本與至少一個其它正樣本的總數量,
N=樣本數量比-1,d為第i個正樣本到第k個正樣本之間的距離。
當確定出相鄰距離閾值后,可以根據相鄰距離閾值以及N,從不平衡樣本集中選取與這個正樣本相鄰的樣本集合。
具體地,比如,如圖4所示,K可以取3,由于已經選取一個正樣本1,所以再選取兩個正樣本,選取方式可以是隨機選取,也可以是選取相鄰的,比如,選取了正樣本2和正樣本3。在圖4中,負樣本有15個,正樣本有5個,所以N=15:5-1=2,可以認為當根據每個正樣本復制出2個正樣本時,可以達到樣本平衡。可以從K個正樣本中隨機選取2個,作為i=1和i=2,將K個正樣本作為k=1、k=2以及k=3。
如圖5所示,d(i=1,k=1)=L1;d(1,2)=L3;d(1,3)=0;
d(2,1)=0;d(2,2)=L2;d(2,3)=L1;
所以,D=(L1+L1+L2+L3)/(2×3)
以圖5為例,L1=872(單位),L2=L1=738(單位),L3=1144(單位),“(單位)”表示在二維樣本平面中的距離單位。則D=605(單位)。
如圖6所示,在以正樣本1為圓心,D為半徑的圓的范圍內,從不平衡樣本集中選取(隨機或按照距離大小)與這個正樣本相鄰的N=2個樣本(標識為“√”的2個“○”),組成樣本集合。
需要說明的是,在選取與這個正樣本相鄰的樣本集合時,也可以選取正樣本,因為正樣本距離很近的周圍的樣本中(不管是正樣本還是負樣本)均會有與正樣本相同或相似的一些特征。
步驟13:根據這個正樣本與樣本集合中的樣本在樣本空間中分別對應的特征和特征值,在這個正樣本與樣本集合中的樣本之間建立合成正樣本。
由于在不平衡樣本集中,正樣本的數量較少,在一些場景中(癌癥患者、信用卡逾期用戶)正樣本的數量更是極少的,所以兩個正樣本之間的距離一般情況下會大于兩個負樣本之間的距離,但是如前所示,與正樣本距離很近的周圍的樣本中均會有與正樣本相同或相似的一些特征。類似的,比如罪犯周圍的人,可能或多或少的有著與罪犯相似的特征,比如,學歷,生活條件,家庭,不良嗜好等。雖然罪犯周圍的人不一定會犯罪,但是會有潛在的可能性,所以在本步驟中,可以根據選取的一個樣本,與步驟12中選取的樣本集合中的樣本分別對應的特征和特征值,在這個正樣本與樣本集合中的樣本之間建立合成正樣本。需要說明的是,在建立合成樣本時,特征和特征值要一一對應,比如,要根據選取的這個正樣本的年收入:5萬,與樣本集合中的樣本的年收入:6萬進行對應。
在一種實施方式中,可以在這個正樣本與樣本集合中的樣本的中間位置建立合成正樣本,比如針對上述的“年收入”的例子,建立合成正樣本的年收入為5.5萬。如圖7所示,為建立的兩個合成正樣本“△”。
需要說明的是,在實際應用中,往往N不是整數,在這種情況下,有兩種處理方式:
第一種,以多個正樣本為,進行局部湊整,比如,N為0.7,那么可以根據10個正樣本建立7個合成正樣本。
第二種,以四舍五入為基準,當N為3.3時,根據一個正樣本建立3個合成正樣本,直到樣本集達到平衡為止,或當N為1.56時,根據一個正樣本建立2個合成正樣本,直到樣本集達到平衡為止。
步驟14:判斷合成正樣本與正樣本的數量之和與負樣本數量的比值是否在平衡閾值區間內。
由于合成正樣本就可以當作是正樣本,所以可以將合成正樣本于正樣本一起累加起來,確定出數量之和,判斷數量之和與負樣本數量的比值是否在平衡閾值區間內,當不在,且小于該平衡閾值區間的最小值時,從不平衡樣本集中再選取一個正樣本,重復執行步驟12到步驟14,也就是繼續建立合成正樣本,需要說明的是,從不平衡樣本集中再選取一個正樣本,實際上可以與步驟11中選取的那個正樣本相同,也可以不同,但在實際操作中,就是通過執行步驟11再選取一個正樣本,所以當不在,且小于該平衡閾值區間的最小值時,也可以直接執行步驟11,并再重復執行步驟12到步驟14。
當比值在該平衡閾值區間內時,則可以認為此時的正樣本(包括合成正樣本)與負樣本之間達到平衡,如圖8所示,根據每個正樣本建立2個合成正樣本,此時,正樣本(包括合成正樣本)與負樣本的數量都是15個,比值就是1:1,達到了完全平衡,就可以將合成正樣本修改為正樣本,生成平衡樣本集,也就是如圖9所示的結果。
在實際應用中,往往是一次選取出多個正樣本,根據每個正樣本,并行建立合成樣本,所以,就有可能出現,合成正樣本與正樣本的數量又多余負樣本,此時,這個樣本集就又是不平衡的了。比如,就以圖2至圖9的例子來說,最開始負樣本有15個,正樣本只有5個,再根據正樣本建立合成正樣本時,如果合成正樣本與正樣本的數量變為了20個,那么又不平衡了,所以,在一種實施方式中,如果合成正樣本與正樣本的數量之和與負樣本數量的比值不在平 衡閾值區間內,且大于該平衡閾值區間的最大值時,刪除指定數量的合成正樣本,并判斷合成正樣本與正樣本的數量之和與負樣本數量的比值是否在平衡閾值區間內。
所以,在實際應用對不平衡樣本集進行平衡樣本時,根據預先設定的平衡閾值區間對建立合成正樣本還是刪除合成正樣本進行控制,最終目的是為了達到樣本平衡。比如,不平衡閾值設置為2,即獲取到的樣本集中負樣本是正樣本的至少兩倍時,開始對其進行樣本平衡的操作,平衡閾值區間為[0.95,1.05],當0.95≤負樣本數/(合成正樣本數+正樣本數)≤1.05時,生成平衡樣本集。
得到平衡樣本集后,最終的目的可以是為了訓練模型,使訓練出的模型性能更好,所以,在一種實施方式中,該方法還可以包括:根據平衡樣本集進行模型訓練。由于訓練的過程不是本申請的重點,所以不再贅述。
采用實施例1提供的該方法,由于在不平衡本集中,少數類樣本(正樣本)是較少的,但是與正樣本相鄰不遠的樣本往往存在與該正樣本相同或相似的特征,以該正樣本為基準選取與該正樣本相鄰的樣本集合,再從樣本集合中選取樣本,并根據特征和特征值與該正樣本建立合成正樣本,使得合成正樣本也與正樣本存在特征值上的相似性,相對于現有技術針對不平衡樣本集進行簡單復制某些正樣本的過抽樣處理方法而言,提高了平衡樣本集的真實性。根據本申請生成的真實性較高的平衡樣本集進行模型訓練后,模型的性能也會得到提升。
在實際應用中,還有一種現有技術,也是對不平衡樣本集進行合成少數類樣本的過抽樣方法,即SMOTE(Synthetic Minority Over-Sampling Technique)算法,該算法是在不平衡樣本集中,先隨機選取一個正樣本,再選取與該正樣本最近的另一個正樣本,在這兩正樣本之間隨機選取一點建立合成正樣本,該算法雖然與本申請類似,但是如前所述,對于不平衡樣本集而言,正樣本之間的距離比較遠(且失衡越嚴重,正樣本之間的距離往往越大),所以正樣本之間大多沒有什么相似特征,所以在兩正樣本之間建立的正樣本從特征值上看與哪個正樣本都有較大差異,也是比較盲目地進行過抽樣處理方法。舉實例來說, 住在中國北京的一位市民與住在澳大利亞堪培拉的一位市民,雖然都存在逾期不還信用卡的行為(即逾期樣本),但是無論從消費習慣、貨幣購買力,還是從人種、社會背景上都存在較大差異,所以不能輕易的認為在這兩位市民之間的帕勞共和國某個城市的市民就為逾期樣本。然而本申請中,會找住在中國上海的一位市民(逾期樣本或非逾期樣本),在這兩位市民之間如山東省濟南市建立合成逾期樣本,由于無論從消費習慣、貨幣購買力,還是從人種、社會背景上都不存較大差異,所以建立出的合成逾期樣本,才更加真實可信。
實施例2
隨著個人征信體系的發展,可以為每個人建立“信用檔案”,信用檔案中包括用戶的歷史信用信息,比如,多維度的與信用有關的數據(年齡、教育、個人檔案、工作、工資收入等)。通過對歷史信用信息的分析,就可以預測出未來這個人是否可信。然而在建立樣本集時,由于不還信用卡的人畢竟是少數,所以逾期樣本相對于非逾期樣本是非常少的,這就形成了不平衡樣本集,如前所述,現有技術只是簡單的復制某些逾期樣本來進行過抽樣處理,但是每個人(作為一個樣本)的特征值都不盡相同(沒有完全相同的兩個人),所以簡單復制就會導致建立的合成逾期樣本的真實性較差。在利用SMOTE算法進行過抽樣處理時,由于兩逾期樣本一般相距較遠,在它們之間建立的逾期樣本也不具有較高的真實性,具體原因可以參考實施例1中描述。所以針對現有技術對不平衡的個人信用樣本集進行過抽樣處理而達到樣本平衡的方法的缺陷,且基于與實施例1相同的發明構思,實施例2提供了一種針對不平衡信用樣本進行信用模型訓練的方法,用于提高信用模型的性能。該方法的流程示意圖如圖10所示,包括下述步驟:
步驟21:根據用戶對應的特征和特征值,建立原始個人信用樣本集。
該步驟中,可以先獲取用戶對應的所有特征和特征值,再進行預處理的操作,在這個過程中,不同的數據源首先經過數據清洗,消除錯誤數據和無關數 據,然后經過數據轉換而成為系統可以識別和支持的格式,最后通過每一個用戶的數據唯一標識而將同一用戶在不同數據來源中的數據融合為一條數據。在完成預處理操作后,就可以根據用戶對應的特征和特征值建立原始個人信用樣本集。該樣本集中包含逾期樣本(到期不還信用卡的用戶)和非逾期樣本(到期還清信用卡的用戶),由于逾期樣本一定是少數的,所以該原始個人信用樣本集一定是不平衡的樣本集。
步驟22:從原始個人信用樣本集中選取一個逾期樣本。
步驟23:根據樣本數量比,以及該逾期樣本在樣本空間中與至少一個其它逾期樣本之間的距離,確定相鄰距離閾值。
步驟24:根據確定出的相鄰距離閾值以及樣本數量比,以該逾期樣本為基準,從樣本空間中選取與該逾期樣本相鄰的樣本集合。
樣本集合中可以包含逾期樣本,也可以包含非逾期樣本。
步驟25:根據該逾期樣本與樣本集合中的樣本在樣本空間中分別對應的特征和特征值,在該逾期樣本與樣本集合中的樣本的中間位置建立合成逾期樣本。
步驟26:判斷合成逾期樣本與逾期樣本的數量之和與非逾期樣本數量的比值是否在平衡閾值區間內。
當不在,且小于該平衡閾值區間的最小值時,從原始個人信用樣本集中再選取一個逾期樣本,重復執行步驟22到步驟26,也就是繼續建立合成逾期樣本。
當在該平衡閾值區間內時,則可以認為此時的逾期樣本(包括合成逾期樣本)非逾期負樣本之間達到平衡。所以可以將合成逾期樣本修改為逾期樣本,并生成平衡的個人信用樣本集。
步驟27:根據平衡的個人信用樣本集訓練信用模型。
在實際應用中,可以獲取用戶一年內的信用數據以及對應的信用記錄,取前三季度的信用數據以及對應的信用記錄用于訓練信用模型,最后一個季度用于驗證信用模型的性能。如果性能未達到預期要求,可以適當調整比如選取相 鄰樣本集合過程中的參數(比如對K、N和/或D進行系數加成)等。
采用實施例2提供的該方法,由于在不平衡的個人信用樣本集中,逾期樣本是很少的,但是與逾期樣本相鄰不遠的樣本往往存在與該逾期樣本相同或相似的特征,以該逾期樣本為基準選取與該逾期樣本相鄰的樣本集合,再從樣本集合中選取逾期或非逾期樣本,并根據特征和特征值與該樣本集合中的這個樣本建立合成逾期樣本,使得合成逾期樣本也與逾期樣本存在特征值上的相似性,相對于現有技術針對不平衡的個人信用樣本集進行簡單復制某些逾期樣本的過抽樣處理方法而言,提高了個人信用樣本集的真實性,在根據真實性較高的平衡的個人信用樣本集對信用模型進行訓練后,信用模型的性能也會得到提升。
實施例3
基于相同的發明構思,實施例3提供了一種針對不平衡樣本集的樣本平衡裝置,用于在對不平衡樣本集進行過抽樣處理時,提高樣本的真實性。圖11為該裝置的結構框圖,該裝置包括:
正樣本選取單元31、樣本集合選取單元32、合成正樣本建立單元33、判斷單元34以及平衡樣本集生成單元35,其中,
正樣本選取單元31,可以用于從不平衡樣本集中選取一個正樣本;
樣本集合選取單元32,可以用于以一個正樣本為基準,從樣本空間中選取與一個正樣本相鄰的樣本集合,樣本集合中包含負樣本和/或正樣本;
合成正樣本建立單元33,可以用于根據一個正樣本與樣本集合中的樣本在樣本空間中分別對應的特征和特征值,在一個正樣本與樣本集合中的樣本之間建立合成正樣本;
判斷單元34,可以用于判斷合成正樣本與正樣本的數量之和與負樣本數量的比值是否在平衡閾值區間內;
平衡樣本集生成單元35,可以用于當判斷結果為是時,將合成正樣本修改為正樣本,生成平衡樣本集。
在一種實施方式中,該裝置還包括跳轉單元,可以用于:
當判斷結果為否,且小于平衡閾值區間的最小值是時,跳轉執行正樣本選取單元。
采用實施例3提供的該裝置,由于在不平衡本集中,少數類樣本(正樣本)是較少的,但是與正樣本相鄰不遠的樣本往往存在與該正樣本相同或相似的特征,以該正樣本為基準選取與該正樣本相鄰的樣本集合,再從樣本集合中選取樣本,并根據特征和特征值與該正樣本建立合成正樣本,使得合成正樣本也與正樣本存在特征值上的相似性,相對于現有技術針對不平衡樣本集進行簡單復制某些正樣本的過抽樣處理方法而言,提高了平衡樣本集的真實性。根據本申請生成的真實性較高的平衡樣本集進行模型訓練后,模型的性能也會得到提升。
實施例4
在實施例2中已經介紹了一種針對不平衡信用樣本進行信用模型訓練的方法,并且在實際應用中,平衡樣本的目的大部分還是用在訓練模型上,所以,基于相同的發明構思,本實施例4提供一種針對不平衡樣本集的模型訓練方法,對不平衡樣本集進行樣本平衡后再訓練模型,從而提高模型的性能。該方法的流程示意圖如圖12所示,包括下述步驟:
步驟41:獲取不平衡樣本集。
該步驟中,不平衡樣本集中可以包含負樣本和正樣本,且負樣本與正樣本的樣本數量比大于不平衡閾值。在實際應用中,也可以以包含的內容為條件,判斷樣本集是否為不平衡樣本集,比如,接收到某個樣本集,判斷該樣本集中是否只包含兩種樣本,再判斷出負樣本與正樣本的樣本數量比是否大于不平衡閾值(如1.2),根據判斷結果確定出是否為不平衡樣本,以便再進行后續操作。
步驟42:根據不平衡樣本集中的正樣本,以及與正樣本相鄰的樣本,建立合成正樣本。
該步驟中,可以分解為三個子步驟,即實施例1中介紹的步驟11、步驟12 和步驟13,目的就是通過正樣本以及與每個正樣本相鄰的負樣本和/或正樣本,建立合成正樣本,從而達到樣本平衡的目的。詳細步驟已經在實施例1中介紹,此處不再贅述。
步驟43:當合成正樣本與正樣本的數量之和與負樣本數量的比值在平衡閾值區間內時,將合成正樣本修改為正樣本,生成平衡樣本集。
該步驟就是利用步驟42建立的合成正樣本,通過判斷代表正樣本的合成正樣本與正樣本的數量之和是否與負樣本達到平衡,來生成平衡樣本集的過程,詳細步驟已經在實施例1中介紹,此處不再贅述。
步驟44:根據平衡樣本集進行模型訓練。
采用實施例4提供的該方法,對于獲取到的不平衡樣本集,利用與正樣本相鄰的樣本建立與正樣本相關的樣本,從而提高了平衡樣本集的真實性。再根據真實性較高的平衡樣本集進行模型訓練,模型的性能也會得到提升。
實施例5
基于相同的發明構思,實施例5提供了一種針對不平衡樣本集的模型訓練裝置,對不平衡樣本集進行樣本平衡后再訓練模型,從而提高模型的性能。圖13為該裝置的結構框圖,該裝置包括:
樣本集獲取單元51、樣本建立單元52、樣本集生成單元53以及模型訓練單元54,其中,
樣本集獲取單元51,可以用于獲取不平衡樣本集,不平衡樣本集中包含負樣本和正樣本,且負樣本與正樣本的樣本數量比大于不平衡閾值,所述不平衡閾值大于1;
樣本建立單元52,可以用于根據不平衡樣本集中的正樣本,以及與正樣本相鄰的樣本,建立合成正樣本,與正樣本相鄰的樣本包含負樣本和/或正樣本;
樣本集生成單元53,可以用于當合成正樣本與正樣本的數量之和與負樣本數量的比值在平衡閾值區間內時,將合成正樣本修改為正樣本,生成平衡樣本 集;
模型訓練單元54,可以用于根據平衡樣本集進行模型訓練。
在一種實施方式中,樣本建立單元52包括:正樣本選取單元31、樣本集合選取單元32以及合成正樣本建立單元33,其中,
正樣本選取單元31,可以用于從不平衡樣本集中選取一個正樣本;
樣本集合選取單元32,可以用于以一個正樣本為基準,從樣本空間中選取與一個正樣本相鄰的樣本集合,樣本集合中包含負樣本和/或正樣本;
合成正樣本建立單元33,可以用于根據一個正樣本與樣本集合中的樣本在樣本空間中分別對應的特征和特征值,在一個正樣本與樣本集合中的樣本之間建立合成正樣本。
在一種實施方式中,樣本集生成單元53包括:判斷單元34、平衡樣本集生成單元35以及跳轉單元,其中,
判斷單元34,可以用于判斷合成正樣本與正樣本的數量之和與負樣本數量的比值是否在平衡閾值區間內;
平衡樣本集生成單元35,可以用于當判斷結果為是時,將合成正樣本修改為正樣本,生成平衡樣本集;
跳轉單元,可以用于當判斷結果為否,且小于所述平衡閾值區間的最小值時,跳轉執行所述樣本建立單元。
在一種實施方式中,樣本集合選取單元32,可以用于:
根據樣本數量比,以及一個正樣本在樣本空間中與至少一個正樣本之間的距離,確定相鄰距離閾值;
根據相鄰距離閾值以及樣本數量比,以一個正樣本為基準,從樣本空間中選取與一個正樣本相鄰的樣本集合。
在一種實施方式中,合成正樣本建立單元33,可以用于:
根據一個正樣本與樣本集合中的樣本在樣本空間中分別對應的特征值,在一個正樣本與樣本集合中的樣本的中間位置建立合成正樣本。
采用實施例5提供的該裝置,對于獲取到的不平衡樣本集,利用與正樣本相鄰的樣本建立與正樣本相關的樣本,從而提高了平衡樣本集的真實性。再根據真實性較高的平衡樣本集進行模型訓練,模型的性能也會得到提升。
實施例6
現有技術,對個人信用的評分方法是基于簡單的規則,比如,新的個人信用分數為1,如果當月按期還款,則在原有基礎上加0.1的分數,當季度基、當半年、當年全部按期還款,會有分數不等的加成。但是隨著大數據時代的到來,這種簡單的評分方法已經不能適應大數據、多維度、多場景的信用評分要求。所以基于與前述實施例相同的發明構思,實施例6提供了一種個人信用評分系統,用于提高個人信用評分的真實性。圖14為該系統的結構框圖,該系統包括:
原始個人信用建立系統61、樣本平衡系統62、信用模型訓練系統63、個人信用評分系統64,其中,
原始個人信用建立系統61,可以用于根據用戶對應的特征和特征值,建立原始個人信用樣本集。
比如,可以在當日獲取還款日為前一日的所有用戶在前個月對應的特征和特征值,建立原始個人信用樣本集。具體地,還款日為10日,在9月11日時,獲取用戶在8月11日至9月10日的信用數據以及對應的信用記錄(逾期或非逾期)。
樣本平衡系統62,可以用于對原始個人信用樣本集進行樣本平衡。
由于逾期畢竟是少數,所以可以根據實施例1中的平衡樣本的方式,對原始個人信用樣本集進行平衡。
信用模型訓練系統63,可以用于根據平衡后的個人信用樣本集訓練信用模型。
個人信用評分系統64,可以用于根據用戶對應的特征和特征值,利用信 用模型對用戶的逾期情況進行預測,并根據預測結果進行個人信用評分。
比如,可以在還款日的前若干天,根據用戶當月的信用數據,利用信用模型,對用戶的逾期情況進行預測,比如99%會還款,或72%會還款,根據預測的結果,可以在原有分數的基礎上進行加成,可以利用邏輯回歸算法,計算分值,具體比如95%以上,可以加1分,60%以下,會減1分,等等。
采用實施例4提供的該系統,由于按照本申請的平衡樣本的方法對不平衡的原始個人信用樣本集進行平衡,即修正,形成更加真實的多維度的平衡樣本,所以相對于現技術僅靠簡單的規則進行評分而言,提高了個人信用分數的真實性,也就更能真實地體現用戶的信用度。
本領域內的技術人員應明白,本申請的實施例可提供為方法、系統、或計算機程序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
本申請是參照根據本申請實施例的方法、設備(系統)、和計算機程序產品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合。可提供這些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數據處理設備的處理器以產生一個機器,使得通過計算機或其他可編程數據處理設備的處理器執行的指令產生用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數據處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產生包括指令裝置的制造品,該指令裝置實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數據處理設備上,使得在計算機或其他可編程設備上執行一系列操作步驟以產生計算機實現的處理,從而在計算機或其他可編程設備上執行的指令提供用于實現在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
在一個典型的配置中,計算設備包括一個或多個處理器(CPU)、輸入/輸出接口、網絡接口和內存。
內存可能包括計算機可讀介質中的非永久性存儲器,隨機存取存儲器(RAM)和/或非易失性內存等形式,如只讀存儲器(ROM)或閃存(flash RAM)。內存是計算機可讀介質的示例。
計算機可讀介質包括永久性和非永久性、可移動和非可移動媒體可以由任何方法或技術來實現信息存儲。信息可以是計算機可讀指令、數據結構、程序的模塊或其他數據。計算機的存儲介質的例子包括,但不限于相變內存(PRAM)、靜態隨機存取存儲器(SRAM)、動態隨機存取存儲器(DRAM)、其他類型的隨機存取存儲器(RAM)、只讀存儲器(ROM)、電可擦除可編程只讀存儲器(EEPROM)、快閃記憶體或其他內存技術、只讀光盤只讀存儲器(CD-ROM)、數字多功能光盤(DVD)或其他光學存儲、磁盒式磁帶,磁帶磁磁盤存儲或其他磁性存儲設備或任何其他非傳輸介質,可用于存儲可以被計算設備訪問的信息。按照本文中的界定,計算機可讀介質不包括暫存電腦可讀媒體(transitory media),如調制的數據信號和載波。
還需要說明的是,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括要素的過程、方法、商品或者設備中還存在另外的相同要素。
本領域技術人員應明白,本申請的實施例可提供為方法、系統或計算機程 序產品。因此,本申請可采用完全硬件實施例、完全軟件實施例或結合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(包括但不限于磁盤存儲器、CD-ROM、光學存儲器等)上實施的計算機程序產品的形式。
以上僅為本申請的實施例而已,并不用于限制本申請。對于本領域技術人員來說,本申請可以有各種更改和變化。凡在本申請的精神和原理之內所作的任何修改、等同替換、改進等,均應包含在本申請的權利要求范圍之內。