一種基于支持向量機的分類方法及裝置的制造方法
【技術領域】
[0001] 本申請設及電子信息領域,尤其設及一種基于支持向量機的分類方法及裝置。
【背景技術】
[0002] 在信用等級的分類過程中,雖然實際中通常使用基于邏輯回歸的分類方法,但是 有研究已經表明,基于支持向量機的分類方法更為有效。
[0003] 通常情況下,用于信用評分的變量的數量較多,且隨著實際需求,用于信用評分的 變量會越來越多,而導致支持向量機出現維度災難的問題,所謂維度災難是指當變量的數 目不斷增加時,越來越多的變量將具有多重共線性,即它們之間的相關系數變大,但在高維 空間中,采樣點的分布會變得稀疏,從而影響分類效果的一種現象。
[0004] 可見,如何避免支持向量機的維度災難,從而提高分類準確性,成為目前亟待解決 的問題。
【發明內容】
[0005] 本申請提供了一種基于支持向量機的分類方法及裝置,目的在于解決如何避免支 持向量機的維度災難,從而提高分類準確性的問題。
[0006] 為了實現上述目的,本申請提供了W下技術方案:
[0007] 一種基于支持向量機的分類方法,包括:
[0008] 獲取標準化的分類樣本X。X2,…,X。;
[0009] 將所述分類樣本進行正交化處理,得到正交分類樣本Zi,Z2'''z,,s《n,其中,Zi =Xi,Z2'''Z,依據W下方式獲取;使用規則j分別對Xj.…Xji行變換,得到第i組中間變量 將所述第i組中間變量中方差值最大的變量作為Zj,j= 2,…,S,i= 2,…,S-1 ;
[0010] 將所述正交分類樣本作為支持向量機的輸入變量,使用所述支持向量機計算所述 分類樣本的分類結果。
[0011] 可選地,在s<n的情況下,S的確定過程包括;
[001引依據W下方式獲取Zw'''z。;使用規則P分別對Xp…X。進行變換,得到第m組中 間變量ZpU…Z。-,將所述第m組中間變量中方差值最大的變量作為Zp,P=S+1,…,n,m= s,…,n-1 ;
[0013] 計算Zi…Zn的方差總和;
[0014] 從Zi開始按照Z1…Z。的順序每次累加一個正交樣本,如果Z1+Z2+…+Zy的方差總 和與Zi,Z2…Z。的方差總和之比大于預設闊值,則確定S的值為y,其中,1《^s。
[0015] 可選地,所述正交變量z/…z/中任意一個正交變量的方差的計算過程包括:
[0016] 使用
【主權項】
1. 一種基于支持向量機的分類方法,其特征在于,包括: 獲取標準化的分類樣本X1, χ2,…,Xn; 將所述分類樣本進行正交化處理,得到正交分類樣本Z1, ZfZs, s < n,其中,Z1= X P z2~23依據以下方式獲取:使用規則j分別對X彡·· Xn?行變換,得到第i組中間變量z/… ζΛ將所述第i組中間變量中方差值最大的變量作為ζ」,j = 2,…,s,i = 2,…,s-1 ; 將所述正交分類樣本作為支持向量機的輸入變量,使用所述支持向量機計算所述分類 樣本的分類結果。
2. 根據權利要求1所述的方法,其特征在于,在s〈n的情況下,s的確定過程包括: 依據以下方式獲取zs+1··· \:使用規則p分別對X Xn?行變換,得到第m組中間變量 zpm~znm,將所述第m組中間變量中方差值最大的變量作為z p,p = S+1,…,n,m = S,…,n-1 ; 計算Zl~zn的方差總和; 從始按照Z i··· Zn的順序每次累加一個正交樣本,如果Z i+Zf···+Zy的方差總和與 Z1, Zf 方差總和之比大于預設閾值,則確定s的值為y,其中,1彡y〈s。
3. 根據權利要求2所述的方法,其特征在于,所述正交變量z /··· z/中任意一個正交變 量的方差的i+笪?寸包栝, 使用
計算正交變量Zj1-Zs 1中任意一個正交變量的方差, 其中,r表示所述變量之間的相關系數,k的取值為所述標準化的分類樣本的個數。
4. 根據權利要求2或3所述的方法,其特征在于,所述規則j包括:
5. 根據權利要求1所述的方法,其特征在于,所述將所述正交分類樣本作為支持向量 機的輸入變量,使用所述支持向量機計算所述分類樣本的分類結果包括: 計算如下二次規劃問題:
6. 根據權利要求1所述的方法,其特征在于,在所述將所述分類樣本進行正交化處理, 得到正交分類樣本Zl,Z s之前,還包括: 將所述標準化的分類樣本Xl,X2,…,\進行排序,使得其中方差最大的樣本作為X i。
7. -種基于支持向量機的分類裝置,其特征在于,包括: 樣本獲取模塊,用于獲取標準化的分類樣本Xl,X2,…,xn; 正交化模塊,用于將所述分類樣本進行正交化處理,得到正交分類樣本Zl,z2··· zs, s彡n,其中,Z1= X p Zf Zs^據以下方式獲取:使用規則j分別對X j…xn?行變換,得到 第1組中間變量2/-^丄將所述第1組中間變量中方差值最大的變量作為\,」=2,~,8, i = 2,…,s-1 ; 分類模塊,用于將所述正交分類樣本作為支持向量機的輸入變量,使用所述支持向量 機計算所述分類樣本的分類結果。
8. 根據權利要求7所述的裝置,其特征在于,所述正交化模塊還用于: 在s〈n的情況下,按照以下過程確定s : 依據以下方式獲取zs+1··· \:使用規則p分別對X Xn?行變換,得到第m組中間變量 zpm~znm,將所述第m組中間變量中方差值最大的變量作為z p,p = S+1,…,n,m = S,…,η-I ; 計算Zl~zn的方差總和; 從始按照Z i··· Zn的順序每次累加一個正交樣本,如果Z i+Zf···+Zy的方差總和與 Z1, Zf 方差總和之比大于預設閾值,則確定s的值為y,其中,1彡y〈s。
9. 根據權利要求8所述的裝置,其特征在于,所述正交化模塊還用于: 按照以下過程,計算所述正交變量z/…z/中任意一個正交變量的方差: 使用
計算正交變量z/…z/中任意一個正交變量的方差,其 中,r表示所述變量之間的相關系數,k的取值為所述標準化的分類樣本的個數。
10. 根據權利要求8或9所述的裝置,其特征在于,所述正交化模塊用于使用規則j分 別對X/·· Xn進行變換包括: 所述正交化模塊具體用于,使用規則j分別對χ/··χη?行變換,所述規則j包括:
所述正交化模塊用于使用規則P分別對X,· Xn進行變換包括: 所述正交化模塊具體用于,使用規則P分別對Xp~\進行變換,所述規則P包括:
11. 根據權利要求7所述的裝置,其特征在于,所述分類模塊用于將所述正交分類樣本 作為支持向量機的輸入變量,使用所述支持向量機計算所述分類樣本的分類結果包括: 所述分類模塊具體用于,計算如下二次規劃問題:
12. 根據權利要求7所述的裝置,其特征在于,還包括: 排序模塊,用于在所述將所述分類樣本進行正交化處理,得到正交分類樣本Zl,z2··· Zs 之前,將所述標準化的分類樣本Xl,X2,…,\進行排序,使得其中方差最大的樣本作為X i。
【專利摘要】本申請提供了一種基于支持向量機的分類方法及裝置,獲取樣本的正交化變量,將正交樣本作為支持向量機的輸入變量,因為原始樣本中具有相關性的樣本在經過正交變化后會變成零向量,因此,能夠減小樣本的維度,從而避免在使用支持向量機進行分類過程中產生維度災難,實現提高分類準確性的目的。
【IPC分類】G06Q40-00
【公開號】CN104867051
【申請號】CN201510337466
【發明人】韓璐, 趙宏偉
【申請人】韓璐
【公開日】2015年8月26日
【申請日】2015年6月17日