稅收可疑數據的提取方法及系統的制作方法
【技術領域】
[0001]本發明涉及數據處理技術領域,具體涉及一種提取稅收可疑數據的方法及系統。
【背景技術】
[0002]目前,隨著稅收業務的進一步擴大,稅收業務量不斷增加。為全面推行稅收執法責任制,進一步發揮信息化手段在執法督察中的作用,構建人機結合的稅收執法責任考核追究機制,強化對實體法稅收執法行為的監督,完成了疑點信息庫的開發。自疑點信息庫運行以來,2011年查處實體性執法問題71萬多個,各地對查出的問題通過問題整改、責任追究等措施,促進了基層規范執法,維護了稅收法律法規的權威。但是,現在的做法大多是在已有的疑點信息庫中通過人工進行篩查以確認真正的可疑數據,花費時間長,效率較低,且準確率亦較低。
【發明內容】
[0003]本發明實施例所要解決的技術問題在于提供了一種能更為準確的找出稅收可疑數據的方法,包括:
[0004]數據準備:將原始稅收數據樣本分割成若干數據子集,并將不同的數據子集提交給各SOM網絡進行同時學習;各個并行的SOM網絡對其分得的數據子集進行學習直至穩定;利用各個SOM的學習結果進行集中學習進而得到最終學習結果;
[0005]可疑數據分類器的訓練:訓練時所采用的算法為PSOM算法及SVM算法并用;所采用的輸入為訓練集T = [X ;Y],其中矩陣X的列Χ]表示第i個特征中的第j個的值,每一行X1是第i個特征的向量,元素I,表示第i個特征的類標簽;通過并用PSOM算法及SVM算法對所輸入的訓練集T = [X ;Y]進行運算后,得到的輸出包括兩個:第一個為X’,即矩陣X經過算法PSOM訓練結果的子集;第二個為PSOM-SVM分類機;以及
[0006]將要分類的數據輸入已經訓練好的分類器,得到分類結果,其中屬于錯誤類別的數據就是最后需要輸出的疑點數據,即被作為是稅收可疑數據。
[0007]進一步的,所述步驟“數據準備”中,利用以往存儲的正確數據和錯誤數據作為訓練樣本。
[0008]其中,根據稅收業務的實際情況,針對不同的稅收業務,需要進行不同的關鍵維度提取,所述關鍵維度包括稅收業務樣本的發生時間、寬限日期、用戶稅款、應補稅金、滯納金及稅務機關。
[0009]進一步的,所述步驟“可疑數據分類器的訓練”包括:
[0010]步驟S210:將數據集X按照分類或者隨機分割成η個子集X1;
[0011]步驟S220:利用矩陣S0M,并且M ^乍為訓練神經元的集合;
[0012]步驟S230:對于神經元HiiG Mi找到使Iiii是最佳匹配單元的特征集,設f ^是…在子集X1中的熟練度;
[0013]步驟S240:對于每個類子集X1,設Nj是所有滿足f # t條件神經元η郝集合,其中t是閾值;
[0014]步驟S250:對于每一個類重復步驟S230到步驟S240以獲得新的訓練集X’,其中X,= [N1U...U NJ ;
[0015]步驟S260:用X’再次集中訓練S0M,將M’作為神經元集合;
[0016]步驟S270:對于神經元Hi1G M’,找到使Hi1是最佳匹配單元的的特征集,設f ^是!!^在C1中的熟練度;
[0017]步驟S280:對于每個類Cj,設N;是所有滿足匕彡t條件神經元n s的集合,其中t是閾值;
[0018]步驟S290:對于集合N/,找到他所對應類別為Cj的最佳匹配單元S / ;
[0019]步驟S291:對于每一個類重復步驟S230到步驟S250以獲得新的訓練集X",其中X" = [S1' U...U S;];以及
[0020]步驟S292:用X"和所對應的類別標簽Y’訓練SVM。
[0021]其中,步驟S280 中,t = I。
[0022]本發明還提供了一種稅收可疑數據的提取系統,包括:
[0023]數據壓縮單元,用于對原始稅收收據進行壓縮;
[0024]分類器單元,用于對輸入的訓練集進行運算,以得到稅收可疑數據分類器;以及
[0025]可疑數據輸出單元,用于根據得到的稅收可疑數據分類器將稅收數據進行分類,并將其中屬于錯誤類別的數據作為稅收可疑數據。
[0026]其中,所述數據壓縮單元包括子集分割模塊及學習運算模塊,所述子集分割模塊用于將原始稅收數據分割成若干數據子集;所述學習運算模塊用于分布式學習及集中學習,其中分布式學習指對各個并行的SOM網絡所分得的數據子集進行學習直至穩定,集中學習指利用各個SOM的學習結果進行集中學習進而得到最終學習結果。
[0027]其中,所述子集分割模塊在將原始稅收數據分割成若干數據子集時,根據稅收業務的實際情況,針對不同的稅收業務,需要進行不同的關鍵維度提取,所述關鍵維度包括稅收業務樣本的發生時間、寬限日期、用戶稅款、應補稅金、滯納金及稅務機關。
[0028]其中,所述分類器單元包括輸入模塊、訓練運算模塊以及輸出模塊;所述輸入模塊用于輸入訓練集T = [X ;Y],其中矩陣X的列Χ]表示第i個特征中的第j個的值,每一行X ,是第i個特征的向量,元素Y1表示第i個特征的類標簽;所述訓練運算模塊用于通過并用PSOM算法及SVM算法對由所述輸入模塊所輸入的訓練集進行運算。
[0029]上述稅收可疑數據提取方法及系統利用了稅收執法系統中大量的歷史數據和典型違法數據進行神經網絡的訓練,獲得分類效果良好的分類器。通過不斷的調優,最后得到準確的分類效果,精確無誤的提取出稅收執法過程中的違法樣本,尤其是典型樣本。通過這種方法能夠有效地提高稅收疑點數據的準確率,有利于找出典型的稅收違法行為,提高疑點信息系統的警示作用,有利于督促基層稅收執法人員依法進行稅收工作,推進稅收工作的順利進行。
【附圖說明】
[0030]為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖;
[0031]圖1-圖4是本發明稅收可疑數據的提取方法的較佳實施方式的流程圖。
[0032]圖5是本發明稅收可疑數據的提取系統的較佳實施方式的方框圖。
【具體實施方式】
[0033]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0034]首先,在對實施例進行描述之前,有必要對本文中出現的一些術語進行解釋。例如:
[0035]本文中若出現使用“第一”、“第二”等術語來描述各種元件,但是這些元件不應當由這些術語所限制。這些術語僅用來區分一個元件和另一個元件。因此,“第一”元件也可以被稱為“第二”元件而不偏離本發明的教導。
[0036]另外,應當理解的是,當提及一元件“連接”或者“聯接”到另一元件時,其可以直接地連接或直接地聯接到另一元件或者也可以存在中間元件。相反地,當提及一元件“直接地連接”或“直接地聯接”到另一元件時,則不存在中間元件。
[0037]在本文中出現的各種術語僅僅用于描述具體的實施方式的目的而無意作為對本發明的限定。除非上下文另外清楚地指出,則單數形式意圖也包括復數形式。
[0038]當在本說明書中使用術語“包括”和/或“包括有”時,這些術語指明了所述特征、整體、步驟、操作、元件和/或部件的存在,但是也不排除一個以上其他特征、整體、步驟、操作、