一種數據離散化方法及系統的制作方法
【專利摘要】本發明實施例提供了一種數據離散化方法及系統,方法包括:獲得目標業務的業務數據,并確定業務數據的取值范圍,其中取值范圍對應有第一最大值和第一最小值;分別對第一最大值和第一最小值取自然對數,以得到第一最大值所對應的第二最大值和第一最小值所對應的第二最小值;對第二最大值和第二最小值所確定的區域進行K段等寬分段,并獲取各個分段點所對應的第二臨界值;對各個分段所對應的第二臨界值取自然指數,以得到第二臨界值所對應的第一臨界值;利用第一臨界值對取值范圍進行分段,以得到目標分段區間;獲得處于目標分段區間內的目標業務數據。應用本發明實施例,在降低數據離散化處理的計算強度的同時,提高所建模型的精度。
【專利說明】
_種數據禹散化方法及系統
技術領域
[0001] 本發明涉及數據分析技術領域,特別是涉及一種數據離散化方法及系統。
【背景技術】
[0002] 在信息化時代,數據庫變得越來越大,人們迫切的需要對龐大的數據庫進行數據 挖掘,以得到有價值的知識,并根據該有價值的知識制定相應的決策。而很大一部分數據挖 掘算法只能夠對離散化數值進行處理。目前常見的無監督離散化方法主要有等寬分箱法、 等深分箱法和基于經驗的自定義法,但是這三種離散化方法均存在一定的缺陷,從而導致 所構建的數據挖掘模型并不是很準確。
[0003] 例如,某報社想要得到訂閱刊物兩年的客戶與訂閱刊物一年的客戶的數量之間的 關系,并基于這個關系預測下一年度訂閱刊物為一年的客戶在第二年持續訂閱的可能性。 則針對客戶訂閱刊物時間這一連續屬性,可利用等寬分箱法以一個年度作為一個分箱將訂 閱刊物時間進行離散化,具體將1年以下的客戶劃分成一組,1-2年的客戶為一組,2-3年為 一組等等,進而將刊物訂閱人數這一觀測數據進行離散化,并基于這些離散化數據構建相 應的數據挖掘模型,從而預測得到上述所提到的可能性。但是,通過這種等寬分箱方法得到 的每個分箱中的刊物訂閱數不一定相同,也就是說,等寬分箱法傾向于把實例不均勻地分 布到各個箱中;另外,在正態分布呈現左偏化和長尾效應的應用場景中,將實例按照等寬分 箱法進行離散化后,往往在低值區分布較多的實例而高值區分布的實例較少,而該種分布 情況并不符合中值區實例多,低值區和高值區分布的實例少的自然規律,使得對低值區的 實例區分度較低,進而會降低離散化后建模的效果。
[0004] 針對上述例子,假設在三年內報社的刊物訂閱人數有5萬人,可利用等深分箱法將 訂閱人數按照訂閱時間升序排列,但是分箱數難以確定,需要通過實際測試得到較優的分 箱數,計算復雜度較高;若假設較優分箱數為10,則將每5000訂閱人數作為一個分箱將5萬 人進行10分箱,能較好地區分低值區,但可能將同一個訂閱時間的訂閱的人數的分入不同 的箱中以滿足箱中實例的固定個數,且訂閱時間的分段臨界點也不穩定,不適用于實時性 要求較高的場景。
[0005] 而基于經驗的自定義法,對專家自身的業務經驗及判斷能力要求較高,且缺乏理 論指導,應用面窄,無法應用在大規模數據、自動化建模的場景下。
[0006] 因此,亟需提供一種新的數據離散化方案,以使數據離散化更符合自然規律,在降 低數據離散化處理的計算強度的同時,提高所建模型的精度。
【發明內容】
[0007] 本發明實施例的目的在于提供一種數據離散化方法及系統,以使數據離散化更符 合自然規律,在降低數據離散化處理的計算強度的同時,提高所建模型的精度。具體技術方 案如下:
[0008] 第一方面,本發明實施例提供了 一種數據離散化方法,所述方法可以包括:
[0009] 獲得目標業務的業務數據,并確定所述業務數據的取值范圍,其中,所述取值范圍 對應有第一最大值和第一最小值;
[0010] 分別對所述第一最大值和所述第一最小值取自然對數,得到所述第一最大值所對 應的第二最大值和所述第一最小值所對應的第二最小值;
[0011] 對所述第二最大值和所述第二最小值所確定的區域進行K段等寬分段,并獲取各 個分段點所對應的第二臨界值;對所述各個分段點所對應的第二臨界值取自然指數,得到 所述第二臨界值所對應的第一臨界值;
[0012] 利用所述第一臨界值對所述取值范圍進行分段,得到目標分段區間;
[0013] 獲得處于所述目標分段區間內的目標業務數據,以利用所述目標業務數據構建所 述目標業務的數據挖掘模型。
[0014] 可選地,所述獲得目標業務的業務數據,并確定所述業務數據的取值范圍,可以包 括:
[0015] 獲得所述目標業務中的目標連續屬性所對應的業務數據;
[0016] 確定所述目標連續屬性所對應的業務數據的取值范圍。
[0017] 可選地,在所述確定所述業務數據的取值范圍前,所述方法還可以包括:
[0018] 將所述業務數據按照從小到大的順序進行排序;
[0019] 基于所述排序,刪除所述業務數據中的在第一預設比例范圍的最小數據,并刪除 所述業務數據中的在第二預設比例范圍的最大數據。
[0020] 可選地,在所述獲得處于所述目標分段區間內的目標業務數據后,所述方法還可 以包括:
[0021 ]為所述目標業務數據標識目標屬性值。
[0022] 第二方面,本發明實施例提供了一種數據離散化系統,所述系統可以包括:業務數 據確定單元、自然對數處理單元、自然指數處理單元、分段區間獲得單元和目標業務數據獲 得單元;
[0023] 所述業務數據確定單元,用于獲得目標業務的業務數據,并確定所述業務數據的 取值范圍,其中,所述取值范圍對應有第一最大值和第一最小值;
[0024] 所述自然對數處理單元,用于分別對所述第一最大值和所述第一最小值取自然對 數,得到所述第一最大值所對應的第二最大值和所述第一最小值所對應的第二最小值;
[0025] 所述自然指數處理單元,用于對所述第二最大值和所述第二最小值所確定的區域 進行K段等寬分段,并獲取各個分段點所對應的第二臨界值;對所述各個分段點所對應的第 二臨界值取自然指數,得到所述第二臨界值所對應的第一臨界值;
[0026] 所述分段區間獲得單元,用于利用所述第一臨界值對所述取值范圍進行分段,得 到目標分段區間;
[0027] 所述目標業務數據獲得單元,用于獲得處于所述目標分段區間內的目標業務數 據,以利用所述目標業務數據構建所述目標業務的數據挖掘模型。
[0028] 可選地,所述業務數據確定單元,可以包括:業務數據獲取子單元和取值范圍確定 子單元;
[0029] 所述業務數據獲取子單元,用于獲得所述目標業務中的目標連續屬性所對應的業 務數據;
[0030]所述取值范圍確定子單元,用于確定所述目標連續屬性所對應的業務數據的取值 范圍。
[0031 ]可選地,所述系統還可以包括:排序單元和刪除單元;
[0032] 所述排序單元,用于將所述業務數據按照從小到大的順序進行排序;
[0033] 所述刪除單元,用于基于所述排序,刪除所述業務數據中的在第一預設比例范圍 的最小數據,并刪除所述業務數據中的在第二預設比例范圍的最大數據。
[0034] 可選地,所述系統還可以包括:標識子單元;
[0035] 所述標識子單元,用于為所述目標業務數據標識目標屬性值。
[0036] 本發明實施例提供的數據離散化方法及系統,先確定所要實現的目標業務,并獲 取該目標業務的業務數據;并確定該業務數據的取值范圍和該取值范圍所對應的第一最大 值和第一最小值;并對該第一最大值和第一最小值取自然對數,得到對應的第二最大值和 第二最小值,并且通過該第二最大值和第二最小值確定一個區域;然后按照等寬分段的方 法對該區域進行K等分,K等分后獲取各個分段點對應的第二臨界值;之后取自然對數對第 二臨界值進行還原,并將得到第二臨界值所對應的第一臨界值映射到原始的取值范圍上, 實現該取值范圍的離散化,得到目標分段區間,進而可以將業務數據映射到對應的離散化 區間上,得到目標分段區間內的目標業務數據,并可以根據獲取得到的目標業務數據構建 數據挖掘模型。該種分段方式使得對連續屬性的離散化更符合自然規律,可提高所建模型 的精度,且計算簡單,有效的降低了計算資源的開銷。當然,實施本發明的任一產品或方法 并不一定需要同時達到以上所述的所有優點。
【附圖說明】
[0037] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以 根據這些附圖獲得其他的附圖。
[0038] 圖1為本發明實施例提供的數據離散化方法流程圖;
[0039] 圖2為本發明實施例提供的數據離散化系統結構示意圖;
[0040] 圖3為現有技術中基于等寬分段進行數據離散化的方法示意圖;
[0041 ]圖4為現有技術中基于等深分段進行數據離散化的方法示意圖;
[0042]圖5為本發明實施例中基于自然對數分段進行數據離散化的方法示意圖。
【具體實施方式】
[0043]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他 實施例,都屬于本發明保護的范圍。
[0044] 為了解決現有技術問題,本發明實施例提供了一種數據離散化方法及系統。
[0045] 可以理解的是,可通過終端中的硬件設備或者功能軟件實現本發明實施例所提供 的數據離散化方法,其中,實現本發明實施例所提供的數據離散化方法的功能軟件可以為 設置于終端中的專門的客戶端軟件,也可以為設置于終端中的現有客戶端軟件中的功能插 件,這都是合理的。其中,該終端可以為:服務器、筆記本電腦和平板電腦等設備。
[0046] 首先,對本發明實施例提供的數據離散化方法進行介紹。
[0047] 如圖1所示,本發明實施例提供的數據離散化方法,可以包括如下步驟:
[0048] S101:獲得目標業務的業務數據,并確定該業務數據的取值范圍,其中,該取值范 圍對應有第一最大值和第一最小值;
[0049] 其中,當需要對目標業務構建數據挖掘模型且需要獲取該目標業務的離散化數據 時,可先獲取該目標業務所對應的業務數據,在得到業務數據后,確定該業務數據的取值范 圍,即該業務數據所對應的取值區間,其中,在該取值區間對應有一個第一最大值和一個第 一最小值。
[0050] S102:分別對該第一最大值和該第一最小值取自然對數,得到該第一最大值所對 應的第二最大值和該第一最小值所對應的第二最小值;
[0051 ]其中,在獲得第一最大值和第一最小值后,對該第一最大值取自然對數得到第二 最大值,對該第一最小值取自然對數得到第二最小值,該種計算方式計算量較小,節約了計 算資源。其中,可以利用計算機中的CHJ計算得到該第二最大值和第二最小值。
[0052] S103:對該第二最大值和該第二最小值所確定的區域進行K段等寬分段,并獲取各 個分段點所對應的第二臨界值;對該各個分段點所對應的第二臨界值取自然指數,得到該 第二臨界值所對應的第一臨界值;
[0053]其中,由該第二最小值和該第二最大值確定一個取值區間,對該區間進行K段等寬 分段,即在對第一最小值和第一最大值取自然對數后,應用等寬分段方式對第二最小值和 第二最大值所確定的區間K等寬分段,有效的利用了等寬分段計算量小、不需要大量復雜的 運算的優點;另外,通過引入自然對數,將分段距離自然的分開,增大了低值區的區分度,避 免了利用等深分段所產生的分段臨界點不穩定,且計算量大的問題;而且通過取自然對數 且結合等寬分段的方式,使得分段更符合自然客觀事件的實際分布特征,能較好的完成對 業務數據進行離散化的目標;并在進行K段等寬分段后得到各個分段點所對應的第二臨界 值,然后對該第二臨界值取自然指數進行還原,得到第一臨界值。
[0054]需要強調的是,K為大于等于1的整數,并且K值可由技術人員根據具體情況進行設 定,在此不做詳述。
[0055] S104:利用該第一臨界值對該取值范圍進行分段,得到目標分段區間;
[0056] 其中,將獲得的第一臨界值對該業務數據所對應的取值范圍進行分段,得到至少 一個分段區間,并可根據目標業務的具體需求將指定分段區間確定為目標分段區間。
[0057] S105:獲得處于該目標分段區間內的目標業務數據,以利用該目標業務數據構建 該目標業務的數據挖掘模型。
[0058] 其中,將處于目標分段區間內的業務數據投映至該目標分段區間內,并將映射至 目標分段區間的業務數據作為目標業務數據,實現將目標業務的業務數據的離散化處理。 其中,在得到離散化的數據后,可利用該目標分段區間內所對應的目標業務數據構建數據 挖掘模型,使得所構建的數據挖掘模型所采用的數據更符合自然規律,所建立的數據挖掘 模型更準確。當然,并不局限于利用與構建數據挖掘模型。
[0059] 在本發明實施例中,先確定所要實現的目標業務,并獲取該目標業務的業務數據; 并確定該業務數據的取值范圍和該取值范圍所對應的第一最大值和第一最小值;并對該第 一最大值和第一最小值取自然對數,得到對應的第二最大值和第二最小值,并且通過該第 二最大值和第二最小值確定一個區域;然后按照等寬分段的方法對該區域進行K等分,K等 分后獲取各個分段點對應的第二臨界值;之后取自然對數對第二臨界值進行還原,并將得 到第二臨界值所對應的第一臨界值映射到原始的取值范圍上,實現該取值范圍的離散化, 得到目標分段區間,進而可以將業務數據映射到對應的離散化區間上,得到目標分段區間 內的目標業務數據,并可以根據獲取得到的目標業務數據構建數據挖掘模型。該種分段方 式使得對連續屬性的離散化更符合自然規律,可提高所建模型的精度,且計算簡單,有效的 降低了計算資源的開銷。
[0060]可選地,該獲得目標業務的業務數據,并確定該業務數據的取值范圍,可以包括: 獲得該目標業務中的目標連續屬性所對應的業務數據;確定該目標連續屬性所對應的業務 數據的取值范圍。
[0061 ]可以理解的是,在該種實現方式中,確定目標業務的目標連續屬性,并確定該目標 連續屬性所對應的業務數據,可以進一步的排除掉不需要的業務數據,進而能夠提高所建 模型的精度,同時也減少了計算量和存儲空間,進而確定該目標連續屬性所對應的業務數 據的取值范圍,進而再執行對該取值范圍所對應的第一最大值和第一最小值取自然對數等 步驟,最終實現對數據挖掘模型的構建。
[0062] 值得強調的是,該目標連續屬性包括但不局限于時間屬性。
[0063] 可選地,在該確定該業務數據的取值范圍前,還可以包括:將該業務數據按照從小 到大的順序進行排序;基于該排序,刪除該業務數據中的在第一預設比例范圍的最小數據, 并刪除該業務數據中的在第二預設比例范圍的最大數據。
[0064] 可以理解的是,在該種實現方式中,在確定業務數據的取值范圍前,可以將該業務 數據按照從小到大的順序進行排列,并將在第一預設比例范圍內的最小數據和在第二預設 比例范圍的最大數據刪除,以避免突然出現的較大值的業務數據和較小值的業務數據對分 段結果產生較大影響,進而使得分段結果更準確。
[0065] 其中,該目標業務數據可以是目標業務所對應的所有業務數據,也可以是目標業 務中的目標連續屬性所對應的業務數據。
[0066] 需要強調的是,本領域的技術人員可根據實際情況設定該第一預設比例范圍和第 二預設比例范圍,在此不做限定。
[0067] 可選地,在該獲得處于該目標分段區間內的目標業務數據后,還可以包括:為該目 標業務數據標識目標屬性值。
[0068] 可以理解的是,在該種實現方式中,在得到目標業務數據后,當不需要了解目標業 務數據的本身值,而只需要了解目標業務數據的相對屬性(例如相對大小)時,可對該目標 業務數據標識目標屬性值(例如編號值),以用該目標屬性值代替實際的目標業務數據的數 值,并可基于該目標業務數據和該目標屬性值,構建該目標業務對應的數據挖掘模型,可極 大的減少計算量,節省計算資源和存儲資源。
[0069] 下面,結合圖3至圖5,以及表一對本發明實施提供的數據離散化方法進行說明。
[0070] 例如,要對某目標業務的業務數據進行數據離散化處理,獲取得到目標業務所對 應的100個實例,其中,該100個實例中最大值為100,最小值為1。表一給出了三種分段方法。 其中,表一如下所示:
[0073]表一
[0074]其中,最大值與最小值的差值為極差。
[0075]其中,由表一可知,三種分段方法得到的結果并不相同,按照等寬分段方法將實例 x = 50歸入(X2,X3)所對應的分段;按照等深分段方法將x = 50歸入(X3,X4)所對應的分段;按 照本發明基于自然對數的方法將實例x = 50歸入(X4,X5)所對應的分段。
[0076] 具體地,圖3示出了由等寬分段方法所得到的離散化區間,由圖3可見,由[1,100] 所限定的區間被均分成5段,在高值區和中值區取了較少的實例,在低值區取了較多的實 例,將實例x = 50歸入(x2,X3)所對應的分段。
[0077] 圖4示出了由等深分段方法所得的離散化區間,每個分段內的實例數相等,分段臨 界點難以確定,且分段臨界點不穩定,所采集到的數據也不穩定。
[0078] 圖5示出了本發明實施例提供的基于自然對數分段所得到的離散化區間,該種分 段情況符合中值區實例多,低值區和高值區分布的實例少的自然規律,進而能提高離散化 的準確度,進而提高所建模型的準確度。
[0079] 其中,當存在M維數據集,并且任--維數據集中有N個實例的業務數據時,可利用 基于自然對數分段方法對所輸入的數據進行離散化處理,具體方法如下:
[0080] 對任意實例…,XN},比較其與當前最大值和最小值的大小關系;計算 Max{Xi,X2,…,Xn}(簡稱為Max)和Min{Xi,X2,…,Xn}(簡稱為Min);對Max和Min,分別計算 Max' =ln(Max)和Min' = ln(Min);對[Min',Max' ]所限定的區間,根據離散化參數K進行K等 寬分段,所得到的分段點的臨界值所構成的集合為:
[0081 ] {Min,,Min,+ (Max,_Min,)/K,…,Min,+ (K_l)(Max,_Min,)/K,Max'}
[0082]再對上述集合中的各個分段臨界值取自然指數,得出原始值域上的分段臨界值集 合為:
[0083] {eMin,,e(Min' + (Max'_Min')/K),…,e(in' + (K_l) (Max'-Min,)/K),eMax'}
[0084] 根據原始值域上的分段臨界值集合中的各個分段臨界值,將任意實例XGUi, X2,…,Xn}映射到所屬分段,完成尚散化過程。
[0085] 其次,對本發明實施例提供的一種數據離散化系統進行介紹。
[0086] 如圖2所示,本發明實施例提供的數據離散化系統可以包括:業務數據確定單元 201、自然對數處理單元202、自然指數處理單元203、分段區間獲得單元204和目標業務數據 獲得單元205;
[0087]該業務數據確定單元201,用于獲得目標業務的業務數據,并確定該業務數據的取 值范圍,其中,該取值范圍對應有第一最大值和第一最小值;
[0088]該自然對數處理單元202,用于分別對該第一最大值和該第一最小值取自然對數, 得到該第一最大值所對應的第二最大值和該第一最小值所對應的第二最小值;
[0089]該自然指數處理單元203,用于對該第二最大值和該第二最小值所確定的區域進 行K段等寬分段,并獲取各個分段點所對應的第二臨界值;對該各個分段所對應的第二臨界 值取自然指數,得到該第二臨界值所對應的第一臨界值;
[0090] 該分段區間獲得單元204,用于利用該第一臨界值對該取值范圍進行分段,得到目 標分段區間;
[0091] 該目標業務數據獲得單元205,用于獲得處于該目標分段區間內的目標業務數據, 以利用該目標業務數據構建該目標業務的數據挖掘模型。
[0092]在本發明實施例中,先確定所要實現的目標業務,并獲取該目標業務的業務數據; 并確定該業務數據的取值范圍和該取值范圍所對應的第一最大值和第一最小值;并對該第 一最大值和第一最小值取自然對數,得到對應的第二最大值和第二最小值,并且通過該第 二最大值和第二最小值確定一個區域;然后按照等寬分段的方法對該區域進行K等分,K等 分后獲取各個分段點對應的第二臨界值;之后取自然對數對第二臨界值進行還原,并將得 到第二臨界值所對應的第一臨界值映射到原始的取值范圍上,實現該取值范圍的離散化, 得到目標分段區間,進而可以將業務數據映射到對應的離散化區間上,得到目標分段區間 內的目標業務數據,并可以根據獲取得到的目標業務數據構建數據挖掘模型。該種分段方 式使得對連續屬性的離散化更符合自然規律,可提高所建模型的精度,且計算簡單,有效的 降低了計算資源的開銷。
[0093]可選地,該業務數據確定單元201,可以包括:業務數據獲取子單元和取值范圍確 定子單元;
[0094] 該業務數據獲取子單元,用于獲得該目標業務中的目標連續屬性所對應的業務數 據;
[0095] 該取值范圍確定子單元,用于確定該目標連續屬性所對應的業務數據的取值范 圍。
[0096] 可選地,該系統還可以包括:排序單元和刪除單元;
[0097] 該排序單元,用于將該業務數據按照從小到大的順序進行排序;
[0098] 該刪除單元,用于基于該排序,刪除該業務數據中的在第一預設比例范圍的最小 數據,并刪除該業務數據中的在第二預設比例范圍的最大數據。
[0099] 可選地,該系統還可以包括:標識子單元;
[0100] 該標識子單元,用于為該目標業務數據標識目標屬性值。
[0101]對于裝置實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關 之處參見方法實施例的部分說明即可。
[0102] 需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實 體或者操作與另一個實體或操作區分開來,而不一定要求或者暗示這些實體或操作之間存 在任何這種實際的關系或者順序。而且,術語"包括"、"包含"或者其任何其他變體意在涵蓋 非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要 素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備 所固有的要素。在沒有更多限制的情況下,由語句"包括一個……"限定的要素,并不排除在 包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
[0103] 本說明書中的各個實施例均采用相關的方式描述,各個實施例之間相同相似的部 分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統實 施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關之處參見方法實施例 的部分說明即可。
[0104] 以上所述僅為本發明的較佳實施例而已,并非用于限定本發明的保護范圍。凡在 本發明的精神和原則之內所作的任何修改、等同替換、改進等,均包含在本發明的保護范圍 內。
【主權項】
1. 一種數據離散化方法,其特征在于,所述方法包括: 獲得目標業務的業務數據,并確定所述業務數據的取值范圍,其中,所述取值范圍對應 有第一最大值和第一最小值; 分別對所述第一最大值和所述第一最小值取自然對數,得到所述第一最大值所對應的 第二最大值和所述第一最小值所對應的第二最小值; 對所述第二最大值和所述第二最小值所確定的區域進行K段等寬分段,并獲取各個分 段點所對應的第二臨界值;對所述各個分段點所對應的第二臨界值取自然指數,得到所述 第二臨界值所對應的第一臨界值; 利用所述第一臨界值對所述取值范圍進行分段,得到目標分段區間; 獲得處于所述目標分段區間內的目標業務數據,以利用所述目標業務數據構建所述目 標業務的數據挖掘模型。2. 根據權利要求1所述的方法,其特征在于,所述獲得目標業務的業務數據,并確定所 述業務數據的取值范圍,包括: 獲得所述目標業務中的目標連續屬性所對應的業務數據; 確定所述目標連續屬性所對應的業務數據的取值范圍。3. 根據權利要求1所述的方法,其特征在于,在所述確定所述業務數據的取值范圍前, 所述方法還包括: 將所述業務數據按照從小到大的順序進行排序; 基于所述排序,刪除所述業務數據中的在第一預設比例范圍的最小數據,并刪除所述 業務數據中的在第二預設比例范圍的最大數據。4. 根據權利要求1-3中任一項所述的方法,其特征在于,在所述獲得處于所述目標分段 區間內的目標業務數據后,所述方法還包括: 為所述目標業務數據標識目標屬性值。5. -種數據離散化系統,其特征在于,所述系統包括: 業務數據確定單元,用于獲得目標業務的業務數據,并確定所述業務數據的取值范圍, 其中,所述取值范圍對應有第一最大值和第一最小值; 自然對數處理單元,用于分別對所述第一最大值和所述第一最小值取自然對數,得到 所述第一最大值所對應的第二最大值和所述第一最小值所對應的第二最小值; 自然指數處理單元,用于對所述第二最大值和所述第二最小值所確定的區域進行K段 等寬分段,并獲取各個分段點所對應的第二臨界值;對所述各個分段點所對應的第二臨界 值取自然指數,得到所述第二臨界值所對應的第一臨界值; 分段區間獲得單元,用于利用所述第一臨界值對所述取值范圍進行分段,得到目標分 段區間; 目標業務數據獲得單元,用于獲得處于所述目標分段區間內的目標業務數據,以利用 所述目標業務數據構建所述目標業務的數據挖掘模型。6. 根據權利要求5所述的系統,其特征在于,所述業務數據確定單元,包括: 業務數據獲取子單元,用于獲得所述目標業務中的目標連續屬性所對應的業務數據; 取值范圍確定子單元,用于確定所述目標連續屬性所對應的業務數據的取值范圍。7. 根據權利要求5所述的系統,其特征在于,所述系統還包括: 排序單元,用于將所述業務數據按照從小到大的順序進行排序; 刪除單元,用于基于所述排序,刪除所述業務數據中的在第一預設比例范圍的最小數 據,并刪除所述業務數據中的在第二預設比例范圍的最大數據。8.根據權利要求5-7中任一項所述的系統,其特征在于,所述系統還包括: 標識子單元,用于為所述目標業務數據標識目標屬性值。
【文檔編號】G06F17/30GK106055669SQ201610391085
【公開日】2016年10月26日
【申請日】2016年6月3日
【發明人】牛琨, 高志鵬
【申請人】北京郵電大學