數據校驗方法和裝置的制造方法
【技術領域】
[0001]本發明涉及數據處理技術領域,特別涉及一種數據校驗方法和裝置。
【背景技術】
[0002]在一些數據處理系統中需要對用戶輸入的數據進行校驗,以避免因用戶輸入錯誤的數據影響后續數據處理。例如,對于大數據應用來說,數據的采集是系統不可缺少的組成部分。例如,在大數據分析系統中,數據的采集位于系統的最前端,也是后續分析和展示的基礎。因此,數據的有效性直接關系到后續的分析和處理。
[0003]然而,對于數據采集系統來說,如何確定用戶的輸入數據或者采集數據是否正確,十分困難。目前大多系統只是對采集數據做一個非常粗范的有效性檢查,例如,對數據格式(如只能輸入數字或者小數格式),或者對數據取值范圍進行限定。但是,對于一些采集指標,比如:經濟指標等,由于季節因素或者其他因素等,指標取值波動變化較大。如果對指標的取值范圍定義過小,會引起誤報,如果取值范圍定義過大,又會因范圍過大導致無法準確檢測到用戶輸入的錯誤數據。
[0004]特別是在指標多、需要用戶手動輸入數據的情況,輸入數據的準確性更加難以保證。因此,如何對用戶輸入的數據進行一個有效性的校驗,是一個有待解決的難題。
【發明內容】
[0005]本發明旨在至少在一定程度上解決上述技術問題。
[0006]為此,本發明的第一個目的在于提出一種數據校驗方法,能夠提高數據校驗的精度,提高輸入數據的可靠性。
[0007]本發明的第二個目的在于提出一種數據校驗裝置。
[0008]為達上述目的,根據本發明第一方面實施例提出了一種數據校驗方法,包括以下步驟:接收用戶輸入的數據,并獲取所述用戶輸入的數據的業務類型;根據所述業務類型選擇對應的預測算法,其中,所述預測算法是根據所述業務類型的歷史輸入數據訓練得到的;根據所述預測算法預測所述業務類型對應的輸入區間;判斷所述用戶輸入的數據是否在所述輸入區間之中;如果不在所述輸入區間之中,則確定所述用戶輸入的數據異常。
[0009]本發明實施例的數據校驗方法,在接收到用戶輸入的數據之后,可獲取該數據的業務類型,并根據業務類型選擇對應的預測算法預測輸入區間,如果用戶輸入的數據不在該輸入區間之中,則確定該數據異常,,由此,能夠加強不同應用場景下對用戶輸入的數據的合法性的檢查,減少因為輸入過程中誤操作導致的一些錯誤,提高數據校驗的精度,提高輸入數據的可靠性,減少較少通過人工進行異常數據檢查的工作量。
[0010]本發明第二方面實施例提出了一種數據校驗裝置,包括:接收模塊,用于接收用戶輸入的數據,并獲取所述用戶輸入的數據的業務類型;選擇模塊,用于根據所述業務類型選擇對應的預測算法,其中,所述預測算法是根據所述業務類型的歷史輸入數據訓練得到的;預測模塊,用于根據所述預測算法預測所述業務類型對應的輸入區間;判斷模塊,用于判斷所述用戶輸入的數據是否在所述輸入區間之中;確定模塊,用于當所述用戶輸入的數據不在所述輸入區間之中時,確定所述用戶輸入的數據異常。
[0011]本發明實施例的數據校驗裝置,在接收到用戶輸入的數據之后,可獲取該數據的業務類型,并根據業務類型選擇對應的預測算法預測輸入區間,如果用戶輸入的數據不在該輸入區間之中,則確定該數據異常,,由此,能夠加強不同應用場景下對用戶輸入的數據的合法性的檢查,減少因為輸入過程中誤操作導致的一些錯誤,提高數據校驗的精度,提高輸入數據的可靠性,減少較少通過人工進行異常數據檢查的工作量。
[0012]本發明的附加方面和優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。
【附圖說明】
[0013]本發明的上述和/或附加的方面和優點從結合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0014]圖1為根據本發明一個實施例的數據校驗方法的流程圖;
[0015]圖2為根據本發明一個實施例中訓練預測算法的示意圖;
[0016]圖3為根據本發明一個具體實施例的數據校驗方法的流程圖;
[0017]圖4為根據本發明另一個實施例的數據校驗方法的流程圖;
[0018]圖5為根據本發明一個實施例的數據校驗裝置的結構示意圖;
[0019]圖6為根據本發明另一個實施例的數據校驗裝置的結構示意圖。
【具體實施方式】
[0020]下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能理解為對本發明的限制。
[0021]在本發明的描述中,需要理解的是,術語“多個”指兩個或兩個以上;術語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。
[0022]下面參考附圖描述根據本發明實施例的數據校驗方法和裝置。
[0023]圖1為根據本發明一個實施例的數據校驗方法的流程圖。
[0024]如圖1所示,根據本發明實施例的數據校驗方法,包括:
[0025]SlOl,接收用戶輸入的數據,并獲取用戶輸入的數據的業務類型。
[0026]數據錄入系統可提供輸入界面,輸入界面中可包括與不同業務對應的輸入框。當用戶在輸入框中輸入數據時,可根據輸入框對應的業務類型確定用戶輸入的數據的業務類型。
[0027]S102,根據業務類型選擇對應的預測算法,其中,預測算法是根據業務類型的歷史輸入數據訓練得到的。
[0028]具體地,可根據業務類型在預先建立的算法庫中查找對應的預測算法。
[0029]其中,算法庫中存儲了預先分別針對各個業務類型訓練的預測算法。因此,可根據用戶輸入的數據的業務類型從算法庫中選擇對應的預測算法。
[0030]在本發明的實施例中,還可包括訓練上述預測算法的過程。圖2為根據本發明一個實施例中訓練預測算法的示意圖。
[0031]具體地,首先可分別獲取各個業務類型對應的歷史輸入數據。由于各個業務類型對應的歷史輸入數據具有不同的取值特征,因此,可根據各個業務類型對應的的數據特征選擇相應的預測算法。對于一種業務類型,可根據該業務類型對應的歷史輸入數據分析出該業務類型的輸入數據的數據特征,即輸入數據的取值隨時間的變換規律。例如,隨時間變化不大、取值較穩定的特征,或者周期性變化特征,或者季節性變換特征等。
[0032]進而,可根據各個業務類型對應的數據特征,分別選擇適合該數據特征的時間序列算法。舉例來說,對于輸入數據變化不大、取值區間較穩定的業務類型,可選擇簡單序時平均數法;而對于具有周期性變換或季節性變化特征的業務類型,則可選擇季節趨勢預測法。
[0033]然后,對于各個業務類型,可從各自的歷史輸入數據中選擇一部分數據作為訓練數據,并根據各個業務類型的訓練數據分別進行訓練,以得到各個業務類型對應的時間序列算法的算法參數。
[0034]最后,對于各個業務類型,從各自的歷史輸入數據中選擇一部分數據作為驗證數據,并根據各個業務類型的驗證數據驗證各自對應的時間序列