數據降噪及分類方法、裝置及系統的制作方法
【專利摘要】本發明提供一種數據降噪及分類方法、裝置及系統,數據降噪及分類裝置包括:數據管理模塊,配置成導入一個或多個數據源,整合一個或多個數據源中的數據,并分為多個數據組儲存在數據庫中;特征生成模塊,配置成生成特征庫,特征庫包括多個特征組,特征組按如下步驟生成:生成多個特征,每個特征對應處理一個或多個數據組,每個特征包括特征條件及一個或多個關鍵內容;設置多個特征之間的關系,以生成特征組,特征組包括多個特征及多個特征之間的關系;設置對應特征組的數據處理類型;數據處理模塊,選擇特征、特征組或特征庫對儲存在數據庫中的數據標記噪音和/或數據分類。本發明提供的數據降噪及分類方法、裝置及系統可用于海量數據處理。
【專利說明】
數據降噪及分類方法、裝置及系統
技術領域
[0001]本發明涉及數據處理領域,尤其涉及一種數據降噪及分類方法、裝置及系統。
【背景技術】
[0002]在大數據時代,對于數據處理的需求越來越大。然而,在對于大量數據進行統計分析時,一般需要剔除一些干擾數據,例如對于海量社交數據進行處理時,必然存在大量噪音數據。一般情況下,通過語義、總結等方式形成的自動降噪清洗機制為了避免誤刪有用數據,所以相對會粗略一些,若要進行進一步精細處理,還需要人工來進行處理。
[0003]另外,面對海量數據的降噪清洗,人工處理沒有專用工具。對于進行數據降噪分類處理的人員,有各種技術要求。例如,進行數據降噪分類處理的人員需要其能夠具有數據編程及數據庫指令相關知識。同時,由于數據量大,還有設備硬件性能的要求,無法更大范圍的普及對大數據的處理工作。
【發明內容】
[0004]本發明為了克服上述現有技術存在的缺陷,提供一種數據降噪及分類方法、裝置及系統,便于海量數據處理。
[0005]根據本發明的一個方面,提供一種數據降噪及分類裝置,包括:數據管理模塊,配置成導入一個或多個數據源,整合所述一個或多個數據源中的數據,并分為多個數據組儲存在數據庫中;特征生成模塊,配置成生成特征庫,所述特征庫包括多個特征組,所述特征組按如下步驟生成:生成多個特征,每個所述特征對應處理一個或多個數據組,每個所述特征包括特征條件及一個或多個關鍵內容;設置所述多個特征之間的關系,以生成所述特征組,所述特征組包括所述多個特征及所述多個特征之間的關系;設置對應所述特征組的數據處理類型;數據處理模塊,選擇所述特征、所述特征組或所述特征庫對儲存在所述數據庫中的數據標記噪音和/或數據分類。
[0006]根據本發明的又一方面,還提供一種數據降噪及分類系統,包括:數據庫,儲存一個或多個數據源的數據;多個上所述的數據降噪及分類裝置,每個所述數據降噪及分類裝置還包括:特征庫管理與共享模塊,配置成管理該數據降噪及分類裝置的特征庫,并與其他數據降噪及分類裝置共享特征庫;主處理裝置,配置成將數據處理任務分配給多個數據降噪及分類裝置來執行。
[0007]優選地,所述主處理裝置為多個所述數據降噪及分類裝置中的一個。
[0008]優選地,每個所述數據降噪及分類裝置還包括:網絡模塊,配置成與所述主處理裝置及所述數據庫通信。
[0009]根據本發明的又一方面,還提供一種數據降噪及分類方法,包括:導入一個或多個數據源,整合所述一個或多個數據源中的數據,并分為多個數據組儲存在數據庫中;生成特征庫,所述特征庫包括多個特征組,所述特征組按如下步驟生成:生成多個特征,每個所述特征對應處理一個或多個數據組,每個所述特征包括特征條件及一個或多個關鍵內容;設置所述多個特征之間的關系,以生成所述特征組,所述特征組包括所述多個特征及所述多個特征之間的關系;設置對應所述特征組的數據處理類型;選擇所述特征、所述特征組或所述特征庫對儲存在所述數據庫中的數據進行處理。
[0010]優選地,儲存在所述數據庫的數據為文字、音頻、圖片或視頻;所述關鍵內容為關鍵詞、關鍵音頻、關鍵圖片或關鍵視頻。
[0011]優選地,所述特征庫、所述特征組及所述特征分別包括對應所述特征庫、所述特征組及所述特征的名稱和注釋信息,選擇所述特征、所述特征組或所述特征庫對儲存在所述數據庫中的數據進行處理還包括:顯示所述特征庫、所述特征組及所述特征的名稱和注釋
?目息O
[0012]優選地,所述特征條件包括:包含、不包含、大于、小于、等于、大于等于、小于等于、以對應關鍵內容開頭、以對應關鍵內容結尾、與對應關鍵內容相似及與對應關鍵內容不相似。
[0013]優選地,所述數據處理類型包括:刪除、標記噪音、數據分類。
[0014]相比現有技術,本發明具有如下優勢:
[0015]1、降低硬件成本,使大量數據的降噪分類處理可以在低配置的計算機上進行;
[0016]2、數據進行降噪分類處理后,可用于各種數據分析,降低時間成本,靈活性強,無需針對特定的數據分析進行數據開發,研究撰寫專用的軟件系統,工作成果復用性更高
[0017]3、利用多個數據降噪及分類裝置并行處理數據降噪和分類,提高數據降噪和分類的效率,有效使用系統中空閑的數據降噪及分類裝置。
[0018]4、降低大量數據降噪及分類時的人力成本,無需數據降噪及分類的人員具有數據編程及數據庫指令相關知識。
【附圖說明】
[0019]通過參照附圖詳細描述其示例實施方式,本發明的上述和其它特征及優點將變得更加明顯。
[0020]圖1示出了根據本發明實施例的數據降噪及分類方法的流程圖。
[0021 ]圖2示出了根據本發明實施例數據儲存的示意圖。
[0022]圖3示出了根據本發明實施例的數據降噪及分類裝置的示意圖。
[0023]圖4示出了根據本發明實施例的數據降噪及分類系統的示意圖。
[0024]圖5示出了根據圖4中數據降噪及分類系統的數據降噪及分類裝置的示意圖。
【具體實施方式】
[0025]現在將參考附圖更全面地描述示例實施方式。然而,示例實施方式能夠以多種形式實施,且不應被理解為限于在此闡述的實施方式;相反,提供這些實施方式使得本發明將全面和完整,并將示例實施方式的構思全面地傳達給本領域的技術人員。在圖中相同的附圖標記表示相同或類似的結構,因而將省略對它們的重復描述。
[0026]為了解決現有技術中,大量數據處理降噪及分類對數據處理裝置硬件要求高,對數據處理人員的專業要求高的問題,本發明提供一種數據降噪及分類方法。具體參考圖1,圖1示出了根據本發明實施例的數據降噪及分類方法的流程圖,并具體示出了 3個步驟。
[0027]步驟S110:導入一個或多個數據源,整合一個或多個數據源中的數據,并分為多個數據組儲存在數據庫中。
[0028]具體而言,導入一個或多個數據源可以包括訪問社交網站服務器并獲取數據源、以一個或多個關鍵詞從搜索引擎網站服務器導入相關網頁數據作為數據源、導入本地服務器中的數據等。本領域技術人員可以實現更多導入數據源的方式。導入一個或多個數據源后,將該一個或多個數據源中的數據進行整合。例如,對多個數據源中的數據按相同的儲存格式進行儲存。又例如,將多個數據源中的數據進行初步分類,并按諸如文本、音頻、圖像及視頻等不同數據類型進行儲存。整合后,將一個或多個數據源中的數據分為多個數據組儲存在數據庫中。
[0029]具體而言,可以按數據表的形式將數據儲存在數據庫中,如圖2所示。在圖2所示的數據表中,每一列代表一個數據組。在一些變化例中,一個數據組可以以行為單位。在又一些變化例中,一個數據組可以以多列或者多行為單位。在圖2中,A列數據(A組數據)中的Tl、T2、T3等為文本數據;B列數據(B組數據)中的P1、P2、P3等為圖像數據;C列數據(C組數據)中的A1、A2、A3等為音頻數據;D列數據(D組數據)中的V1、V2、V3等為視頻數據。
[0030]除了圖2中按數據類型進行分組儲存的數據表外,數據也可以按其他屬性進行分組。例如,可以按不同的數據源進行分組,例如,A列數據為從微博服務器獲得的數據,B列數據為從微信服務器獲得的數據,C列數據為從百度服務器獲得的數據等。又例如,可以按不同的話題進行分組,例如,A列數據為以“A”為搜索詞在百度進行搜索后獲得的數據,B列數據為以“B”為搜索詞在百度進行搜索后獲得的數據,C列數據為以“C”為搜索詞在百度進行搜索后獲得的數據。
[0031]除了數據表,一個或多個數據源中的數據也可按其他方式進行儲存,本領域技術人員可以實現更多的變化方式,例如,可以還可以將數據分片、分頁或分表進行讀取或存儲,這些變化方式都在本發明的保護范圍內。
[0032]步驟S120:生成特征庫。
[0033]具體而言,本發明按如下步驟生成特征庫:
[0034]步驟1:創建特征庫。在創建特征庫時,還可以輸入特征庫名稱、所屬分類及該特征庫的注釋。輸入的特征庫名稱供操作人員辨別不同的特征庫。所屬分類及特征庫的注釋供操作人員可以獲知該特征庫的具體功能。
[0035]步驟2:在新建的特征庫下創建特征組。在創建特征組時,還可以輸入特征組名稱及該特征組的注釋。輸入的特征組名稱供操作人員辨別不同的特征組。特征組的注釋供操作人員可以獲知該特征組的具體功能。具體而言,特征組包括多個特征及多個特征之間的關系。通過如下步驟創建特征組的多個特征:
[0036]步驟I:新建一條空白的特征;
[0037]步驟I1、選擇并指定針對處理的數據組;
[0038]步驟II1、選擇或輸入一種特征條件,設定一個或多個關鍵內容。
[0039]特征條件包括:包含、不包含、大于、小于、等于、大于等于、小于等于、以對應關鍵內容開頭、以對應關鍵內容結尾、與對應關鍵內容相似及與對應關鍵內容不相似等。
[0040]具體而言,由于待處理的數據可以為文字、音頻、圖片或視頻,相應地,上述關鍵內容也可以為關鍵詞、關鍵音頻、關鍵圖片或關鍵視頻。在一個實施例中,當待處理的數據為文字時,關鍵內容可以是關鍵詞。例如,結合上述特征條件,該特征可以是某一組或多組數據以所設定的“關鍵詞”開頭、以所設定的“關鍵詞”結尾。在又一些實施例中,當待處理數據為圖片時,關鍵內容可以是關鍵詞,也可以是關鍵圖片。例如,結合上述特征條件,該特征可以是某一組或多組數據以與“關鍵詞”相似、可以是某一組或多組數據以與“關鍵圖片”相似、可以是某一組或多組數據包含“關鍵圖片”相似。同樣地,可以創建對于音頻及視頻數據的特征。具體而言,圖像的處理判斷可以通過對圖像內像素分布、圖像形狀及圖像輪廓進行識別分析來進行。音頻的處理判斷可以通過對音頻內語音識別、聲紋、音頻強度等行識別分析來進行。同理,可以結合圖像和音頻的處理判斷來對視頻數據進行識別分析。
[0041]步驟IV:按步驟I至步驟III添加一條新的特征。并選擇步驟IV添加的特征和前一條特征的關系。此處所述的關系可以是“或者”或者“并且”。
[0042]步驟V:重復前面的上述步驟。
[0043]步驟V1:設置特征組的數據處理類型。數據處理類型可以是刪除、標記噪音和/或數據分類。具體而言,上述標記噪聲可以包括:定義為噪音及定義為非噪音。上述數據分類可以包括:將該數據分配到XX大類的XX小類下、將數據存入XX目錄等。在進行數據分類時,還可以包括分類復用。分類復用指的是在對數據進行分類,當按照數據處理類型進行執行時,分類復用是指當一條數據符合多個條件時,將一條數據重復存入多個分類。如果不進行復用則會將數據按第一個匹配的數據處理類型中。
[0044]按上述步驟I至步驟VI生成的特征組,例如可以是:當某數據表中的某行數據的A列數據包含“正品”,且B列數據中不包含“購買”,或C列數據中的數值小于“10”,并且D列數據以“淘寶”開頭,則將此行數據定義為噪音。
[0045]更具體地,上述僅示出特征、特征組及特征庫三個層級,本領域技術人員還可以根據實際數據處理需求設置更多的層級,例如還可以設置特征文檔,特征文檔包括多個特征庫。
[0046]本發明提供的數據降噪及分類方法主要輔助人工進行大量數據處理,用于在大量數據中精確批量處理數據,因此需要在特征的編寫過程中需要實時查看數據內容,查看編寫的特征執行效果。在本發明的一個實施例中,采用動態采樣的方式,以樣本執行的情況輔助用戶編寫。為提高樣本的有效性,本發明提供的數據降噪及分類方法優選地使用特征組中前序特征精確抽取樣本,樣本量可以是5萬至總數據量的5%。在本發明的另一些實施例中,若數據為圖片、音頻或視頻,則無需進行抽樣。
[0047]步驟S130:選擇特征、特征組或特征庫對儲存在數據庫中的數據進行處理。
[0048]具體而言,用戶可以根據所顯示的特征庫、特征組及特征的名稱和注釋信息進行選擇。由此可見,用戶僅需輸入、選擇等步驟,直接根據文字內容進行數據的降噪及分類處理,其無需具有編程和數據庫指令的知識,就可以完成大量數據的前期降噪及分類。
[0049]具體而言,上述特征庫生成的步驟、特征組生成的步驟及特征生成的步驟中可以隨時進行測試,以方便用戶根據執行結果對特征進行調整。此外,上述特征庫、特征組和/或特征的執行及測試可以根據數據儲存方式進行計算,并記錄進度,隨時暫停、繼續或終止。同時,還可以根據數據量預估進展和剩余時間。例如,通過已處理數據量及已處理時間來預估進展和剩余時間。
[0050]具體而言,上述經上述步驟S130處理后的數據,可再次進入步驟S130中進行處理,以這樣迭代處理的方式使得數據降噪和數據分類更加精細。上述特征庫、特征組和特征都可以反復使用,對于穩定供應的數據源,可以建立自動化處理機制,自動執行。
[0051]具體而言,還可以通過分布式協作的方式對數據進行降噪和分類。例如,多個進行數據降噪和分類的裝置屬于同一局域網,當局域網中有可進行數據降噪和分類的裝置處于空閑狀態時,可將任務在后臺分發到空閑的數據降噪和分類的裝置,利用空閑計算能力協作進行大量數據的分布處理來提升數據處理速度。當有多個進行數據降噪和分類的裝置協同處理時,還可以對不同用戶或進行數據降噪和分類的裝置進行特征庫的授權和互相調用。
[0052]根據上述方法,本發明還提供一種數據降噪及分類裝置,如圖3所示。數據降噪及分類裝置200包括數據管理模塊210、特征生成模塊220及數據處理模塊230。
[0053]數據管理模塊210執行上述步驟S110,配置成導入一個或多個數據源,整合一個或多個數據源中的數據,并分為多個數據組儲存在數據庫中。
[0054]特征生成模塊220執行上述步驟S120,配置成生成特征庫。特征庫包括多個特征組。特征組中包括多條特征。
[0055]數據處理模塊230執行上述步驟S130,配置成選擇特征、特征組或特征庫對儲存在數據庫中的數據標記噪音和/或數據分類。
[0056]本發明提供的數據降噪及分類裝置200可作為處理器集成在一般辦公用X86或X64架構的操作系統中、移動設備等電子裝置中。為了清楚起見,圖3僅示出數據降噪及分類裝置200的三個模塊,本領域技術人員根據本說明書的描述還可以實現更多的模塊,在此不予贅述。
[0057]為了實現分布式數據降噪及分類的處理,本發明還提供一種數據降噪及分類系統。結合圖4及圖5說明本發明提供的數據降噪及分類系統。數據降噪及分類系統包括數據庫400、多個數據降噪及分類裝置300及主處理裝置500。本實施例中,示出三個數據降噪及分類裝置300A、300B、300C,數據降噪及分類系統中數據降噪及分類裝置300的數量并非以此為限。主處理裝置500可以是多個數據降噪及分類裝置300中的一個,也可以是其他電子裝置。數據降噪及分類裝置300可以集成在低配置計算機、移動設備等電子裝置中。數據庫400、多個數據降噪及分類裝置300及主處理裝置500通過有線或無線的方式進行通訊。可選地,數據庫400、多個數據降噪及分類裝置300及主處理裝置500位于同一局域網中。在一些變化例中,數據庫400、多個數據降噪及分類裝置300及主處理裝置500也可以位于不同的局域網。
[0058]具體而言,數據庫400儲存一個或多個數據源的數據。數據降噪及分類裝置300包括配置成執行上述步驟SllO的數據管理模塊310、配置成執行上述步驟S120的特征生成模塊320、配置成執行上述步驟S130的數據處理模塊330以及特征庫管理與共享模塊340。特征庫管理與共享模塊340配置成管理該數據降噪及分類裝置300的特征庫,并與其他數據降噪及分類裝置300共享特征庫。特征庫管理與共享模塊340還配置成管理各個特征庫的使用權限。數據降噪及分類裝置300還包括網絡模塊350。網絡模塊350配置成與主處理裝置及數據庫通信。主處理裝置400配置成將數據處理任務分配給多個數據降噪及分類裝置300來執行。
[0059]在一個實施例中,每個數據降噪及分類裝置300包括特征庫管理與共享模塊340。一空閑的數據降噪及分類裝置300可作為主處理裝置400以向其他數據降噪及分類裝置300分配任務。換言之,在本實施例中,作為主處理裝置400的數據降噪及分類裝置300可以根據實際情況進行更換。在一個變化例中,指定一數據降噪及分類裝置300作為主處理裝置400以向其他數據降噪及分類裝置300分配任務。在這個變化例中,作為主處理裝置400的數據降噪及分類裝置300固定。例如,可以指定配置相對較高的集成降噪及分類裝置300的電子裝置作為主處理裝置400。
[0060]相比現有技術,本發明具有如下優勢:
[0061]1、降低硬件成本,使大量數據的降噪分類處理可以在低配置的計算機上進行;
[0062]2、數據進行降噪分類處理后,可用于各種數據分析,降低時間成本,靈活性強,無需針對特定的數據分析進行數據開發,研究撰寫專用的軟件系統,工作成果復用性更高
[0063]3、利用多個數據降噪及分類裝置并行處理數據降噪和分類,提高數據降噪和分類的效率,有效使用系統中空閑的數據降噪及分類裝置。
[0064]4、降低大量數據降噪及分類時的人力成本,無需數據降噪及分類的人員具有數據編程及數據庫指令相關知識。
[0065]以上具體地示出和描述了本發明的示例性實施方式。應該理解,本發明不限于所公開的實施方式,相反,本發明意圖涵蓋包含在所附權利要求范圍內的各種修改和等效置換。
【主權項】
1.一種數據降噪及分類裝置,其特征在于,包括: 數據管理模塊,配置成導入一個或多個數據源,整合所述一個或多個數據源中的數據,并分為多個數據組儲存在數據庫中; 特征生成模塊,配置成生成特征庫,所述特征庫包括多個特征組,所述特征組按如下步驟生成: 生成多個特征,每個所述特征對應處理一個或多個數據組,每個所述特征包括特征條件及一個或多個關鍵內容; 設置所述多個特征之間的關系,以生成所述特征組,所述特征組包括所述多個特征及所述多個特征之間的關系; 設置對應所述特征組的數據處理類型; 數據處理模塊,選擇所述特征、所述特征組或所述特征庫對儲存在所述數據庫中的數據標記噪音和/或數據分類。2.一種數據降噪及分類系統,其特征在于,包括: 數據庫,儲存一個或多個數據源的數據; 多個如權利要求1所述的數據降噪及分類裝置,所述數據降噪及分類裝置還包括: 特征庫管理與共享模塊,配置成管理該數據降噪及分類裝置的特征庫,并與其他數據降噪及分類裝置共享特征庫; 主處理裝置,配置成將數據處理任務分配給多個數據降噪及分類裝置來執行。3.如權利要求2所述的數據降噪及分類系統,其特征在于,所述主處理裝置為多個所述數據降噪及分類裝置中的一個。4.如權利要求2所述的數據降噪及分類系統,其特征在于,每個所述數據降噪及分類裝置還包括: 網絡模塊,配置成與所述主處理裝置及所述數據庫通信。5.一種數據降噪及分類方法,其特征在于,包括: 導入一個或多個數據源,整合所述一個或多個數據源中的數據,并分為多個數據組儲存在數據庫中; 生成特征庫,所述特征庫包括多個特征組,所述特征組按如下步驟生成: 生成多個特征,每個所述特征對應處理一個或多個數據組,每個所述特征包括特征條件及一個或多個關鍵內容; 設置所述多個特征之間的關系,以生成所述特征組,所述特征組包括所述多個特征及所述多個特征之間的關系; 設置對應所述特征組的數據處理類型; 選擇所述特征、所述特征組或所述特征庫對儲存在所述數據庫中的數據進行處理。6.如權利要求5所述的數據降噪及分類方法,其特征在于, 儲存在所述數據庫的數據為文字、音頻、圖片或視頻; 所述關鍵內容為關鍵詞、關鍵音頻、關鍵圖片或關鍵視頻。7.如權利要求5所述的數據降噪及分類方法,其特征在于,所述特征庫、所述特征組及所述特征分別包括對應所述特征庫、所述特征組及所述特征的名稱和注釋信息,選擇所述特征、所述特征組或所述特征庫對儲存在所述數據庫中的數據進行處理還包括: 顯示所述特征庫、所述特征組及所述特征的名稱和注釋信息。8.如權利要求5所述的數據降噪及分類方法,其特征在于,所述特征條件包括:包含、不包含、大于、小于、等于、大于等于、小于等于、以對應關鍵內容開頭、以對應關鍵內容結尾、與對應關鍵內容相似及與對應關鍵內容不相似。9.如權利要求5所述的數據降噪及分類方法,其特征在于,所述數據處理類型包括:刪除、標記噪音、數據分類。
【文檔編號】G06F17/30GK105912674SQ201610227851
【公開日】2016年8月31日
【申請日】2016年4月13日
【發明人】李光輝
【申請人】精碩世紀科技(北京)有限公司