一種管理非結構化數據的裝置和方法
【技術領域】
[0001]本發明涉及非結構化數據管理領域,具體涉及一種管理非結構化數據的裝置和方法。
【背景技術】
[0002]所有信息分為兩類:一類信息能夠用數據或統一的結構加以表示,成為結構化數據,如數字、符號等;另一類信息無法用數字或統一的結構表示,比如文本、圖片、網頁、各類報表、圖像和音頻/視頻信息等等。隨著網絡技術的發展非結構化數據的數量口趨增大。
[0003]目前,對非結構化數據進行管理,主要使用全文索引技術,具體的:建立倒排索引文件,根據關鍵字對非結構化數據進行內容檢索,再對檢索到的內容進行處理。索引是對數據庫表中的一列或多列的值進行排序的一種結構,使用索引可快速訪問數據庫表中的特定信息,大大提高了數據庫檢索的性能。數據包括兩大類:結構化數據和非結構化數據,實際應用中的數據可能混合了結構化和非結構化的數據。對結構化的數據進行檢索稱之為結構化檢索,反之,對非結構化數據進行檢索稱之為非結構化檢索。但是,這種對非結構化數據進行管理的方法,由于每次索引都需要進行全文搜索,且只能對預置的關鍵字進行搜索,無法根據需要進行擴展以便更準確的查找。
[0004]可見,現有技術中對非結構化數據庫信息進行管理,存在搜索周期長、查找準確度不高、以及擴展性差的問題。
【發明內容】
[0005]針對以上問題,本發明提供了一種能夠實時的采集用戶的訪問數據并對數據進行分類,將結構化數據直接儲存,非結構化數據的檢索更加快捷、范圍更加廣泛、更加準確的管理非結構化數據的裝置和方法。
[0006]本發明的技術方案如下:
[0007]上述的一種管理非結構化數據的裝置,包括服務器、數據解析模塊、原始數據導入模塊、數據庫、匹配規則定義模塊、分析模塊和調整模塊,所述服務器連接用戶終端,所述服務器的數據輸出端依次連接所述數據解析模塊和原始數據導入模塊,所述原始數據導入模塊通過一對數據輸出端口分別連接所述數據庫和匹配規則定義模塊,所述匹配規則定義模塊依次連接所述分析模塊和調整模塊,所述分析模塊的數據輸出端口連接數據庫。
[0008]—種管理非結構化數據的方法,其具體步驟為:
[0009](I)通過服務器對用戶終端所產生的數據進行綜合采集,得到綜合數據;
[0010](2)再由服務器將綜合數據發送到數據解析模塊,數據解析模塊對每一條數據進行解析,根據數據類型、數據格式,對無效數據和錯誤數據進行刪除,并將有效數據分為結構化數據和非結構數據,放入原始數據隊列,最后將非結構化數據通過原始數據導入模塊導入匹配規則定義模塊;
[0011](3)匹配規則定義模塊根據正則表達式建立若干條匹配規則,從非結構化數據中提取含有匹配字段的數據內容,并將含有匹配字段的數據內容送入到分析模塊內;
[0012](4)分析模塊對含有匹配字段的數據內容進行分析,抓取數據內容內的關鍵字段,分析模塊將關鍵字段進行儲存;調整模塊接收分析模塊發來的數據內容并進行調整后,再由分析模塊將調整后的數據內容上傳到服務器。
[0013]所述的一種管理非結構化數據的方法,其中,所述步驟(2)中的結構化數據是通過原始數據導入模塊直接導入數據庫存儲。
[0014]所述的一種管理非結構化數據的方法,其中,所述步驟(3)中的匹配規則包括對匹配的字段的定義以及匹配的字段對應的格式的定義。
[0015]所述的一種管理非結構化數據的方法,其中,所述步驟(3)中匹配規則定義模塊是利用正則表達式建立匹配規則,并將匹配規則發給分析模塊。
[0016]所述的一種管理非結構化數據的方法,其中,所述步驟(4)中的調整模塊用于接收分析模塊發來的匹配規則,對該匹配規則進行調整,將調整后的匹配規則發給分析模塊。
[0017]所述的一種管理非結構化數據的方法,其中,所述分析模塊利用匹配規則定義模塊發來的匹配規則,對原始數據導入模塊導入的所有非結構化數據進行分組,選出一組非結構化數據,將該組非結構化數據對應的匹配規則發送給調整模塊,以及根據調整模塊發來的調整后的匹配規則對該組非結構化數據進行調整。
[0018]有益效果:
[0019]本發明管理非結構化數據的裝置和方法構思合理,能夠實時的采集用戶的訪問數據,并對數據進行分類,將結構化數據直接儲存,非結構化數據通過匹配規則定義模塊、分析模塊和調整模塊能夠對每條數據進行擴展,并即使的分類保存到數據庫中,從而保證服務器在接受訪問時能夠快速的調取數據,使得非結構化數據的檢索更加快捷、范圍更加廣泛,同時更加準確。
【附圖說明】
[0020]圖1為本發明管理非結構化數據的裝置的結構示意圖。
【具體實施方式】
[0021]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0022]如圖1所示,本發明管理非結構化數據的裝置,包括服務器1、數據解析模塊2、原始數據導入模塊3、數據庫4、匹配規則定義模塊5、分析模塊6和調整模塊7。
[0023]該服務器I連接用戶終端,從用戶終端采集綜合類的數據,服務器I數據輸出端依次連接數據解析模塊2和原始數據導入模塊3,通過數據解析模塊2對綜合類的數據進行分析,從而實現數據類型、數據格式和數據結構的判斷,將錯誤的數據刪除,將結構化數據和非結構數據進行分類,并將結構化數據和非結構數據放入原始數據隊列,原始數據導入模塊3的兩個數據輸出端口分別連接數據庫4和匹配規則定義模塊5,從而將結構化數據直接保存,而非結構數據送入到匹配規則定義模塊5中,匹配規則定義模塊5依次連接分析模塊6和調整模塊7,通過匹配規則定義模塊5篩選出需要的數據,分析模塊6對每組數據進行分析,抓取關鍵字段,而調整模塊7對每組數據中的關鍵字段進行刪除、添加等修改,其中分析模塊6的數據輸出端口連接數據庫4,從而合理、簡練的管理非結構化數據。
[0024]該匹配規則定義模塊5根據實際需要建立若干條匹配規則,對匹配的字段、及所述匹配的字段對應的格式的定義,可以使用Visual Stud1.NET編寫,比如,使用VisualStud1.NET設定匹配規則為:
[0025]REGEX = Atcachet to login by user: (.*): login (.*) \.
[0026]FORMAT = username::“$1,,login_result::“$2”
[0027]其中,“REGEX”為 Visual Stud