專利名稱:數據獲取、分析以及預警系統及其方法
技術領域:
本發明涉及社交網絡技木,尤其涉及ー種數據獲取、分析以及預警系統及其方法。
背景技術:
隨著Web2.0時代的到來,互聯網涌現出了大量社會化媒體應用(人人網,Facebook, twitter,微博等),因此,社會化媒體數據研究受到了越來越多研究人員的關注。出現了社區發現研究,信息傳播的研究,社會網絡應用研究等。這些研究對于信息傳播,信息安全,社區挖掘,知識發現,輿情監瞀,專家查找,商業分析,市場拓展等方面越來越發揮重要的作用。社會化媒體應用的特點是開放和合作。例如微博、社交性網站等,紛紛給出了自己的開放平臺,讓第三方應用進入到自己的開放平臺中。同時,也誕生了一種新的數據獲取方式——通過開放平臺的API接ロ進行數據的獲取。現有的微博獲取方式步驟主要包括(I)獲取權限的驗證;(2)基于API函數確定參數;(3)數據的獲取并存儲;(4)數據分析。當前,微博數據的分析主要包括話題以及突發事件的發現與預測,信息的傳播以及信息的查找以及語義情感傾向的研究等方面。當前在微博數據獲取方面,還存在著一些技術上的缺點主要包括1、由于對微博數據沒有實時性的要求,因此,微博獲取的實時性比較差。2、由于微博數據在不同地區短時間內,出現的數據量比較巨大,因此,単一的獲取,不僅效率低下,而且還容易出現數據丟失的現象。在微博數據分析方面,也存在著一些技術上的缺點,主要體現在當前對微博內容分析的工作,其重點在于研究微博話題的發現、突發事件的檢測、新詞的發現等,因此缺少對微博不同地區的實時在線數據量的分析和預測。此外,對于微博數據量的分析和預測以及實時在線監控,還缺少ー種自適應性的預警機制來為不同地區,不同時段的微博數據量進行監控,從而提供更加科學,更加準確的方法。
發明內容
有鑒于此,有必要提供ー種數據獲取、分析以及預警系統及其方法。本發明提供的ー種數據獲取、分析以及預警系統,包括參數設定模塊、判斷模塊、輸出模塊、學習模塊、計算模塊、啟動模塊、存儲器以及處理器。其中,參數設定模塊,用于根據數據規劃表對爬蟲的參數進行設定,其中,所述參數設定模塊還用于設定權限參數,所述數據規劃表包括地區與相應地區的任務;判斷模塊,用于判斷所述爬蟲是否有權限;輸出模塊,在所述爬蟲有權限時獲取所述爬蟲輸出的數據以及狀態信息,其中,所述判斷模塊還用于判斷所述爬蟲是否運行正常;存儲器,用于在所述爬蟲運行正常時對輸出的數據進行存儲與備份;學習模塊,用于學習所獲取到的數據來建立時間序列模型;計算模塊,用于根據所述時間序列模型進行時間計算與閾值計算,其中,參數設定模塊還用于設定預警閾值空間與預警級別,且所述預警閾值空間包括地區、數量的上限以及下限,所述輸出模塊還用于獲取當前時間段的實際數據數量,所述判斷模塊還用于判斷所述實際數據的數量是否超出所述預警閾值空間;啟動模塊,用于在所述實際數據的數量超出所述預警閾值空間時相應的預警級別的預警;處理器,用于對數據進行追蹤與分析處理,形成預警記錄。本發明還提供數據獲取、分析以及預警的方法,包括根據數據規劃表對爬蟲的參數進行設定,其中所述數據規劃表包括地區與相應地區的任務;設定爬蟲的權限參數;判斷所述爬蟲是否有權限;若所述爬蟲有權限,則獲取所述爬蟲輸出的數據以及狀態信息;根據狀態信息判斷所述爬蟲是否運行正常;若所述爬蟲運行正常,則對輸出的數據進行存儲與備份;學習所獲取到的數據來建立時間序列模型;根據所述時間序列模型進行時間計算與閾值計算;根據所述時間計算與所述閾值計算的結果設定預警閾值空間與預警級別,其中所述預警閾值空間包括地區、數量的上限以及下限;獲取實際數據的數量;判斷所述實際數據的數量是否超出所述預警閾值空間;若所述實際數據的數量超出所述預警閾值空間,則啟動相應的預警級別的預警;對數據進行追蹤與分析處理,形成預警記錄。本發明中的數據獲取、分析以及預警系統及其方法實現了實時并行獲取不同地區的數據,通過學習數據建立時間序列模型,利用時間序列模型設定預警閾值空間以及預警等級,在預警發出后,能對數據進行快速的追蹤與分析,解決了不同時段、不同地區數據監控的問題,同時,本發明基于最新的數據預測和時間空間因素構建自適應性預警機制,及時更新預警閾值和預警級別,保證預警結果的準確性和可靠性。
圖1為本發明ー實施方式中數據獲取、分析以及預警系統的模塊圖;圖2為本發明ー實施方式中利用圖1所示的數據獲取、分析以及預警系統進行數據獲取、分析的方法的流程圖;圖3為本發明ー實施方式中利用圖1所示的數據獲取、分析以及預警系統進行預警的方法的流程圖。
具體實施例方式下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發明,而不能理解為對本發明的限制。在本發明的描述中,術語“內”、“外”、“縱向”、“橫向”、“上”、“下”、“頂”、“底”等指示的方位或位置關系為基于附圖所示的方位或位置關系,僅是為了便于描述本發明而不是要求本發明必須以特定的方位構造和操作,因此不能理解為對本發明的限制。請參閱圖1,圖1所示為本發明ー實施方式中數據獲取、分析以及預警系統10的模塊圖。在本實施方式中數據獲取、分析以及預警系統10包括參數設定模塊102、判斷模塊104、輸出模塊106、提取模塊108、學習模塊110、啟動模塊112、計算模塊114、存儲器116以及處理器118,其中,參數設定模塊102、判斷模塊104、輸出模塊106、提取模塊108、學習模塊110、啟動模塊112以及計算模塊114存儲在存儲器116中,處理器118用于執行存儲在存儲器116中的功能模塊。在本實施方式中,參數設定模塊102用于根據數據規劃表對爬蟲的參數進行設定。在本實施方式中,所述數據規劃表包括地區與相應地區的任務。在本發明中,針對不同的地區構建不同的爬蟲,且多個爬蟲線程運行。在本實施方式中,所述參數設定模塊102還用于設定權限參數。判斷模塊104用于判斷所述爬蟲是否有權限。輸出模塊106在所述爬蟲有權限時獲取所述爬蟲輸出的數據以及狀態信息。在本實施方式中,所述判斷模塊106還用于判斷所述爬蟲是否運行正常。存儲器116還用于在所述爬蟲運行正常時對輸出的數據進行存儲與備份。學習模塊110用于學習所獲取到的數據來建立時間序列模型。在本實施方式中,學習模塊110根據輸出模塊106所述輸出的數據進行屬性過濾與填充,其中屬性過濾是指地區篩選,填充是將空數據填充為所有數據的平均值,然后進行地區的選擇與時間區間的設定,最后通過時間序列預測程序生成時間序列模型。在本實施方式中,學習模塊110對數據的分析應用了自動時間序列模型的匹配程序主要包括簡單季節模型、Winters加法模型和Winters乘法模型。計算模塊114用于根據所述時間序列模型進行時間計算與閾值計算。在本實施方式中,參數設定模塊102還用于設定預警閾值空間與預警級別,且所述預警閾值空間包括地區、數量的上限以及下限。在本實施方式中,所述輸出模塊106還用于獲取當前時間段的實際數據數量,所述判斷模塊104還用于判斷所述實際數據的數量是否超出所述預警閾值空間。啟動模塊112用于在所述實際數據的數量超出所述預警閾值空間時相應的預警級別的預警。處理器118還用于對數據進行追蹤與分析處理,形成預警記錄。在本實施方式中,所述參數設定模塊102還用于在所述爬蟲沒有權限時更換權限密鑰,井根據所述權限密鑰進行設定權限參數。在本實施方式中,提取模塊108用于提取所述數據中的時間戳。在本實施方式中,判斷模塊104還用于判斷是否需要翻頁。在本實施方式中,提取模塊108用于根據時間戳進行時間線計算,判斷模塊104根據時間線與時間戳的關系來判斷是否需要翻頁。在本實施方式中,若是時間線在時間戳之后,所述判斷模塊104判斷為需要翻頁,若是時間線在時間戳之前,所述判斷模塊104判斷為不需要翻頁。所述參數設定模塊102還用于在需要翻頁時修改時間標識,根據所述時間標識對參數進行重建,井根據所述數據規劃表以及重建的參數進行參數設定。這樣實現了爬蟲對數據的實時獲取,不容易出現數據丟失的現象。在本實施方式中,所述參數設定模塊102在不需要翻頁時暫停爬蟲,并將時間標識設為當前時間,根據所述時間標識對參數進行重建,井根據所述數據規劃表以及重建的參數進行參數設定。在本實施方式中,所述參數設定模塊102對爬蟲進行休眠,待休眠結束后再對當前數據進行抓取。在本實施方式中,所述處理器118還用于在所述爬蟲運行不正常時停止爬蟲的運行,對爬蟲進行錯誤研判,并刪除所述爬蟲。在本實施方式中,所述處理器118通過解析狀態信息對爬蟲進行錯誤研判,獲取爬蟲錯誤的原因,以便在新建爬蟲替代該被刪除的爬蟲時避免出現同樣的問題。在本實施方式中,所述處理器118還用于在所述實際數據的數量沒有超出所述預警閾值空間時形成數據記錄。請參閱圖2,圖2所示為本發明ー實施方式中利用圖1所示的數據獲取、分析以及預警系統10進行數據獲取、分析的方法的流程圖。在步驟S200,參數設定模塊102根據數據規劃表對爬蟲的參數進行設定,其中所述數據規劃表包括地區與相應地區的任務。在本發明中,針對不同的地區構建不同的爬蟲,且多個爬蟲線程運行。在步驟S202,參數設定模塊102設定爬蟲的權限參數。在步驟S204,判斷模塊104判斷所述爬蟲是否有權限。若所述爬蟲有權限,則在步驟S206,輸出模塊106獲取所述爬蟲輸出的數據;在步驟S208,輸出模塊106輸出狀態信息。在本實施方式中,狀態信息包括爬蟲運行的狀態以及導致出現該狀態的原因。在步驟S210,根據狀態信息判斷所述爬蟲是否運行正常。若所述爬蟲運行正常,則在步驟S212,存儲器116對輸出的數據進行存儲與備份。在步驟S214,提取模塊108提取所述數據中的時間戳。在步驟S216,判斷模塊104判斷是否需要翻頁。在本實施方式中,提取模塊108用于根據時間戳進行時間線計算,判斷模塊104根據時間線與時間戳的關系來判斷是否需要翻頁。在本實施方式中,若是時間線在時間戳之后,所述判斷模塊104判斷為需要翻頁,若是時間線在時間戳之前,所述判斷模塊104判斷為不需要翻頁。若需要翻頁,則在步驟S218,參數設定模塊102修改時間標識。在步驟S220,參數設定模塊102對參數進行重建。返回步驟S200,參數設定模塊102根據所述數據規劃表以及重建的參數進行參數設定。在步驟S216判斷模塊104判斷是否需要翻頁時,則在步驟S222,參數設定模塊102,暫停爬蟲,并將時間標識設為當前時間。在步驟S220,參數設定模塊102對參數進行重建。返回步驟S200,參數設定模塊102根據所述數據規劃表以及重建的參數進行參數設定。步驟S204判斷模塊104判斷所述爬蟲是否有權限吋,若所述爬蟲沒有權限,則在步驟S224,參數設定模塊102更換權限密鑰,并返回步驟S202,參數設定模塊102根據權限密鑰進行設定權限參數。在步驟S210根據狀態信息判斷所述爬蟲是否運行正常時,若所述爬蟲運行不正常,則在步驟S226,處理器118停止爬蟲的運行。
在步驟S228,處理器118對爬蟲進行錯誤研判。在本實施方式中,所述處理器11通過解析所述輸出模塊106輸出的狀態信息對爬蟲進行錯誤研判,獲取爬蟲錯誤的原因,以便在新建爬蟲替代該被刪除的爬蟲時避免出現同樣的問題。在步驟S230,處理器120刪除所述爬蟲。請參閱圖3,圖3所示為本發明ー實施方式中利用圖1所示的數據獲取、分析以及預警系統10進行預警的方法的流程圖。在步驟S300,學習模塊110學習所獲取到的數據來建立時間序列模型。在本實施方式中,學習模塊110根據輸出模塊106所述輸出的數據進行屬性過濾與填充,其中屬性過濾是指地區篩選,填充是將空數據填充為所有數據的平均值,然后進行地區的選擇與時間區間的設定,最后通過時間序列預測程序生成時間序列模型。在本實施方式中,學習模塊110對數據的分析應用了自動時間序列模型的匹配程序主要包括簡單季節模型、Winters加法模型和Winters乘法模型。在步驟S302,計算模塊114根據所述時間序列模型進行時間計算與閾值計算。在步驟S304,參數設定模塊102根據所述時間計算與所述閾值計算的結果設定預警閾值空間與預警級別,其中所述預警閾值空間包括地區、數量的上限以及下限。在步驟S306,輸出模塊106獲取實際數據的數量。在步驟S308,判讀模塊104判斷所述實際數據的數量是否超出所述預警閾值空間。若所述實際數據的數量超出所述預警閾值空間,則在步驟S310,啟動模塊112啟動相應的預警級別的預警。在步驟S312,處理器118對數據進行追蹤與分析處理,形成預警記錄。在步驟S308判讀模塊104判斷所述實際數據的數量是否超出所述預警閾值空間時,若所述實際數據的數量沒有超出所述預警閾值空間,則在步驟S314,所述處理器118形成數據記錄。本發明實施方式中的數據獲取、分析以及預警系統10及其方法利用爬蟲實現了實時并行獲取不同地區的數據,通過學習模塊110學習輸出模塊106所獲取的數據建立時間序列模型,利用時間序列模型設定預警閾值空間以及預警等級,在預警發出后,能對數據進行快速的追蹤與分析,并進行異常檢測,發現原因,形成報告,解決了不同時段、不同地區數據監控的問題,同時,本發明基于最新的數據預測和時間空間因素構建自適應性預警機制,及時更新預警閾值和預警級別,保證預警結果的準確性和可靠性。雖然本發明參照當前的較佳實施方式進行了描述,但本領域的技術人員應能理解,上述較佳實施方式僅用來說明本發明,并非用來限定本發明的保護范圍,任何在本發明的精神和原則范圍之內,所做的任何修飾、等效替換、改進等,均應包含在本發明的權利保護范圍之內。
權利要求
1.一種數據獲取、分析以及預警系統,包括 參數設定模塊,用于根據數據規劃表對爬蟲的參數進行設定,其中,所述參數設定模塊還用于設定權限參數,所述數據規劃表包括地區與相應地區的任務; 判斷模塊,用于判斷所述爬蟲是否有權限; 輸出模塊,在所述爬蟲有權限時獲取所述爬蟲輸出的數據以及狀態信息,其中,所述判斷模塊還用于判斷所述爬蟲是否運行正常; 存儲器,用于在所述爬蟲運行正常時對輸出的數據進行存儲與備份; 學習模塊,用于學習所獲取到的數據來建立時間序列模型; 計算模塊,用于根據所述時間序列模型進行時間計算與閾值計算,其中,參數設定模塊還用于設定預警閾值空間與預警級別,且所述預警閾值空間包括地區、數量的上限以及下限,所述輸出模塊還用于獲取當前時間段的實際數據數量,所述判斷模塊還用于判斷所述實際數據的數量是否超出所述預警閾值空間; 啟動模塊,用于在所述實際數據的數量超出所述預警閾值空間時相應的預警級別的預m.1=I , 處理器,用于對數據進行追蹤與分析處理,形成預警記錄。
2.如權利要求1所述的數據獲取、分析以及預警系統,其特征在于,所述參數設定模塊還用于在所述爬蟲沒有權限時更換權限密鑰,并根據所述權限密鑰進行設定權限參數。
3.如權利要求1所述的數據獲取、分析以及預警系統,其特征在于,還包括提取模塊,用于提取所述數據中的時間戳,其中,判斷模塊還用于判斷是否需要翻頁,所述參數設定模塊還用于在需要翻頁時修改時間標識,根據所述時間標識對參數進行重建,并根據所述數據規劃表以及重建的參數進行參數設定。
4.如權利要求3所述的數據獲取、分析以及預警系統,其特征在于,所述參數設定模塊在不需要翻頁時暫停爬蟲,并將時間標識設為當前時間,根據所述時間標識對參數進行重建,并根據所述數據規劃表以及重建的參數進行參數設定。
5.如權利要求1所述的數據獲取、分析以及預警系統,其特征在于,所述處理器還用于在所述爬蟲運行不正常時停止爬蟲的運行,對爬蟲進行錯誤研判,并刪除所述爬蟲。
6.如權利要求1所述的數據獲取、分析以及預警系統,其特征在于,所述處理器還用于在所述實際數據的數量沒有超出所述預警閾值空間時形成數據記錄。
7.一種數據獲取、分析以及預警的方法,包括 根據數據規劃表對爬蟲的參數進行設定,其中所述數據規劃表包括地區與相應地區的任務; 設定爬蟲的權限參數; 判斷所述爬蟲是否有權限; 若所述爬蟲有權限,則獲取所述爬蟲輸出的數據以及狀態信息; 根據狀態信息判斷所述爬蟲是否運行正常; 若所述爬蟲運行正常,則對輸出的數據進行存儲與備份; 學習所獲取到的數據來建立時間序列模型; 根據所述時間序列模型進行時間計算與閾值計算; 根據所述時間計算與所述閾值計算的結果設定預警閾值空間與預警級別,其中所述預警閾值空間包括地區、數量的上限以及下限; 獲取實際數據的數量; 判斷所述實際數據的數量是否超出所述預警閾值空間,其中所述; 若所述實際數據的數量超出所述預警閾值空間,則啟動相應的預警級別的預警; 對數據進行追蹤與分析處理,形成預警記錄。
8.如權利要求7所述的方法,其特征在于,所述方法還包括以下步驟 若所述爬蟲沒有權限,則更換權限密鑰; 根據權限密鑰進行設定權限參數。
9.如權利要求7所述的方法,其特征在于,所述方法還包括以下步驟 提取所述數據中的時間戳; 判斷是否需要翻頁; 若需要翻頁,則修改時間標識; 對參數進行重建; 根據所述數據規劃表以及重建的參數進行參數設定。
10.如權利要求9所述的方法,其特征在于,所述方法還包括以下步驟 若不需要翻頁,則暫停爬蟲,并將時間標識設為當前時間; 對參數進行重建; 根據所述數據規劃表以及重建的參數進行參數設定。
11.如權利要求7所述的方法,其特征在于,所述方法還包括以下步驟 若所述爬蟲運行不正常,則停止爬蟲的運行; 對爬蟲進行錯誤研判; 刪除所述爬蟲。
12.如權利要求7所述的方法,其特征在于,所述方法還包括以下步驟 若所述實際數據的數量沒有超出所述預警閾值空間,則形成數據記錄。
全文摘要
一種數據獲取、分析以及預警系統,通過構建爬蟲來實時并行地獲取數據,通過分析和學習所獲取到的數據來建立時間序列模型,根據所述時間序列模型進行時間計算與閾值計算,并設定預警閾值空間與預警級別,且所述預警閾值空間包括地區、數量的上限以及下限,獲取當前時間段的實際數據數量,判斷所述實際數據的數量是否超出所述預警閾值空間,在所述實際數據的數量超出所述預警閾值空間時,進行相應的預警級別的預警,同時對預警的數據進行追蹤與分析處理,形成預警記錄。本發明通過預警信息,快速準確的追蹤預警時段該地區的數據,并進行異常檢測,發現原因并形成報告。
文檔編號G06F17/30GK103034725SQ20121055352
公開日2013年4月10日 申請日期2012年12月19日 優先權日2012年12月19日
發明者趙中英, 李超, 馮圣中 申請人:中國科學院深圳先進技術研究院