本發明涉及數據收集,特別是指一種基于大數據的信息收集系統。
背景技術:
1、大數據指的是所涉及的資料量規模巨大到無法透過主流軟件工具,在合理時間內達到擷取、管理、處理、并整理成為幫助企業經營決策更積極目的的資訊。輿情數據指的是從各種網絡平臺上搜集的用戶意見、評論、情緒和話題的討論等信息,隨著互聯網的快速發展,輿情數據的來源日益復雜,數據量龐大且實時性高。
2、而現有信息收集系統在針對輿情數據處理時,在數據處理方面暴露出了一系列不足之處。首先,集中式架構在大規模數據處理過程中容易出現傳輸延遲和處理瓶頸,影響系統的實時性和響應速度,其次,無法針對系統目標的重要性進行準確篩選,動態調整處理數據的任務。
技術實現思路
1、本發明的目的在于提供主題,旨在解決背景技術中所提到的問題。
2、為解決上述技術問題,本發明的技術方案如下:
3、一種基于大數據的信息收集系統,所述系統包括:
4、數據源選擇模塊,用于根據第一預設指標自動選擇數據源,得到第一數據源集合,所述第一預設指標包括數據源的更新頻率、完整性和可信度;
5、數據過濾模塊,用于通過內容質量分析公式對第一數據源集合進行過濾,得到第二數據源集合;
6、數據預處理模塊,用于對第二數據源集合進行預處理,生成數據集,所述預處理包括數據清洗、數據標準化和數據轉換;
7、分布式計算模塊,用于對數據集進行實時處理,生成計算結果數據,所述分布式計算模塊包括多個節點,每個節點分別執行數據集中不同數據的處理任務,其中,所述節點之間通過消息隊列進行數據傳輸和同步;所述處理任務的區分標準包括處理任務的計算量和重要性;每個節點通過物聯網設備分配有不同的計算能力;
8、任務分配模塊,用于根據各節點的剩余計算能力和處理任務的計算量,得到第一任務權重,并通過第一任務權重將數據片段的處理任務分配給節點;
9、負載均衡模塊,用于根據每個節點的實時計算負荷和處理任務的執行效率,得到每個節點的負載均衡權重,并將負載均衡權重向任務分配模塊反饋,以達到動態調整處理任務的分配;
10、括容錯處理模塊,用于監控節點的狀態,當節點發生故障時,通過權重計算公式計算第二任務權重,并向任務分配模塊反饋,以達到將該節點的任務分配至其他健康節點;
11、數據存儲模塊,用于存儲計算結果數據,所述數據存儲模塊包括分布式數據庫系統,能夠在多個存儲節點之間分布式存儲數據。
12、進一步的,所述數據處理模塊包括:
13、數據分片單元,用于在數據清洗和轉換之前,根據預設閾值將第二數據源集合的數據分成若干數據片段,得到第一數據集;
14、所述預設閾值基于數據類型和數據量動態調整。
15、進一步的,所述數據片段的大小通過以下計算公式計算:
16、;
17、其中,為數據片段的大小,為第二數據源集合的總大小,為節點的計算能力的自然對數,為預設的負載因子,為數據片段的標準差,為數據片段的相關性因子。
18、進一步的,所述數據片段的相關性因子通過以下步驟得到:
19、對每個數據片段進行特征提取,獲取每個數據片段的特征向量;
20、對特征向量進行相似度計算,得到相似度矩陣;
21、根據相似度矩陣,對每個數據片段的相似度進行歸一化處理,得到相似度評分;
22、將相似度評分進行加權平均,最終得到數據片段的相關性因子。
23、進一步的,所述相似度評分的計算公式為:
24、;
25、其中,和分別為第y個和第u個數據片段的特征向量,為和的點積,和為特征向量的模長。
26、進一步的,所述第一任務權重通過以下公式計算:
27、;
28、其中,為第一任務權重,為節點的剩余計算能力,為數據片段的大小,為處理任務的計算量,為第j個節點的計算能力,為第j個節點的剩余計算能力,m為節點總數。
29、進一步的,所述負載均衡權重通過以下公式計算:
30、;
31、其中,為負載均衡權重;為節點的計算負荷量,為節點的計算能力,為節點對應處理任務的執行效率,執行效率通過節點的計算能力與處理任務的計算量的比值計算得到,為第k個節點的處理任務執行進度,執行進度通過剩余計算量與計算量的比值計算得到,為第k個節點的計算負荷量,m為節點總數。
32、進一步的,所述第二任務權重通過以下權重公式計算:
33、;
34、其中,為第二任務權重,為故障節點的計算能力,為故障節點的狀態,為故障節點的狀態指數函數,為故障節點的處理任務重要性,為第c個節點的處理任務重要性,為第c個節點的狀態指數,為第c個節點的狀態,為第c個節點的狀態指數函數,為第c個節點的計算能力,m為節點總數;
35、其中,,為節點c的常數,為節點c的無故障運行的時間。
36、進一步的,所述第c個節點的狀態指數的計算公式如下:
37、;
38、其中,為節點c的溫度,為節點c的歷史故障率,歷史故障率通過歷史故障次數與運行時間的比值計算得到,為節點c的計算負荷量,為節點c的剩余計算能力,、、和為調整權重系數,z為歸一化因子。
39、進一步的,所述第c個節點的處理任務重要性的計算公式如下:
40、;
41、其中,為基于預設的系統目標進行評級,為處理任務的完成時間,為處理任務的計算量,、和為調整權重系數。
42、本發明的上述方案至少包括以下有益效果:
43、首先,系統利用數據源選擇模塊,能夠根據數據源的更新頻率、完整性和可信度等第一預設指標,自動選擇最優數據源,從而確保數據質量的可靠性和時效性;其次,通過數據過濾模塊,系統能夠對所選擇的數據源集合進行內容質量分析,進一步提高了數據的準確性和相關性,這一過程保證了后續數據處理的基礎數據具備高可信度和高精度;數據預處理模塊在對數據源集合進行清洗、標準化和轉換的過程中,確保了數據的統一性和一致性,從而為分布式計算提供了高質量的數據輸入。
44、系統中的分布式計算模塊通過多個節點并行處理不同的數據片段,有效地提升了數據處理的速度和效率,并通過消息隊列實現了數據傳輸和同步,確保了處理過程的高效和穩定;該系統還引入了任務分配模塊和負載均衡模塊,通過動態調整節點的處理任務和實時計算負荷,保證了任務的合理分配和系統的負載均衡,從而優化了整體系統的計算能力利用率;此外,通過括容錯處理模塊監控節點的狀態,在節點故障時,智能分配處理任務到其他健康節點繼續處理,從而提高了系統響應性。
45、最后,數據存儲模塊采用分布式數據庫系統,實現了計算結果數據的分布式存儲,提升了數據的存儲效率和系統的容錯能力;通過以上技術方案,系統在提高數據處理效率、確保數據質量、實現負載均衡、節點故障處理等方面展現了突出的技術優勢。