專利名稱:互聯網信息統計方法及系統的制作方法
技術領域:
本發明涉及計算機網絡技術領域,尤其涉及一種互聯網信息統計方法及其系統。
背景技術:
Alexa是互聯網首屈一指的免費提供網站流量信息的公司,創建于1996年,一直致力于開發網頁抓取和網站流量計算的工具。Alexa排名是目前常引用的用來評價某一網站訪問量的一個指標。Alexa的網站世界排名主要分兩種:綜合排名和分類排名。綜合排名也叫絕對排名,即特定的一個網站在所有網站中的名次。Alexa每三個月公布一次新的網站綜合排名。此排名的依據是用戶鏈接數(Users Reach)和頁面瀏覽數(Page Views)三個月累積的幾何平均值。分類排名,一是按主題分類,比如新聞、娛樂、購物等,Alexa給出某個特定網站在同一類網站中的名次。二是按語言分類,目前共分20種語言,比如英文網站、中文網站[Chinese (simpl)和Chinese (trad)]等,給出特定站點在所有此類語言網站中的名次。Alexa還會根據網民對網站的評論,在綜合排名信息中,用“星”來給網站評一個等級,最高為“5星”。國內網站排名最靠前的百度,得了 “三星半”。Alexa網站本身不參加排名,但是Alexa給自己的評價為4星。但是,Alexa只能提供一個粗略的排名信息,無法提供更多的選項和界面。
發明內容
本發明的目的在于提出一種互聯網信息統計方法及其系統,使得能夠為不同的業務系統及用戶以不同的粒度、高速準確地提供豐富的網絡訪問數據,為決策部門提供翔實客觀的數據支持。為達此目的,本發明采用以下技術方案:一種互聯網信息統計方法,其特征在于,包括:S1、按照業務主題將用戶網絡訪問數據通過MapReduce劃分成多個業務主題數據集,其中,所述用戶網絡訪問數據為用戶跨網訪問數據;S2、對每個業務主題數據集中包含的數據根據不同的指標進行統計,將各業務主題的統計數據保存起來;S3、當接收到統計信息查詢請求時,根據所述查詢請求要查詢的業務主題獲取對應的統計數據并返回。進一步地,在步驟SI之前還包括:預先去除網絡訪問數據中的無效數據。進一步地,所述無效數據包括:后綴錯誤的域名數據,訪問量小于預設閾值的域名數據。進一步地,在識別無效數據時先判斷是否屬于黑白名單中預設的域名數據,對于白名單中的域名數據和所述域名數據的下級域名數據,始終視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,始終視為無效數據。進一步地,以服務的形式為步驟S2中的各業務主題的統計數據提供訪問接口。進一步地,利用所述服務創建至少一個業務子模塊,其中封裝了針對所述統計數據的預定義運算,并以服務的形式為該業務子模塊提供訪問接口。根據本發明的同一構思,本發明還提供了一種互聯網信息統計系統,包括:一種互聯網信息統計系統,其特征在于,包括:數據拆分單元,按照業務主題將用戶網絡訪問數據通過MapReduce劃分成多個業務主題數據集,其中,所述用戶網絡訪問數據為用戶跨網訪問數據;數據匯總單元,對每個業務主題數據集中包含的數據根據不同的指標進行統計,將各業務主題的統計數據保存起來;數據查詢單元,當接收到統計信息查詢請求時,根據所述查詢請求要查詢的業務主題獲取對應的統計數據并返回。進一步地,所述系統還包括:數據預處理單元,預先去除網絡訪問數據中的無效數據。進一步地,所述無效數據包括:后綴錯誤的域名數據,訪問量小于預設閾值的域名數據。進一步地,在識別無效數據時先判斷是否屬于黑白名單中預設的域名數據,對于白名單中的域名數據和所述域名數據的下級域名數據,始終視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,始終視為無效數據。進一步地,所述系統還包括:數據集市,保存數據匯總單元統計得到的數據。進一步地,所述系統還包括:第一服務單元,以服務的形式為數據匯總單元統計得到的各業務主題的統計數據提供訪問接口。進一步地,所述系統還包括:第二服務單元,利用所述第一服務單元提供的服務創建至少一個業務子模塊,其中封裝了針對所述統計數據的預定義運算,并以服務的形式為該業務子模塊提供訪問接□。本發明能方便用戶深入了解某一個行業、某一個網站或者某些競爭網站的訪問量、訪問次數、訪問用戶、搜搜關鍵詞、每個搜索關鍵詞帶來的流量等各種信息,并能夠以不同的粒度、高速準確地為不同的業務系統及用戶呈現豐富的統計數據以發掘和展示繁雜的網絡訪問數據之間的內在關系,為決策部門提供翔實客觀的數據支持。
圖1是本發明具體實施例一所述的互聯網信息統計方法流程圖;圖2是本發明具體實施例二所述的互聯網信息統計系統結構框圖;圖3是本發明具體實施例三所述的基于分布式數據處理架構Handoop實現的互聯網信息統計系統結構圖。
具體實施例方式下面結合附圖并通過具體實施方式
來進一步說明本發明的技術方案。實施例一圖1是本實施例所述的互聯網信息統計方法流程圖,如圖1所示,本實施例所述互聯網信息統計方法包括:SlO 1、將網絡訪問數據劃分成多個業務主題數據集。在該步驟中,按照業務主題將網絡訪問數據通過MapReduce劃分成多個業務主題數據集。所述網絡訪問數據包括用于進行數據分析的全網流量數據MOS日志數據,這些海量數據存儲在大型分布式存儲系統ODS中。對海量數據進行高速的劃分處理正是MapReduce數據處理機制所擅長的,該數據處理機制能夠在很短的時間內將大量的數據通過分布式并行計算的方式劃分為不同的數據集,因此,本發明采用MapReduce機制來執行網絡訪問數據的劃分工作。另外,為了契合上層業務系統的數據需求,本發明按照多個業務主題對所述網絡訪問數據進行劃分,用不同的子數據庫分別存儲各主題下的數據,從而形成多個不同業務主題的數據集,為上層系統提供經過初步劃分的數據。其中,所述業務主題可以包括但不限于:訪問量、訪問時間、網站分析信息等。經過上述MapReduce處理后,不僅去除了大量重復數據,而且對數據進行了基本的分類,極大地減少了數據總量并使得數據匯總單元DWA對數據的訪問更加高效和便利。另外,海量的原始網絡訪問數據中通常會包含大量的無效數據,為了將目標數據限定在用戶真正需要和關心的數據范圍內,在步驟SlOl之前還可以預先去除原始網絡訪問數據中的無效數據。可以根據實際的業務需求來定義無效數據的判斷準則,例如可以是后綴錯誤的域名數據,訪問量小于預設閾值的域名數據等。進一步地還可以設置例外情況處理機制,對于某些符合上述判斷準則的無效數據有時并不希望被過濾掉,那么可以通過設置白名單的方式來保留,即,在識別無效數據時先判斷是否屬于黑白名單中預設的域名數據,對于白名單中的域名數據和所述域名數據的下級域名數據,始終視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,始終視為無效數據。。通過這一預處理方式大幅地減少了實際需要處理的數據量,從而進一步提升了數據的處理效率。S102、對各業務主題數據集中的數據進行統計并保存。在該步驟中,對每個業務主題數據集中包含的數據根據不同的指標進行統計,然后將各業務主題的統計數據保存起來供上層業務系統使用。為了進一步提高數據處理效率,給上層業務的復雜運算迅速地提供盡可能貼近其需求的數據,本發明中根據實際的業務需求,按照不同的指標對經過步驟SlOl處理后的各業務主題數據集進行統計,將統計得到的結果保存起來,通過這樣預先的處理,當上層業務系統需要這些數據時,可以直接訪問,無需現場進行計算。而且,在選擇統計指標時選擇那些盡可能多的業務系統共同需要的指標,這樣可以大量地減少重復計算,提高數據的利用率以及整體的處理效率。另外,可以將所述統計數據保存至數據集市DM中。數據集市(Data Mart),簡稱為DM,是數據倉庫(DW)的一個專有版本。盡管一個數據倉庫聯合數據庫遍及整個企業,數據集市通常更小和集中在一個特定的部門。數據集市包括針對底層數據經過一定業務預處理的數據快照,更加貼近于上層業務的需求。數據集市使一個關系型數據庫來仿效一個多維數據庫的解析功能,可以實現對相關信息的輕松訪問。進一步地,為了方便外部系統對步驟S2中統計后的數據進行訪問,可以以服務的方式為上述數據提供訪問接口,從而為不同的業務系統提供細粒度的復用途徑。進一步地,為了給不同的業務系統提供更貼近其需求的數據,簡化業務系統對上述統計數據的使用方式,還可以利用上述細粒度的服務接口創建至少一個業務子模塊,該業務子模塊中封裝了針對所述統計數據的更加貼近上層業務系統需求的預定義運算,而且同樣以服務的形式為該業務子模塊提供訪問接口。這樣,上層業務系統可以直接使用所述業務子模塊的服務接口來實現對所述統計數據的某些預定義運算,實現了對上述數據的粗粒度復用,簡化了對所述數據的使用方式。S103、響應查詢請求返回統計數據。當接收到統計信息查詢請求時,根據所述查詢請求要查詢的業務主題獲取對應的統計數據并返回。在獲取所述統計數據時可以利用前面所提供的不同粒度的服務訪問接口,為業務系統提供豐富的再加工數據,滿足了用戶對網絡訪問數據的多種業務需求。實施例二根據本發明的同一構思,本發明還提供了一種互聯網信息統計系統,圖2是本實施例所述的互聯網信息統計結構框圖,如圖2所示,該系統包括:數據拆分單元201、數據匯總單元202、以及數據查詢單元203。其中,數據拆分單元201按照業務主題將網絡訪問數據通過MapReduce劃分成多個業務主題數據集。所述網絡訪問數據包括用于進行數據分析的全網流量數據頂OS日志數據,這些海量數據存儲在大型分布式存儲系統ODS中。對海量數據進行高速的劃分處理正是MapReduce數據處理機制所擅長的,該數據處理機制能夠在很短的時間內將大量的數據通過分布式并行計算的方式劃分為不同的數據集,因此,本發明采用MapReduce機制來執行網絡訪問數據的劃分工作。另外,為了契合上層業務系統的數據需求,本發明按照多個業務主題對所述網絡訪問數據進行劃分,用不同的子數據庫分別存儲各主題下的數據,從而形成多個不同業務主題的數據集,為上層系統提供經過初步劃分的數據。其中,所述業務主題可以包括但不限于:訪問量、訪問時間、網站分析信息等。經過上述MapReduce處理后,不僅去除了大量重復數據,而且對數據進行了基本的分類,極大地減少了數據總量并使得數據匯總單元對數據的訪問更加高效和便利。另外,海量的原始網絡訪問數據中通常會包含大量的無效數據,為了將目標數據限定在用戶真正需要和關心的數據范圍內,在該劃分操作之前還可以預先去除原始網絡訪問數據中的無效數據。可以根據實際的業務需求來定義無效數據的判斷準則,例如可以是后綴錯誤的域名數據,訪問量小于預設閾值的域名數據等。進一步地還可以設置例外情況處理機制,對于某些符合上述判斷準則的無效數據有時并不希望被過濾掉,那么可以通過設置白名單的方式來保留,即,在識別無效數據時先判斷是否屬于黑白名單中預設的域名數據,對于白名單中的域名數據和所述域名數據的下級域名數據,始終視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,始終視為無效數據。在本實施例的一個優選實施方式中,所述黑白名單均存儲一級域名,對于白名單中的域名數據和所述域名數據的下級域名數據,均視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,均視為無效數據。通過這一預處理方式大幅地減少了實際需要處理的數據量,從而進一步提升了數據的處理效率。數據匯總單元202,對每個業務主題數據集中包含的數據根據不同的指標進行統計,然后將各業務主題的統計數據保存起來供上層業務系統使用。為了進一步提高數據處理效率,給上層業務的復雜運算迅速地提供盡可能貼近其需求的數據,本發明中根據實際的業務需求,按照不同的指標對經過數據劃分單元處理后的各業務主題數據集進行統計,將統計得到的結果保存起來,通過這樣預先的處理,當上層業務系統需要這些數據時,可以直接訪問,無需現場進行計算。而且,在選擇統計指標時選擇那些盡可能多的業務系統共同需要的指標,這樣可以大量地減少重復計算,提高數據的利用率以及整體的處理效率。另外,所述系統還可以進一步包括數據集市,并將所述統計數據保存至數據集市DM中。數據集市(Data Mart),簡稱為DM,是數據倉庫(DW)的一個專有版本。盡管一個數據倉庫聯合數據庫遍及整個企業,數據集市通常更小和集中在一個特定的部門。數據集市包括針對底層數據經過一定業務預處理的數據快照,更加貼近于上層業務的需求。數據集市使一個關系型數據庫來仿效一個多維數據庫的解析功能,可以實現對相關信息的輕松訪問。進一步地,為了方便外部系統對數據匯總單元統計后的數據進行訪問,所述系統還可以包括第一服務單元,以服務的方式為上述數據提供訪問接口,從而為不同的業務系統提供細粒度的復用途徑。更進一步,為了給不同的業務系統提供更貼近其需求的數據,簡化業務系統對上述統計數據的使用方式,所述系統還可以包括第二服務單元,以利用上述細粒度的服務接口創建至少一個業務子模塊,該業務子模塊中封裝了針對所述統計數據的更加貼近上層業務系統需求的預定義運算,而且同樣以服務的形式為該業務子模塊提供訪問接口。這樣,上層業務系統可以直接使用所述業務子模塊的服務接口來實現對所述統計數據的某些預定義運算,實現了對上述數據的粗粒度復用,簡化了對所述數據的使用方式。數據查詢單元203,當接收到統計信息查詢請求時,根據所述查詢請求要查詢的業務主題獲取對應的統計數據并返回。在獲取所述統計數據時可以利用前面所提供的不同粒度的服務訪問接口,為業務系統提供豐富的再加工數據,滿足了用戶對網絡訪問數據的多種業務需求。實施例三本發明還提供了基于分布式數據處理架構Handoop實現的互聯網信息統計系統,如圖3所示,該系統主要包括上層的業務系統301、服務層302、數據集市(DM) 303、數據倉庫(DW) 304、分布式存儲系統(ODS) 305。其中,數據集市DM基于HBASE實現,數據倉庫DW基于HIVE實現,分布式存儲系統ODS基于HDFS實現。接下來介紹其數據處理過程。首先,從外部將網絡訪問數據MOS導入存儲系統0DS,然后從ODS中將數據通過ETL的方式提取到數據倉庫DW中。ETL全稱為Extraction-Transformation-Loading,即數據提取、轉換和加載。可以實現ETL的工具有:0WB(0racleWarehouse Builder)> ODI(Oracle Data Integrator)、 Informatic PowerCenter>AICloudETL、DataStage>Repository Explorer、Beeload、Kettle、DataSpider 等。所述數據倉庫DW還包括兩個數據處理單元:數據拆分單元(DWD) 3041、數據匯總單元(DWA) 3042,其中,為了契合上層業務系統的數據需求,數據拆分單元DWD按照多個業務主題對所述網絡訪問數據進行劃分,用不同的子數據庫分別存儲各主題下的數據,從而形成多個不同業務主題的數據集,為數據匯總單元DWA提供經過初步劃分的數據。其中,所述劃分基于MapReduce機制來實現,該數據處理機制能夠在很短的時間內將大量的數據通過分布式并行計算的方式劃分為不同的數據集,本發明的海量數據處理正是MapReduce所擅長的。另外,所述業務主題可以包括但不限于:訪問量、訪問時間、網站分析信息等。經過上述MapReduce處理后,不僅去除了大量重復數據,而且對數據進行了基本的分類,極大地減少了數據總量并使得數據匯總單元DWA對數據的訪問更加高效和便利。在實際應用中還有一點不容忽視,海量的原始網絡訪問數據中通常會包含大量的無效數據,為了將目標數據限定在用戶真正需要和關心的數據范圍內,在所述劃分操作之前還可以預先去除原始網絡訪問數據中的無效數據。可以根據實際的業務需求來定義無效數據的判斷準則,例如可以是后綴錯誤的域名數據,訪問量小于預設閾值的域名數據等。進一步地還可以設置例外情況處理機制,對于某些符合上述判斷準則的無效數據有時并不希望被過濾掉,那么可以通過設置白名單的方式來保留,即,對于白名單中的域名數據始終視為有效數據;而對于某些即使是有效的數據有時也希望被過濾掉,那么可以通過設置黑名單的方式來強制過濾掉,即對于黑名單中的域名數據始終視為無效數據。在本實施例的一個優選實施方式中,所述黑白名單均存儲一級域名,對于白名單中的域名下的下級域名數據,均視為有效數據,對于黑名單中的域名下的下級域名數據,均視為無效數據。在本實施例的一個優選實施方式中,所述黑白名單均存儲一級域名,對于白名單中的域名數據和所述域名數據的下級域名數據,均視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,均視為無效數據。通過這一預處理方式大幅地減少了實際需要處理的數據量,從而進一步提升了數據的處理效率。另外,數據匯總單元(DWA) 3042對每個業務主題數據集中包含的數據根據不同的指標進行統計,然后將各業務主題的統計數據保存起來供上層業務系統使用。為了進一步提高數據處理效率,給上層業務的復雜運算迅速地提供盡可能貼近其需求的數據,本發明中根據實際的業務需求,按照不同的指標對經過數據拆分單元(DWD) 3041劃分處理后的各業務主題數據集進行統計,將統計得到的結果保存起來,通過這樣預先的處理,當上層業務系統需要這些數據時,可以直接訪問,無需現場進行計算。而且,在選擇統計指標時選擇那些盡可能多的業務系統共同需要的指標,這樣可以大量地減少重復計算,提高數據的利用率以及整體的處理效率。在數據匯總單元DWA對數據統計完成之后,可以將所述統計數據保存至數據集市DM中。數據集市DM (Data Mart),簡稱為DM,是數據倉庫(DW)的一個專有版本。盡管一個數據倉庫聯合數據庫遍及整個企業,數據集市通常更小和集中在一個特定的部門。數據集市包括針對底層數據經過一定業務預處理的數據快照,更加貼近于上層業務的需求。數據集市使一個關系型數據庫來仿效一個多維數據庫的解析功能,可以實現對相關信息的輕松訪問。進一步地,為了方便外部系統對數據匯總單元DWA統計后的數據進行訪問,可以在DM之上增加一個細粒度服務層3021,以服務的方式為上述數據提供訪問接口,從而為不同的業務系統提供細粒度的復用途徑。進一步地,為了給不同的業務系統提供更貼近其需求的數據,簡化業務系統對上述統計數據的使用方式,還可以在上述細粒度服務層之上增加一個粗粒度服務層3022。在服務層302中,利用上述細粒度的服務接口創建至少一個業務子模塊,該業務子模塊中封裝了針對所述統計數據的更加貼近上層業務系統需求的預定義運算,而且同樣以服務的形式為該業務子模塊提供訪問接口。這樣,上層業務系統可以直接使用所述業務子模塊的服務接口來實現對所述統計數據的某些預定義運算,實現了對上述數據的粗粒度復用,簡化了對所述數據的使用方式。當接收到業務系統301的查詢請求時,數據集市DM根據其查詢需求返回其所需數據。借助于前面所提供的服務層細粒度服務層3021和粗粒度服務層3022可以分別以不同的粒度來訪問數據集市所提供的數據,從而為業務系統提供豐富的再加工數據,滿足了用戶對網絡訪問數據的多種業務需求。本發明能方便用戶深入了解某一個行業、某一個網站或者某些競爭網站的訪問量、訪問次數、訪問用戶、搜搜關鍵詞、每個搜索關鍵詞帶來的流量等各種信息,并能夠以不同的粒度、高速準確地為不同的業務系統及用戶呈現豐富的統計數據以發掘和展示繁雜的網絡訪問數據之間的內在關系,為決策部門提供翔實客觀的數據支持。以上實施例提供的技術方案中的全部或部分內容可以通過軟件編程實現,其軟件程序存儲在可讀取的存儲介質中,存儲介質例如:計算機中的硬盤、光盤或軟盤。以上所述僅為本發明的較佳實施例,并不用以限制本發明,凡在本發明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發明的保護范圍之內。
權利要求
1.一種互聯網信息統計方法,其特征在于,包括: 51、按照業務主題將用戶網絡訪問數據通過MapReduce劃分成多個業務主題數據集,其中,所述用戶網絡訪問數據為用戶跨網訪問數據; 52、對每個業務主題數據集中包含的數據根據不同的指標進行統計,將各業務主題的統計數據保存起來; 53、當接收到統計信息查詢請求時,根據所述查詢請求要查詢的業務主題獲取對應的統計數據并返回。
2.如權利要求1所述的互聯網信息統計方法,其特征在于,在所述步驟SI之前還包括:預先去除網絡訪問數據中的無效數據;所述無效數據包括:后綴錯誤的域名數據,訪問量小于預設閾值的域名數據。
3.如權利要求2所述的互聯網信息統計方法,其特征在于,在識別無效數據時先判斷是否屬于黑白名單中預設的域名數據,對于白名單中的域名數據和所述域名數據的下級域名數據,始終視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,始終視為無效數據。
4.如權利要求1所述的互聯網信息統計方法,其特征在于,所述步驟S2中的所述將各業務主題的統計數據保存起來具體為:將所述各業務主題的統計數據保存到數據集市DM中。
5.如權利要求1所述的互聯網信息統計方法,其特征在于,以服務的形式為所述步驟S2中的各業務主題的統計數據提供訪問接口。
6.如權利要求5所述的互聯網信息統計方法,其特征在于,利用所述服務創建至少一個業務子模塊,其中封裝了針對所述統計數據的預定義運算,并以服務的形式為該業務子模塊提供訪問接口。
7.—種互聯網信息統計系統,其特征在于,包括: 數據拆分單元,按照業務主題將用戶網絡訪問數據通過MapReduce劃分成多個業務主題數據集,其中,所述用戶網絡訪問數據為用戶跨網訪問數據;數據匯總單元,對每個業務主題數據集中包含的數據根據不同的指標進行統計,將各業務主題的統計數據保存起來; 數據查詢單元,當接收到統計信息查詢請求時,根據所述查詢請求要查詢的業務主題獲取對應的統計數據并返回。
8.如權利要求7所述的互聯網信息統計系統,其特征在于還包括: 數據預處理單元,預先去除網絡訪問數據中的無效數據; 所述無效數據包括:后綴錯誤的域名數據,訪問量小于預設閾值的域名數據。
9.如權利要求8所述的互聯網信息統計系統,其特征在于,在識別無效數據時先判斷是否屬于黑白名單中預設的域名數據,對于白名單中的域名數據和所述域名數據的下級域名數據,始終視為有效數據,對于黑名單中的域名數據和所述域名數據的下級域名數據,始終視為無效數據。
10.如權利要求7所述的互聯網信息統計系統,其特征在于還包括數據集市,用于保存數據匯總單元統計得到的數據。
全文摘要
本發明公開了一種互聯網信息統計方法及其系統,方法包括S1、按照業務主題將用戶網絡訪問數據通過MapReduce劃分成多個業務主題數據集;S2、對每個業務主題數據集中包含的數據根據不同的指標進行統計,將統計數據保存起來;S3、當接收到統計信息查詢請求時,根據查詢請求要查詢的業務主題獲取對應的統計數據并返回。本發明能方便用戶深入了解某一個行業、某一個網站或者某些競爭網站的訪問量、訪問次數、訪問用戶、搜搜關鍵詞、各搜索關鍵詞帶來的流量等信息,并能夠以不同的粒度、高速準確地為不同的業務系統及用戶呈現豐富的統計數據以發掘和展示繁雜的網絡訪問數據之間的內在關系,為決策部門提供詳實客觀的數據支持。
文檔編號H04L29/12GK103200269SQ20131012749
公開日2013年7月10日 申請日期2013年4月12日 優先權日2013年4月12日
發明者余效偉, 羅峰, 黃蘇支, 李娜 申請人:億贊普(北京)科技有限公司