本發明涉及互聯網領域,尤其涉及一種互聯網流量流向大數據智能分析決策系統。
背景技術:
隨著互聯網業務的迅猛發展,激增的網絡用戶、信息數量和網絡資源刺激著網絡的不斷升級與開拓。呈指數級增長的廣大用戶、信息與資源數量要求運營商提供不斷升級的高品質服務,網絡帶寬與速度升級都迫在眉睫。從整體來看,以上這些目標的實現依賴于基礎設施建設的升級,從戰略上來看,通過對互聯網流量流向決策分析及合理調度,也可達到高效利用當前基礎設施實現升級的目標,更好的保障服務的實現與品質提升。
目前,龐大的用戶數量以及隨之而來龐大的網絡應用需求推動著互聯網硬件設施和軟件設備的升級,網絡流量十分龐大。采用海量的硬件投入來達成基礎設施升級明顯是不可取的;龐大的網絡流量也需要分析和控制。因此,通過探索一條合理控制網絡流量流向達到高效利用當前基礎設施實現升級的目標,更好的保障服務的實現與品質升級,顯得必要且具有重大意義。
技術實現要素:
有鑒于此,本發明提供一種互聯網流量流向大數據智能分析決策方法及系統,以解決上述技術問題。
本發明提供的互聯網流量流向大數據智能分析決策,包括:
采集互聯網基礎數據,并對所述互聯網基礎數據進行分析,根據用戶請求特定的域名,對引入偏差的域名進行遞歸處理,并對遞歸處理的結果進行篩選,將特定域名的目的IP重定向。
進一步,還包括對互聯網基礎數據進行預處理,所述互聯網基礎數據包括DNS日志數據、基礎資料爬蟲數據和IP段歸屬基礎庫數據,所述預處理包括對DNS解析失敗和域名不合格的DNS日志數據進行篩選和合并。
進一步,所述遞歸處理包括在固定周期內連續對遞歸列表發起請求,對連續請求結果的IP地址進行篩選:
如果沒有符合優先應答的結果,則放棄對該域名的后續操作,直到下一個周期重新執行;
如果有符合優先應答的結果,則將該域名的對應優先應答地址進行引流,所述遞歸列表為偏差域名的詳細列表。
進一步,通過IP段劃分,判斷DNS日志中用戶的上網方式和用戶訪問的最終服務器地址,所述IP段劃分包括將運營商網內IP段按用戶端分為手機用戶IP端和互聯網用戶IP段;按服務端分為緩存服務器IP段、內容分發網絡引入IP地址段和直連引入IP地址段。
進一步,當流量調度發生異常時,針對不同業務類型、不同維度和不同指標的異常數據,進行告警。
進一步,根據預設條件在海量DNS日志中過濾出符合預設條件的日志并導出,所述預設條件包括用戶請求時間、請求的IP地址和請求的域名。
本發明還提供一種互聯網流量流向大數據智能分析決策系統,包括:
服務器,用于生成DNS日志數據;
數據采集模塊,用于采集互聯網基礎數據,所述互聯網基礎數據包括DNS日志數據;
數據存儲模塊,用于存儲互聯網基礎數據;
數據處理模塊,用于對所述互聯網基礎數據進行分析,根據用戶請求特定的域名,對引入偏差的域名進行遞歸處理,并對遞歸的結果進行篩選,將特定域名的目的IP重定向。
進一步,還包括預處理模塊,用于對互聯網基礎數據進行預處理,所述互聯網基礎數據還包括基礎資料爬蟲數據和IP段歸屬基礎庫數據,所述預處理包括對DNS解析失敗和域名不合格的DNS日志數據進行篩選、合并處理。
進一步,還包括用于當流量調度發生異常時進行告警的告警模塊和根據用戶請求時間、請求的IP地址和請求的域名,在海量DNS日志中過濾出符合預設條件的日志并導出的日志過濾模塊。
進一步,所述數據處理模塊包括:
遞歸模塊,用于在固定周期內對連續請求結果的IP地址進行篩選并將域名對應的優先應答地址傳遞給流量引導模塊,
流量引流模塊,用于保存優先應答地址對應的該域名的優化調度策略,遞歸模塊傳遞的域名進行引流。
本發明的有益效果:本發明中的互聯網流量流向大數據智能分析決策方法及系統,通過對DNS系統解析日志進行采集并存儲,可以定期分析互聯網熱點資源,并依據分析結果,進行調度優化,使用戶的訪問請求盡可能多的命中網內資源,從而提升用戶感知,并達到提升流量本網率和降低運營成本的效果,本發明能夠合理控制網絡流量流向,達到高效利用當前基礎設施實現升級的目標,更好的保障服務的實現與品質升級。
附圖說明
下面結合附圖和實施例對本發明作進一步描述:
圖1是本發明的實施例中的互聯網流量流向大數據智能分析決策方法原理示意圖。
圖2是本發明實施例中的互聯網流量流向大數據智能分析決策方法流程示意圖。
圖3是本發明實施例中的互聯網流量流向大數據智能分析決策系統的結構示意圖。
具體實施方式
下面結合附圖和實施例對本發明作進一步描述:圖1是本發明的原理示意圖。
如圖1、所示,本實施例中的互聯網流量流向大數據智能分析決策方法,包括:
采集互聯網基礎數據,并對所述互聯網基礎數據進行分析,根據用戶請求特定的域名,對引入偏差的域名進行遞歸處理,并對遞歸處理的結果進行篩選,將特定域名的目的IP重定向。
在本實施例中,首先獲取需要優化的域名列表,通過DNS日志掃描出應答結果存在不是最優結果的域名。將掃描出來的域名可以通過FTP或其它方式傳遞給遞歸模塊,遞歸模塊通過多次遞歸處理,獲得完整應答IP地址信息,遞歸模塊對獲得IP地址信息進行過濾,獲取最優結果,將最優結果作為重定向后的結果,反饋給用戶。從而使用戶的訪問請求盡可能多的命中網內資源,進而提升用戶感知,并達到提升流量本網率和降低運營成本的效果。
優選地,本實施例中,將最優結果寫入流量引流模塊。流量引流模塊保存對該域名的優化調度策略。當用戶發起請求時,向緩存模塊請求DNS,系統判斷是否有緩存:如果有緩存,就將結果返回給用戶,直接給A記錄;如果沒有緩存,遞歸解析所需內容,同時將DNS請求發送給流量分析優化系統。如果流量引流模塊對該域名有優化調度策略,則按照優先應答策略相應報文。同時,遞歸過程中的授權DNS也會相應設有經過優化的應答報文,由于授權DNS通常和本地DNS服務器距離較遠,本地DNS服務器會優先收到流量分析優化系統的報文,并將該結果寫入緩存。本地DNS服務器將結果返回給用戶。
在本實施例中,互聯網基礎數據包括DNS日志數據、基礎資料爬蟲數據和IP段歸屬基礎庫數據,采用網絡爬蟲,實現對關鍵域和域名、公司、備案號、TCP、UDP、網站名、服務類型等資料的爬蟲,用作詳細內容匹配。通過對同一個域名進行多次遞歸找到符合要求的應答結果,并將結果通過一定方式放入本地DNS服務器的緩存中;對本地DNS服務器中某組域名的TTL(Time To Live,生存時間)進行優化,優化策略包括強制定義TTL,對TTL數值進行加減乘除的運算,支持對同一個域名進行多次遞歸找到符合要求的應答結果,并將結果放入本地DNS服務器的緩存中。本實施例中的DNS日志通過FTP方式上傳到分析系統,調度系統需求獲取到遞歸DNS出網遞歸的請求,通過分光/鏡像,將請求數據引入到調度系統內。
如圖2所示,在本實施例中,還包括對互聯網基礎數據進行預處理,所述互聯網基礎數據包括DNS日志數據、基礎資料爬蟲數據和IP段歸屬基礎庫數據,所述預處理包括對DNS解析失敗和域名不合格的DNS日志數據進行篩選和合并。由DNS獲取模塊獲取到的原始的DNS解析日志數量龐大,并且存在很多解析失敗、域名不合格的情況,優選地,本實施例通過對原始的DNS解析日志進行篩選,合并等處理,最終形成一個.out文件,傳送給預處理模塊。下面詳細介紹DNS日志處理模塊對DNS日志的處理內容:在Local DNS日志中,用戶IP的信息對于本系統的流量流向分析也是不重要的,因為流量流向分析主要觀察的是流量的“去向”,而非流量的“來源”。本實施例對這一部分的信息進行了篩除,分為移動用戶、互聯網用戶,全網用戶為移動用戶、互聯網用戶的合集。DNS規定,域名中的標號都有英文字母和數字組成,每一個標號不超過63個字符,也不區分大小寫字母。標號中除連字符展覽開幕(-)外不能使用其他的標點符號。級別最低的域名寫在最左邊,而級別最高的域名寫在最右邊。由多個標號組成的完整域名總共不超過255個字符。所以,凡不符合上述規范的請求域名被認為是不合格的域名,對這部分的日志進行了篩除。另外,對用戶請求的相同的域名進行合并,統計每個相同域名的合并次數,即為該域名的請求次數,并記錄該值。相同域名的解析結果IP可能不同,合并相同的結果IP并記錄次數,存入該域名列表。本領域技術人員可以知曉,上述預處理過程通過現有技術中的處理模塊均可實現,在此不再贅述。
如圖2所示,在本實施例中,所述遞歸處理包括在固定周期內連續對遞歸列表發起請求,對連續請求結果的IP地址進行篩選:
如果沒有符合優先應答的結果,則放棄對該域名的后續操作,直到下一個周期重新執行;
如果有符合優先應答的結果,則將該域名的對應優先應答地址進行引流,所述遞歸列表為偏差域名的詳細列表。
在本實施例中,通過IP段劃分,判斷DNS日志中用戶的上網方式和用戶訪問的最終服務器地址,所述IP段劃分包括將運營商網內IP段按用戶端分為手機用戶IP端和互聯網用戶IP段;按服務端分為緩存服務器IP段、內容分發網絡引入IP地址段和直連引入IP地址段。內容分發網絡(Content Delivery Network,簡稱CDN),IP地址庫為運營商網內IP段和國內IP段,根據DNS流量流向分析系統的具體需求,將運營商網內IP段按用戶端分為手機用戶IP端和互聯網用戶IP段,通過對不同IP段的劃分,能準確的判斷DNS日志中用戶的上網方式和用戶訪問的最終服務器地址。
在本實施例中,當流量調度發生異常時,針對不同業務類型、不同維度和/或不同指標的異常數據,進行告警。包括全部資源告警,本省資源告警,通過各類閾值來判斷指標是否達到告警,便于及時查找流量異常的原因。本實施例提供針對不同業務類型的告警數據展示功能,包含并不限于:集客、WLAN、手機3G、手機4G。提供針對不同維度的告警,包含公司流量異常,域流量異常,域名流量異常三個部分。提供針對不同指標的告警,包含公司點擊率異常(變大或變小),出網率異常(變大或變小),出網次數異常(變大或變小)。
在本實施例中,根據預設條件在海量DNS日志中過濾出符合預設條件的日志并導出,所述預設條件包括用戶請求時間、請求的IP地址和請求的域名。通過日志過濾,可根據時間,請求的IP和請求的域名,在原始海量日志中過濾出符合條件的日志,并以表格形式導出,便于分析排查。
如圖3所示,相應地,本發明還提供一種互聯網流量流向大數據智能分析決策系統,包括:
日志服務器,用于生成DNS日志數據;
數據采集模塊,用于采集互聯網基礎數據,所述互聯網基礎數據包括DNS日志數據;
數據存儲模塊,用于存儲互聯網基礎數據;
數據處理模塊,用于對所述互聯網基礎數據進行分析,根據用戶請求特定的域名,對引入偏差的域名進行遞歸處理,并對遞歸的結果進行篩選,將特定域名的目的IP重定向。
預處理模塊,用于對互聯網基礎數據進行預處理,所述互聯網基礎數據還包括基礎資料爬蟲數據和IP段歸屬基礎庫數據,所述預處理包括對DNS解析失敗和域名不合格的DNS日志數據進行篩選、合并處理。
日志過濾模塊,用于當流量調度發生異常時進行告警的告警模塊和根據用戶請求時間、請求的IP地址和請求的域名,在海量DNS日志中過濾出符合預設條件的日志并導出。
數據處理模塊包括:
遞歸模塊,用于在固定周期內對連續請求結果的IP地址進行篩選并將域名對應的優先應答地址傳遞給流量引導模塊,
流量引流模塊,用于保存優先應答地址對應的該域名的優化調度策略,遞歸模塊傳遞的域名進行引流。
在本實施例中,從本地DNS服務器中收集數據包,預處理模塊對數據包進行處理,通過對數據包的處理后生成一個五元組數據,即請求時間、用戶IP、請求域名、解析結果IP、解析是否正確。按照預先設計的命名規則、日志格式、文件大小、時間間隔,生成需要上傳的日志文件。日志服務器每五分鐘上傳一次日志文件,多少臺服務器就多少個文件,每個文件壓縮后大概在300M左右定時提供文件上發信息報告,包括上發時間、文件名稱、文件大小、是否成功等信息。定期對上發成功的文件進行刪除。優選地,日志文件在本地存儲24小時后刪除。將生成的日志文件和傳輸完整性判斷文件上發到數據處理模塊。在約定的時間內把壓縮后的日志文件上傳到數據處理模塊進行處理。
在本實施例中,通過獲取有偏差域名的詳細列表,將列表發布給遞歸模塊,遞歸模塊在固定周期內連續遞歸請求N次,對N次結果的IP地址進行篩選。如果有網內地址則將網內地址解析給LDNS,如果沒有網內地址則不做任何策略。該部分的技術難點在于如何界定一個域名級的資源調度有偏差,通過日志分析獲得前一天的日志中解析將結果中即包含了網內地址也包含了網外地址的認定為有偏差,如果直接將有偏差的域名進行強制應答一個固定的結果解析給用戶有潛在的風險,因為不能確定這些網內地址在一定時間周期后是否可用,所以本實施例將這些偏差域名列出來,具體響應用戶什么結果,由實時的多次遞歸結果來判斷,同時嚴格按照域名請求的TTL對返回結果的有效性進行控制,確保資源有效,即在網內的解析地址過期前進行多次遞歸,確定下一個TTL周期內給用戶返回的最佳地址。
最后說明的是,以上實施例僅用以說明本發明的技術方案而非限制,盡管參照較佳實施例對本發明進行了詳細說明,本領域的普通技術人員應當理解,可以對本發明的技術方案進行修改或者等同替換,而不脫離本發明技術方案的宗旨和范圍,其均應涵蓋在本發明的權利要求范圍當中。