本發明涉及互聯網技術領域,尤其涉及一種站點地域識別方法及系統。
背景技術:
站點地域信息指的是一個站點的地域歸屬信息。作為站點的基礎屬性,地域信息對站點的抓取、分類、信息提取等多種應用具有重要價值。比如在網站抓取方面,通過對站點地域信息的獲取,選擇最優抓取節點抓取站點網頁,可以大大提高抓取成功率和速度;在搜索引擎的網頁排名中,站點地域信息也可以作為一個調權因子,使搜索的排序結果可以滿足不同地域用戶的精確需求。
dns是域名系統(domainnamesystem)的縮寫,是因特網的一項核心服務,可將域名轉換成ip地址,這種將域名轉換成ip地址的過程被稱為域名解析。dns服務使用戶可方便地通過域名訪問互聯網,而無需記住枯燥難記的ip地址。
現有的站點地域識別方法通過人工對站點的地域進行標注。但是互聯網上的站點數量龐大,且持續增長,通過人工標注無法完成所有站點的地域識別,且大量的不知名站點的地域信息非人工能簡單獲取,因此,需要一種自動識別站點地域信息的方法,以滿足站點數據處理的需要。
技術實現要素:
本發明所要解決的技術問題是:如何提供一種自動識別站點地域的方法。
為解決上述技術問題,本發明一方面提供一種站點地域識別方法,該方法包括:
根據待識別站點的域名獲取待識別站點的ip地址;
根據全球ip地址分配表建立ip地址與站點地域信息的映射表;
查找所述ip地址與站點地域信息的映射表,獲取與所述待識別站點的ip地址對應的站點地域信息。
可選地,在所述根據全球ip地址分配表建立ip地址與站點地域信息的映射表之前,還包括:獲取全球ip地址分配表。
可選地,所述根據待識別站點的域名獲取待識別站點的ip地址,包括:
采用dns服務根據待識別站點的域名解析出待識別站點的ip地址。
可選地,在所述根據全球ip地址分配表建立ip地址與站點地域信息的映射表之后,包括:
根據所述ip地址建立所述映射表的索引;
相應地,所述查找所述ip地址與站點地域信息的映射表,包括:采用二分法查找所述ip地址與站點地域信息的映射表。
可選地,所述查找所述ip地址與站點地域信息的映射表包括:
將所述ip地址與站點地域信息的映射表拆分成多個數據分片;
利用多個計算節點分別讀取相應的數據分片進行數據查找。
本發明另一方面提供一種站點地域識別系統,該系統包括:
ip地址獲取單元,用于根據待識別站點的域名獲取待識別站點的ip地址;
映射表建立單元,用于根據全球ip地址分配表建立ip地址與站點地域信息的映射表;
地域識別單元,用于查找所述ip地址與站點地域信息的映射表,獲取與所述待識別站點的ip地址對應的站點地域信息。
可選地,該系統還包括:
ip地址分配表獲取單元,用于獲取全球ip地址分配表
可選地,所述ip地址獲取單元,進一步用于采用dns服務根據待識別站點的域名解析出待識別站點的ip地址。
可選地,該系統還包括:
索引建立單元,用于根據所述ip地址建立所述映射表的索引;
相應地,所述地域識別單元用于采用二分法查找所述ip地址與站點地域信息的映射表。
可選地,所述地域識別單元包括:
映射表拆分模塊,用于將所述ip地址與站點地域信息的映射表拆分成多個數據分片;
數據查找模塊,用于利用多個計算節點分別讀取相應的數據分片進行數據查找。
本發明提供的站點地域識別方法及系統,通過獲取到的待識別站點的ip地址查找ip地址與站點地域信息的映射表,獲取與所述待識別站點的ip地址對應的站點地域信息,避免了部分站點信息無法通過人工獲取的缺陷,實現了自動識別站點地域,方便快捷。
附圖說明
通過參考附圖會更加清楚的理解本發明的特征和優點,附圖是示意性的而不應理解為對本發明進行任何限制,在附圖中:
圖1示出了本發明一個實施例的站點地域識別方法的流程示意圖;
圖2示出了本發明一個實施例的站點地域識別系統的結構示意圖。
具體實施方式
下面將結合附圖對本發明的實施例進行詳細描述。
圖1是本發明一個實施例的站點地域識別方法的流程示意圖。如圖1所示,本實施例的站點地域識別方法包括:
s11:根據待識別站點的域名獲取待識別站點的ip地址;
s12:根據全球ip地址分配表建立ip地址與站點地域信息的映射表;
s13:查找所述ip地址與站點地域信息的映射表,獲取與所述待識別站點的ip地址對應的站點地域信息。
本實施例的站點地域識別方法,通過獲取到的待識別站點的ip地址查找ip地址與站點地域信息的映射表,獲取與所述待識別站點的ip地址對應的站點地域信息,避免了部分站點信息無法通過人工獲取的缺陷,實現了自動識別站點地域,方便快捷。
在一種可選的實施方式中,在所述根據全球ip地址分配表建立ip地址與站點地域信息的映射表之前,還包括:獲取全球ip地址分配表。
在實際應用中,可以從全球ip地址分配委員會官方地址獲取全球ip地址分配表,該全球ip地址分配表會定期更新。
進一步地,所述根據待識別站點的域名獲取待識別站點的ip地址,包括:
采用dns服務根據待識別站點的域名解析出待識別站點的ip地址。
在實際應用中,采用dns服務解析ip地址的過程為:
客戶端的發起包含有待解析域名的請求包,如果客戶端緩存中沒有該域名對應的ip地址,客戶端會向本地dns服務器發起dns查詢請求,如果本地dns服務器仍舊沒有該域名對應的ip地址,則本地dns服務器會向遞歸服務器發起遞歸查詢請求,遞歸服務器在接到遞歸查詢請求后,會查看自己的緩存中是否有所查詢的內容,若有,則直接響應本地dns服務器,若緩存中沒有,則由遞歸服務器向根服務器發起查詢請求,根服務器向遞歸服務器發送該域名對應的權威服務器的地址,遞歸服務器接收到該權威服務器的地址后,會向該權威服務器發起查詢請求,直至權威服務器向遞歸服務器返回該域名對應的ip地址,遞歸服務器將該ip地址反饋給客戶端, 完成了一次域名解析的過程。
為了提高查找所述映射表的效率,在所述根據全球ip地址分配表建立ip地址與站點地域信息的映射表之后,包括:
根據所述ip地址建立所述映射表的索引;
相應地,所述查找所述ip地址與站點地域信息的映射表,包括:采用二分法查找所述ip地址與站點地域信息的映射表。
進一步地,所述查找所述ip地址與站點地域信息的映射表包括:
將所述ip地址與站點地域信息的映射表拆分成多個數據分片;
利用多個計算節點分別讀取相應的數據分片進行數據查找。
需要說明的是,將映射表拆分成多個數據分片,利用多個計算節點進行并行查找也提高了查找映射表的效率。本實施例的站點地域識別方法實現了自動、高效識別站點地域。
圖2示出了本發明一個實施例的站點地域識別系統的結構示意圖。如圖2所示,本實施例的站點地域識別系統包括:
ip地址獲取單元21,用于根據待識別站點的域名獲取待識別站點的ip地址;
映射表建立單元22,用于根據全球ip地址分配表建立ip地址與站點地域信息的映射表;
地域識別單元23,用于查找所述ip地址與站點地域信息的映射表,獲取與所述待識別站點的ip地址對應的站點地域信息。
在一種可選的實施方式中,該系統還包括:
ip地址分配表獲取單元,用于獲取全球ip地址分配表
ip地址獲取單元31,進一步用于采用dns服務根據待識別站點的域名解析出待識別站點的ip地址。
進一步地,該系統還包括:
索引建立單元,用于根據所述ip地址建立所述映射表的索引;
相應地,地域識別單元23用于采用二分法查找所述ip地址與站點 地域信息的映射表。
進一步地,地域識別單元23包括:
映射表拆分模塊,用于將所述ip地址與站點地域信息的映射表拆分成多個數據分片;
數據查找模塊,用于利用多個計算節點分別讀取相應的數據分片進行數據查找。
本實施例的站點地域識別系統可以用于執行上述方法實施例,其原理和技術效果類似,此處不再贅述。
本發明提供的站點地域識別方法及系統,通過獲取到的待識別站點的ip地址查找ip地址與站點地域信息的映射表,獲取與所述待識別站點的ip地址對應的站點地域信息,避免了部分站點信息無法通過人工獲取的缺陷,實現了自動識別站點地域,方便快捷。
雖然結合附圖描述了本發明的實施方式,但是本領域技術人員可以在不脫離本發明的精神和范圍的情況下做出各種修改和變型,這樣的修改和變型均落入由所附權利要求所限定的范圍之內。