基于搜索引擎的機構網站歸屬地判別方法及其裝置的制造方法
【專利摘要】本發明提供一種基于搜索引擎的機構網站歸屬地判別方法及其裝置,該方法基于搜索引擎實時爬取并處理Web數據,具有多個數據采集分析與處理模塊,智能化檢測機構網站的真實歸屬地。相較于人工整理收錄的方式,該方法屬于自動化檢測,節省了人工判斷和處理的時間,實時采集處理數據,時效性強,提升了數據有效性,覆蓋查詢范圍更廣,檢測效果更好。
【專利說明】
基于搜索引擎的機構網站歸屬地判別方法及其裝置
技術領域
[0001]本發明涉及網站信息獲取技術領域,具體的涉及一種基于搜索引擎的機構網站歸屬地判別方法及其裝置。
【背景技術】
[0002]目前的網絡環境中信息鋪天蓋地,真假信息參差不齊,對于一些機構網站尤其那些既與民眾息息相關又具有盈利性質的虛假機構網站,用戶多數情況下無從對其性質進行準確判別。若能獲知這些機構網站在現實世界中的歸屬地,將有利于用戶其真實性進行準確判斷。而對于互聯網管理部門進行網絡整頓、情報收集、機構查證等常規檢查時,則需要通過獲取網站的地理位置來獲取該網站的地理位置應用場景。網站機構的地理位置歸屬地是一個網站的重要信息,該信息缺失為互聯網管理部門對網站進行監管、對訪問用戶對網站進行判別帶來較大的困難。
[0003]目前網絡上大量機構網站的信息并不完整,無法通過直觀的網站信息得知機構的歸屬地,互聯網中大量機構網站的網頁內容缺少地理位置標明的原因:為實現網站的非法運營而隱藏地理位置、網站建設時不慎遺漏等,而有的機構網站又存在名稱重復和指示的地理信息重名等現象。現有網絡環境中,無法僅依靠網站提供的信息來準確判斷該機構的真實歸屬地,例如“長沙縣”這個地名,不僅在中國湖南省長沙市有一個地名為長沙縣,越南也有一個地名為長沙縣;再比如“鳳凰鎮”這個地名,僅在中國境內就存在16個同名的鳳凰鎮,分布在全國各個省份,如果僅僅通過“鳳凰鎮人民政府網”網站的名稱,是無法準確識別出該網站所指鳳凰鎮是哪個省份的鳳凰鎮政府機構網站。
[0004]現有方法多是通過人工收錄機構信息的黃頁信息服務平臺進行檢索。但所收錄的很多網絡信息存在機構信息缺失或者不完整的情況,并且通過人工收集和整理網站信息所需人力資源和成本較高,耗時較久,實時維護更新也存在難題。現有的另一種方法則是通過簡單的域名解析獲得IP地址,進一步以查詢到該網站對應的服務器地址來獲得機構網站的地址,該方法獲得的網站機構的地理信息并不準確,僅僅憑借服務器的地理位置并不能判斷該機構的真實歸屬地。
[0005]現有的獲取信息較為準確的方法是通過人工收錄機構信息的黃頁信息服務平臺獲取,但由于是人工方式處理,很多網絡存在的機構的信息并未及時收錄或者收錄內容不完整,并且人為收集和整理需要耗費較大的人力資源和成本,實時維護更新也存在難題。而另一種通過簡單的域名解析獲得IP地址方法查詢到對應的服務器地址來獲得機構網站的地址方法并不準確,因為往往僅僅憑借服務器的地理位置并不能判斷該機構的真實歸屬地。
【發明內容】
[0006]本發明的目的在于提供一種基于搜索引擎的機構網站歸屬地判別方法及其裝置,該發明解決了現有技術中難以快速準確自動地的獲得機構類網站機構歸屬地的技術問題。
[0007]本發明的一方面提供了一種基于搜索引擎的機構網站歸屬地判別方法及其裝置,包括以下步驟:
[0008]步驟SlOO:爬取待處理機構網站的URL,將域名URL解析成IP地址,根據該IP地址,定位待處理網站服務器所在地,判斷該IP地址與服務器所在地地理位置是否存在一一對應關系,如果該IP地址對應的服務器所在地地理位置唯一,則以該服務器所在地的地理位置作為該結構網址的歸屬地;
[0009]步驟200:如果該IP地址對應多個服務器所在地地理位置,爬取機構網站的文本內容,判斷網站文本內容中是否已經包含歸屬地名稱,如果判斷為是,則以網站文本內容中的歸屬地信息作為待處理機構網站的歸屬地,如果判斷為否,則通過命名實體識別算法提取網站文本內容中的關鍵詞,并將關鍵詞保存到關鍵詞列表S中;
[0010]步驟S300:通過搜索引擎,檢索關鍵詞列表S中所有關鍵詞,將搜索結果對應的網站作為候選網站,并提取候選網站中的文本內容;
[0011 ]步驟S400:對所提取的文本內容進行命名實體識別,提取出關鍵詞列表F,將關鍵詞列表S與關鍵詞列表F進行網頁文本匹配,獲得匹配度最高的前十個網站,逐一對匹配度最高的前十個網站的所有文本內容進行句法分析,提取地理位置信息,作為該機構網站的歸屬地。
[0012]進一步地,步驟S300中還包括判斷候選網站中是否存在百科詞條,如果是百科詞條,分析百科頁面提取地理位置信息,并保存至百科文本內容;如果不是百科詞條,則爬取并解析搜索結果頁面內容,保存搜索結果文本內容。
[0013]進一步地,關鍵詞包括人名、地名和機構名。
[0014]本發明的另一方面還提供了一種用于上述方法的基于搜索引擎的機構網站歸屬地判別裝置,包括:
[0015]網站信息爬取模塊,用于爬取待處理機構網站的URL,將域名URL解析成IP地址,根據該IP地址,定位待處理網站服務器所在地,判斷該IP地址與服務器所在地地理位置是否存在一一對應關系,如果該IP地址對應的服務器所在地地理位置唯一,則以該服務器所在地的地理位置作為該結構網址的歸屬地;
[0016]網頁內容爬取模塊,如果該IP地址對應多個服務器所在地地理位置,爬取機構網站的文本內容,判斷網站文本內容中是否已經包含歸屬地名稱,如果判斷為是,則以網站文本內容中的歸屬地信息作為待處理機構網站的歸屬地,如果判斷為否,則通過命名實體識別算法提取網站文本內容中的關鍵詞,并將關鍵詞保存到關鍵詞列表S中;
[0017]搜索采集模塊,用于通過搜索引擎,檢索關鍵詞列表S中所有關鍵詞,將搜索結果對應的網站作為候選網站,并提取候選網站中的文本內容;
[0018]數據識別地理信息推斷模塊,用于對所提取的文本內容進行命名實體識別,提取出關鍵詞列表F,將關鍵詞列表S與關鍵詞列表F進行網頁文本匹配,獲得匹配度最高的前十個網站,逐一對匹配度最高的前十個網站的所有文本內容進行句法分析,提取地理位置信息,作為該機構網站的歸屬地。
[0019]進一步地,搜索采集模塊還包括:百科詞條模塊,用于判斷候選網站中是否存在百科詞條,如果是百科詞條,分析百科頁面提取地理位置信息,并保存至百科文本內容;如果不是百科詞條,則爬取并解析搜索結果頁面內容,保存搜索結果文本內容。
[0020]進一步地,關鍵詞包括人名、地名和機構名。
[0021]相對現有技術,本發明的技術效果:
[0022]1、本發明提供的基于搜索引擎的機構網站歸屬地判別方法,通過網站鏈接地址爬取網站進行解析,提取網站的各種特征信息,如域名解析成的IP地址,備案信息等,通過對網站內容通過命名實體識別算法,提取出關鍵信息特征,結合搜索引擎對關鍵詞進行全網搜索,統計所得搜索頁面中相關關鍵詞的出現頻度,通過網頁之間內容的相似性算法來匹配包含地理信息在內的所有可能的候選網站,通過提取候選網站中的地理信息,從而檢測出該網站對應機構的真實歸屬地。該方法快捷簡便準確,所需時間和人力成本遠低于現有的通過人力統計搜集信息的方式。
[0023]2、本發明提供的基于搜索引擎的機構網站歸屬地判別方法,能實現實時采集處理數據,時效性強,提升了數據有效性,全網搜索,覆蓋查詢范圍更廣,檢測效果更好覆蓋查詢范圍更廣,檢測效果更好。
[0024]3、本發明提供的基于搜索引擎的機構網站歸屬地判別方法,該方法獲得網站機構的信息并不局限于網站架設的服務器路由位置,檢測結果的準確性更高。
[0025]具體請參考根據本發明的食品栗軸提出的各種實施例的如下描述,將使得本發明的上述和其他方面顯而易見。
【附圖說明】
[0026]圖1是本發明提供的基于搜索引擎的機構網站歸屬地判別方法的流程示意圖;
[0027]圖2是本發明提供的基于搜索引擎的機構網站歸屬地判別裝置的結構示意圖。
【具體實施方式】
[0028]構成本申請的一部分的附圖用來提供對本發明的進一步理解,本發明的示意性實施例及其說明用于解釋本發明,并不構成對本發明的不當限定。
[0029]本發明涉及目標機構網站的歸屬地判別,亦可以用于目標網站的相關情報搜索等。
[0030]為便于理解,對本發明提供方法說明如下:通過解析目標網站的網頁內容,提取出網站中可以用于推理機構地理信息的特征:域名解析的IP對應的服務器位置、網站文本內容、對服務器路由定位、網頁內容命名實體識別、搜索引擎爬取網頁文本數據、網頁相關性關鍵詞匹配以及頻度計算。
[0031]參見圖1,本發明提供的基于搜索引擎的機構網站歸屬地判別方法,包括以下步驟:
[0032]步驟SlOO:爬取待處理機構網站的URL,將域名URL解析成IP地址,根據該IP地址,定位待處理網站服務器所在地,判斷該IP地址與服務器所在地地理位置是否存在一一對應關系,如果該IP地址對應的服務器所在地地理位置唯一,則以該服務器所在地的地理位置作為該結構網址的歸屬地;在此步驟中,還可以根據所處理的網站提供的信息獲取網站的備案號或網站結構等信息進行處理。由于備案號通常涉及到地理位置,因而對于此類網站可以直接獲知其準確的地理位置。
[0033]例如某鳳凰鎮政府的機構網址:“http://www.fenghuang.gov.cn/”,該鳳凰鎮政府的機構網址對應的IP地址:“60.210.98.150”。根據該IP地址,定位該某鳳凰鎮政府的機構網址對應的服務器地址:“山東省淄博市”。
[0034]這是因為在現有網站建設過程中,為了提高用戶訪問網站的速度,多會使用DNS負載均衡。DNS負載均衡是在DNS服務器中為同一個主機名配置多個IP地址,在應答DNS查詢時,DNS服務器對每個查詢均以DNS文件中主機記錄的IP地址為對象,按順序返回不同的解析結果,從而將客戶端的訪問引導到不同的機器上去,這使得不同的客戶端能實現對不同服務器的訪問,從而達到負載均衡的目的。
[0035]上例中只有一個IP地址,那么可以通過該IP對應的服務器所在地來確定該機構的真實歸屬地。但是,其他機構網站,例如“國家體育總局”的網址“WWW.sport.gov.cn”經過域名解析得到多個提供相同服務的服務器,而服務器位于不同的省份,因此不能通過服務器地址來確定該機構具體位置,那么將需要進一步地分析網站文本來推測判斷該機構網站對應的機構所在地。
[0036]步驟200:如果該IP地址對應多個服務器所在地地理位置,則爬取機構網站的文本內容,判斷網站文本內容中是否已經包含歸屬地名稱,如果判斷為是,則以網站文本內容中的歸屬地信息作為待處理機構網站的歸屬地,如果判斷為否,則通過命名實體識別算法提取網站文本內容中的關鍵詞,并將關鍵詞保存到列表S中;
[0037]如上例中“國家體育總局”網站首頁底部信息中的備案號“京ICP備05070991號”提示了機構所在地為“北京”,并且該網站直接給出了地址名稱“北京市東城區體育館路2號”。
[0038]如因為有的機構網站構建不完善,并未給出此類信息,那么需要進一步分析網頁中全部文本的內容,提取關鍵信息。通過命名實體識別算法,對網站文本內容進行識別,識別出具有特定意義的實體,并將這些關鍵詞保存到列表S中。
[0039]優選的,關鍵詞包括人名、地名和機構名。按此提取能提高該方法獲得最終歸屬地結果的準確性。
[0040]此處的命名實體識別算法可以參考俞鴻魁,張華平,劉群等.發表于《通信學報》2006,27(2): 87-94.DO1: 10.3321/j.issn: 1000-436X.2006.02.013.ψ 的《基于層疊隱馬爾可夫模型的中文命名實體識別》或張華平,劉群.發表于《計算機學報》,2004,27(1):85-91.DO1:10.3321/j.1ssn: 0254-4164.2004.01.010.的《基于角色標注的中國人名自動識別研究》。
[0041]步驟S300:通過搜索引擎,檢索關鍵詞列表S中所有關鍵詞,將搜索結果對應的網站作為候選網站,并提取候選網站中的文本內容;
[0042]優選的,為了提高檢索效率,步驟S300中還包括:判斷候選網站中是否存在百科詞條,如果不是百科詞條,則爬取并解析候選網站的頁面內容,保存文本內容;如果是百科詞條,則提取百科文本內容,并判斷百科文本內容中是否包含候選網站的子詞條,如果百科文本內容中包含多個子詞條,則對該網頁進行網頁文本匹配計算,找到與待處理機構網站最相關的某條詞條對應的頁面,并提取其中的地理位置信息;如果百科文本內容中沒有子詞條,則直接提取百科文本內容中的地理位置信息。此處的最相關是指匹配計算結果數值最高的詞條。
[0043]此處的子詞條是待處理機構網站的多義詞。
[0044]百科收錄的機構,會直接提供地理信息,比如“長沙市政府”的百科頁面中直接提供了 “地理位置:長沙市進行大道與岳麓大道交匯處”這條信息。
[0045]因為百科知識庫中數據更加精煉準確,對于已經收錄的機構,百科數據可直接提供準確的地理位置,例如“鳳凰鎮”,在百度百科中就存在16個不同的詞條,對不同省市的“鳳凰鎮”每一個詞條都有具體的介紹。若網頁為百科頁面,因為百科網站一般具有固定的網頁結構,因此可以通過分析百科頁面的結構,直接提取出有效的地理位置信息。
[0046]步驟400:對所提取的文本內容進行命名實體識別,提取出關鍵詞列表F,將關鍵詞列表S與關鍵詞列表F進行網頁文本匹配,獲得匹配度最高的前十個網站,逐一對匹配度最高的前十個網站的所有文本內容進行句法分析,提取地理位置信息,作為該機構網站的歸屬地。
[0047]此處的句法分析可以參考辛霄,范士喜,王軒等發表于《中文信息學報》,2009,23
(2): 18-22.DO1: 10.3969/j.1ssn.1003-0077.2009.02.002 中的《基于最大熵的依存句法分析》。
[0048]優選的,網頁文本匹配包括以下步驟:
[0049]將關鍵詞列表S(OrgWebKeywords)與關鍵詞列表F (CandidateWebKeywords)進行匹配計算,匹配率最高的前十個網頁作為候選網頁。
[0050]匹配率=關鍵詞列表F中的詞個數/關鍵詞列表S中的詞個數
[0051]參見圖2,本發明的另一方面還提供了一種用于上述方法的裝置,包括:
[0052]網站信息爬取模塊,用于爬取待處理機構網站的URL,將域名URL解析成IP地址,根據該IP地址,定位待處理網站服務器所在地,判斷該IP地址與服務器所在地地理位置是否存在一一對應關系,如果該IP地址對應的服務器所在地地理位置唯一,則以該服務器所在地的地理位置作為該結構網址的歸屬地;
[0053]網頁內容爬取模塊,如果該IP地址對應多個服務器所在地地理位置,爬取機構網站的文本內容,判斷網站文本內容中是否已經包含歸屬地名稱,如果判斷為是,則以網站文本內容中的歸屬地信息作為待處理機構網站的歸屬地,如果判斷為否,則通過命名實體識別算法提取網站文本內容中的關鍵詞,并將關鍵詞保存到關鍵詞列表S中;
[0054]搜索采集模塊,用于通過搜索引擎,檢索關鍵詞列表S中所有關鍵詞,將搜索結果對應的網站作為候選網站,并提取候選網站中的文本內容;
[0055]數據識別地理信息推斷模塊,用于對所提取的文本內容進行命名實體識別,提取出關鍵詞列表F,將關鍵詞列表S與關鍵詞列表F進行網頁文本匹配,獲得匹配度最高的前十個網站,逐一對匹配度最高的前十個網站的所有文本內容進行句法分析,提取地理位置信息,作為該機構網站的歸屬地。
[0056]采用上述裝置能完成對不具有完整歸屬地的機構網站歸屬地的提取,其準確性高于現有方法。
[0057]網站信息爬取模塊,目前IPV4協議使用的是32位地址,也就是理論上會有2的32次方個地址,約有42億個地址,全球共用,不同國家分配的地址段不一樣,也就是根據地址段就可判別是哪個國家的,中國約分配到6000多萬個IP地址,同理各個省各個地區的地址段也不一樣,因此根據IP地址就可判斷出服務器所在地。本模塊根據機構網站的URL,將域名解析成IP地址,根據IP地址可以得到網站架設的服務器的所在地,一般可以精確到市級地。
[0058]之后應用爬蟲技術,網絡爬蟲(又被稱為網頁蜘蛛,網絡機器人,在FOAF社區中間,更經常的稱為網頁追逐者),是一種按照一定的規則,自動地抓取萬維網信息的程序或者腳本。通過網站的URL,解析DNS,并且得到主機的ip,并將URL對應的網頁下載下來,通過分析網站架構,提取目標內容。本模塊實現網頁內容抓取,并將內容以文本形式傳送至Web文本數據識別計算模塊進行處理。
[0059]搜索采集模塊,本模塊主要是利用搜索引擎采集數據,通過搜索目標網站的關鍵詞列表中的單個關鍵詞,將搜索結果頁面利用網站結構及內容爬取模塊抓取下來,進行分析處理。
[0060]數據識別地理信息推斷模塊,本模塊主要涉及命名實體識別技術,網頁文本匹配計算。命名實體識別(Named Entity Recognit1n,簡稱NER),又稱作“專名識別”,是指識別文本中具有特定意義的實體,主要包括人名、地名、機構名、專有名詞等,比如“長沙縣”為表明地理位置的具有特定意義的實體。由于機器無法對文本詞匯的詞性進行判斷,必須通過一些識別技術來區分詞性,本模塊采用命名實體識別技術,識別出網頁內容中的關鍵詞,如地名,人名,機構名等,為每個單獨的網頁構建關鍵詞列表,并將獲取到的關鍵詞存入列表中以備后續數據采集以及網頁文本匹配計算使用。該模塊同時使用網頁文本匹配算法,具體計算方式為,將機構網站中的關鍵詞列表與采集到的Web數據中的關鍵詞列表進行匹配計算,匹配率最高的前十個網頁作為候選網頁。
[0061]之后采用句法分析,句法分析(Pa r s i n g)就是指對句子中的詞語語法功能進行分析。利用已經獲取到的候選網站,再次應用命名實體識別技術將候選網頁中的關鍵詞識別出來,并通過句法分析,提取出有效的地理位置信息。從而確定該機構網站的真實歸屬地。
[0062]優選的,搜索采集模塊還包括:百科詞條模塊,用于判斷候選網站中是否存在百科詞條,如果不是百科詞條,則爬取并解析候選網站的頁面內容,保存文本內容;如果是百科詞條,則提取百科文本內容,并判斷百科文本內容中是否包含候選網站的子詞條,如果百科文本內容中包含多個子詞條,則對該網頁進行網頁文本匹配計算,找到與待處理機構網站最相關的某條詞條對應的頁面,并提取其中的地理位置信息;如果百科文本內容中沒有子詞條,則直接提取百科文本內容中的地理位置信息。采用該模塊,能提高檢搜索效率,減少無效檢索。
[0063]優選的,關鍵詞包括人名、地名和機構名。有利于提高該裝置對機構網站歸屬地的提取效率和提取準確性。
[0064]本領域技術人員將清楚本發明的范圍不限制于以上討論的示例,有可能對其進行若干改變和修改,而不脫離所附權利要求書限定的本發明的范圍。盡管己經在附圖和說明書中詳細圖示和描述了本發明,但這樣的說明和描述僅是說明或示意性的,而非限制性的。本發明并不限于所公開的實施例。
[0065]通過對附圖,說明書和權利要求書的研究,在實施本發明時本領域技術人員可以理解和實現所公開的實施例的變形。在權利要求書中,術語“包括”不排除其他步驟或元素,而不定冠詞“一個”或“一種”不排除多個。在彼此不同的從屬權利要求中引用的某些措施的事實不意味著這些措施的組合不能被有利地使用。權利要求書中的任何參考標記不構成對本發明的范圍的限制。
【主權項】
1.一種基于搜索引擎的機構網站歸屬地判別方法,其特征在于,包括以下步驟: 步驟SlOO:爬取待處理機構網站的URL,將域名URL解析成IP地址,根據該IP地址,定位待處理網站服務器所在地,判斷該IP地址與服務器所在地地理位置是否存在一一對應關系,如果該IP地址對應的服務器所在地地理位置唯一,則以該服務器所在地的地理位置作為該結構網址的歸屬地; 步驟200:如果該IP地址對應多個服務器所在地地理位置,爬取機構網站的文本內容,判斷網站文本內容中是否已經包含歸屬地名稱,如果判斷為是,則以網站文本內容中的歸屬地信息作為待處理機構網站的歸屬地,如果判斷為否,則通過命名實體識別算法提取網站文本內容中的關鍵詞,并將關鍵詞保存到關鍵詞列表S中; 步驟S300:通過搜索引擎,檢索關鍵詞列表S中所有關鍵詞,將搜索結果對應的網站作為候選網站,并提取候選網站中的文本內容; 步驟S400:對所提取的文本內容進行命名實體識別,提取出關鍵詞列表F,將關鍵詞列表S與關鍵詞列表F進行網頁文本匹配,獲得匹配度最高的前十個網站,逐一對匹配度最高的前十個網站的所有文本內容進行句法分析,提取地理位置信息,作為該機構網站的歸屬地。2.根據權利要求1所述的基于搜索引擎的機構網站歸屬地判別方法,其特征在于,所述步驟S300中還包括判斷候選網站中是否存在百科詞條,如果不是百科詞條,則爬取并解析候選網站的頁面內容,保存文本內容;如果是百科詞條,則提取百科文本內容,并判斷百科文本內容中是否包含候選網站的子詞條,如果百科文本內容中包含多個子詞條,則對該網頁進行網頁文本匹配計算,找到與待處理機構網站最相關的某條詞條對應的頁面,并提取該頁面中的地理位置信息;如果百科文本內容中沒有子詞條,則直接提取百科文本內容中的地理位置信息。3.根據權利要求2所述的基于搜索引擎的機構網站歸屬地判別方法,其特征在于,所述關鍵詞包括人名、地名和機構名。4.一種用于權利要求1?3中所述方法的基于搜索引擎的機構網站歸屬地判別裝置,其特征在于,包括: 網站信息爬取模塊,用于爬取待處理機構網站的URL,將域名URL解析成IP地址,根據該IP地址,定位待處理網站服務器所在地,判斷該IP地址與服務器所在地地理位置是否存在一一對應關系,如果該IP地址對應的服務器所在地地理位置唯一,則以該服務器所在地的地理位置作為該結構網址的歸屬地; 網頁內容爬取模塊,如果該IP地址對應多個服務器所在地地理位置,爬取機構網站的文本內容,判斷網站文本內容中是否已經包含歸屬地名稱,如果判斷為是,則以網站文本內容中的歸屬地信息作為待處理機構網站的歸屬地,如果判斷為否,則通過命名實體識別算法提取網站文本內容中的關鍵詞,并將關鍵詞保存到關鍵詞列表S中; 搜索采集模塊,用于通過搜索引擎,檢索關鍵詞列表S中所有關鍵詞,將搜索結果對應的網站作為候選網站,并提取候選網站中的文本內容; 數據識別地理信息推斷模塊,用于對所提取的文本內容進行命名實體識別,提取出關鍵詞列表F,將關鍵詞列表S與關鍵詞列表F進行網頁文本匹配,獲得匹配度最高的前十個網站,逐一對匹配度最高的前十個網站的所有文本內容進行句法分析,提取地理位置信息,作為該機構網站的歸屬地。5.根據權利要求4所述的基于搜索引擎的機構網站歸屬地判別裝置,其特征在于,所述搜索采集模塊還包括:百科詞條模塊,用于判斷候選網站中是否存在百科詞條,如果不是百科詞條,則爬取并解析候選網站的頁面內容,保存文本內容;如果是百科詞條,則提取百科文本內容,并判斷百科文本內容中是否包含候選網站的子詞條,如果百科文本內容中包含多個子詞條,則對該網頁進行網頁文本匹配計算,找到與待處理機構網站最相關的某條詞條對應的頁面,并提取該頁面中的地理位置信息;如果百科文本內容中沒有子詞條,則直接提取百科文本內容中的地理位置信息。6.根據權利要求4所述的基于搜索引擎的機構網站歸屬地判別裝置,其特征在于,所述關鍵詞包括人名、地名和機構名。
【文檔編號】G06F17/30GK106096040SQ201610487194
【公開日】2016年11月9日
【申請日】2016年6月29日
【發明人】丑曉慧, 甘亮, 李愛平, 赫中翮, 黃東川
【申請人】中國人民解放軍國防科學技術大學