專利名稱:獲取導航查詢詞的方法、裝置及展現搜索結果的方法
技術領域:
本發明涉及搜索引擎技術領域,特別是涉及獲取導航查詢詞的方法、裝置 及展現搜索結果的方法。
背景技術:
隨著互聯網上網站數量的急劇增加,用戶需要通過方便快捷的途徑 盡快到達所需的網站。例如,利用搜索引擎進行查詢時,根據用戶查詢 目的的不同大致可以分為導力元查詢和信息查詢兩類,其中,關于導4元查 詢,用戶的直接目的是訪問一個已知的網站,對于這類查詢,用戶總是 希望對應的目標網站能夠出現在搜索結果中比較靠前的位置,甚至是第一位,以便盡快找到并進入該目標網站。例如輸入寧夏人民政府,其目標是www. nx. gov. cn/; 輸入摩托羅拉首頁,其目標是www. motorola, com. cn/; 輸入遠夢書城,其目標是www. my285. com/。通常,搜索引擎服務器會根據用戶輸入的查詢詞,將所有相關網頁 按照相關度進行排序后返回給用戶,以供用戶選擇。但是對于導航查詢 而言,有且只有一個網頁可以滿足用戶的需求,如果這個網頁不能排在 比較靠前的位置,會比較嚴重地傷害用戶的感受。然而,由于互聯網數 據豐富而繁雜,因此,搜索引擎并不能保證導航查詢的目標網頁總是排 在搜索結果的前幾位。為了解決該問題, 一些搜索引擎維護了一張導航 查詢詞表及其目標數據集,如表1所示,當用戶查詢詞命中該導航查詢 詞表中的某導航查詢詞時,將會將該導航查詢詞對應的目標網頁排在搜 索結果的第一位。表1導航查詢詞目標愛民減肥醫院www. aimin. com. cn/ 濰城區教育局www. wcedu. net/河北網通www. he. chinaunicom. com/現有技術建立導航查詢詞表的方法是,通過用戶的搜索引擎日志來 發現導航查詢詞,即分析搜索日志信息,獲取在某個信息查詢詞下,用 戶點擊頻率符合預置條件的網址,依據信息查詢詞獲取針對所述網址的 描述信息,最后依據所獲得的網址和相應的描述信息,發現導航查詢, 并生成導力元查詢詞表。但是,利用該現有技術進行導航查詢詞的發現時,某些導航查詢詞 可能會無法被發現,例如,有的導航查詢詞的查詢次數較少,甚至尚未-陂查詢過,則將無法#:該方法發現,也就無法;陂識別為導4元查詢詞。發明內容有鑒于此,本發明的目的在于提供獲取導航查詢詞的方法、裝置及展現搜 索結果的方法,以解決現有技術無法全面地發現導航查詢詞的問題。為實現上述目的,本發明提供了如下方案 一種獲取導航查詢詞的方法,包括 獲取包含文本的相關數據源;利用預置的導航關鍵詞對相關數據源中的文本進行分析,獲取導航查詢詞。優選的,所述相關數據源包括互聯網中的各網頁;所述相關數據源中的文 本包括網頁標題、正文摘要及鏈接文本上呈現的文字。優選的,所述相關數據源還包括搜索引擎日志,所述相關數據源中的文本 包括搜索引擎日志中的查詢詞。優選的,預先將所述導航關鍵詞組織為預置規則的正則表達式;所述基于 預置的導航關鍵詞對所述相關數據源中的文本進行分析,獲取導航查詢詞包 括利用預置的斷句標識符將所述相關凝:據源中的文本進行斷句,得到短句; 在各短句中查找與所述正則表達式相匹配的字符串;
將所述相匹配的字符串確定為導4元查詢詞。優選的,所述基于預置的導航關鍵詞對所述相關數據源中的文本進行分析,獲取導航查詢詞包括判斷所述相關數據源中的文本中是否包含所述導航關鍵詞;如果包含,將所述導航關鍵詞與該導航關鍵詞前第 一個信息分隔符之間的 字符串確定為導力元查詢詞。優選的,還包括將獲取到的導航查詢詞進行過濾。優選的,所述將獲取到的導航查詢詞進行過濾包括判斷獲取到的導航查詢詞出現的次數是否小于預置閾值;如果小于,過濾掉該導航查詢詞。優選的,所述將獲取到的導航查詢詞進行過濾包括判斷獲取到的導航查詢詞是否為預置的過濾關鍵詞;如果是,過濾掉該導航查詢詞。優選的,還包括將獲取到的導航查詢詞作為搜索關鍵詞發送到至少兩個搜索引擎進行驗證;如果各搜索引擎搜索結果的第一位不一致,則將該導航查詢詞濾除。 優選的,如果各搜索引擎搜索結果的第一位一致,則該導航查詢詞通過驗證,還包括將各搜索引擎搜索結果第 一位的網址確定為該導航查詢詞對應的目標網址。一種獲取導航查詢詞的裝置,包括數據源獲取單元,用于獲取包含文本的相關數據源;導航查詢詞獲取單元,用于利用預置的導航關4建詞對相關數據源中的文本 進行分析,獲耳又導4元查詢詞。優選的,所述相關數據源包括互聯網中的各網頁,所述相關數據源中的文 本包括網頁標題、正文摘要及鏈接文本上呈現的文字。
優選的,所述相關數據源還包括搜索引擎日志,所述相關數據源中的文本包括搜索引擎日志中的查詢詞。優選的,預先將所述導航關鍵詞組織為預置規則的正則表達式;所述導航 查詢詞獲取單元包括斷句子單元,用于利用預置的斷句標識符將所述相關數據源中的文本進行斷句,得到短句;匹配子單元,用于在各短句中查找與所述正則表達式相匹配的字符串; 第 一確定子單元,用于將所述相匹配的字符串確定為導#<查詢詞。 優選的,所述導航查詢詞獲取單元包括判斷子單元,用于判斷所述相關數據源中的文本是否包含所述導航關鍵詞;第二確定子單元,用于將所述導航關鍵詞與該導航關鍵詞前第一個信息分 隔符之間的字符串確定為導航查詢詞。 優選的,還包括過濾單元,用于將獲取到的導航查詢詞進行過濾。 優選的,所述過濾單元包括第一判斷子單元,用于判斷獲取到的導航查詢詞的出現次數是否小于預置 閾值;第一濾除子單元,用于將出現次數小于所述預置闊值的導航查詢詞過濾除。優選的,所述過濾單元包括第二判斷子單元,用于判斷獲取到的導航查詢詞是否為預置的過濾關鍵詞;第二濾除子單元,用于將是預置的過濾關鍵詞的導航查詢詞濾除。優選的,還包括驗證單元,用于將獲取到的導航查詢詞作為搜索關鍵詞發送到至少兩個搜 索引擎進行驗證;濾除單元,用于當各搜索引擎搜索結果的第一位不一致時,將該導航查詢
詞濾除。優選的,如果各搜索引擎搜索結果的第一位一致,則該導航查詢詞通過驗證,還包括網址確定單元,用于將各搜索引擎搜索結果第 一位的網址確定為該導航查 詢詞對應的目標網址。一種展現搜索結果的方法,包括 獲取包含文本的相關數據源;基于預置的導航關鍵詞對相關數據源中的文本進行分析,獲取導航查詢詞;將獲取的導航查詢詞發送到至少兩個搜索引擎進行搜索,獲取各導航查詢詞對應的目標網址;保存所述導航查詢詞及其對應的目標網址,形成導航查詢數據庫; 接收用戶輸入的搜索內容;查詢所述導航查詢數據庫,判斷是否存在與所述搜索內容相匹配的導航查 詢詞;如果存在,將所述相匹配的導航查詢詞對應的目標網址在搜索結果的第一 位進行展現。一種搜索引擎系統,包括導航查詢數據庫,用于保存所述導航查詢詞及其對應的目標網址;所述導 航查詢數據庫通過以下方式建立獲取包含有文本的數據源;基于預置的導航 關鍵詞對相關數據源中的文本進行分析,獲取導航查詢詞;將獲取的導航查詢 詞發送到至少兩個搜索引擎進行搜索,獲取各導航查詢詞對應的目標網址;保 存所述導航查詢詞及其對應的目標網址,形成導航查詢數據庫;接口模塊,用于接收用戶輸入的搜索內容;查詢模塊,用于查詢所述導航查詢數據庫,判斷是否存在與所述搜索內容 相匹配的導航查詢詞;呈現模塊,用于將所述相匹配的導航查詢詞對應的目標網址在搜索結果的 第一位進行展現。根據本發明提供的具體實施例,本發明公開了以下技術效果
本發明獲取包含文本的相關數據源,并基于預置的導航關4建詞對相關數據 源中的文本進行分析,來獲取導航查詢詞。由于所述相關數據源只需要包含文 本即可,因此可以不限于用戶的搜索日志,從而有利于獲得更廣的數據來源, 再通過預置的導航關鍵詞對各網頁上的文本進行分析,可以盡可能全面地獲取 到導航查詢詞。其次,基于導航關鍵詞對相關數據源中的文本進行分析即可獲取導航查詢詞,實現簡單;可以利用搜索引擎對獲取的導航查詢詞進行驗證,保證了獲取 到的導航查詢詞的正確性。
圖l是本發明實施例提供的方法的流程圖;圖2是本發明實施例提供的第一裝置的示意圖;圖3是本發明實施例提供的第二裝置的示意圖;圖4是本發明實施例提供的第三裝置的示意圖;圖5是本發明實施例提供的第四裝置的示意圖;圖6是本發明實施例提供的展現搜索結構的方法的流程圖;圖7是本發明實施例提供的搜索引擎系統的示意圖。
具體實施方式
為使本發明的上述目的、特征和優點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本發明作進一步詳細的說明。參見圖1,本發明實施例提供的獲取導航查詢詞的方法包括以下步驟S101:獲取包含文本的相關數據源;S102:基于預置的導航關鍵詞對相關數據源中的文本進行分析,獲取導航 查詢詞。其中,所述相關數據源只要包含文本即可,因此可以得到非常廣泛的數據 來源,例如,可以是互聯網中的各網頁,則所述相關數據源中的文本即為各網 頁上呈現的文本。可以通過頁面抓取及前端頁面元素的分析獲取網頁上呈現的 文本,包括但不限于網頁的標題、正文摘要、鏈接文本等。當然,所述相關數 據源還可以包括用戶的搜索引擎日志,此時,相關數據源中的文本還可以包括 搜索引擎曰志中的查詢詞。本發明的核心在于,針對現有"f支術方案的缺陷,通過獲: 又更多的數據源來 全面地獲取導航查詢詞。為方便描述,下面均以互聯網中的各網頁這種數據源 為例對本發明所述的方法進行詳細地描述。本發明考慮到互聯網中各網頁上呈現的文本中有一些會帶有"網站"、"主 頁,,等后綴,例如,"火箭隊中文網站"、"搜狐主頁"等等。以這些詞為后綴 的詞很可能是導航查詢詞,本發明將這樣的后綴稱為導航后綴,通過挖掘以導 航后綴為后綴的詞,可以得到大量的導航查詢詞。因此,本發明是基于預置的 導航關鍵詞對各網頁上呈現的文本進行分析的,所述導航關鍵詞可以是所述導 航后綴,包括但不限于"首頁"、"主頁"、"門戶"、"網站"、"官網"等等。其中,基于預置的導航關鍵詞對所述各網頁上呈現的文本進行分析,來獲 取導航查詢詞的方法有很多,下面進行詳細地介紹。實施例 一 、可以利用正則表達式法進行分析。首先規定一 系列地導航后綴, 可以包括但不限于前文所述的"首頁"、"主頁"、"門戶"、"網站"、"官網"等 等,然后用正則表達式對其進行組織。需要說明的是,正則表達式是用某種模 式去匹配一類字符串的公式,該正則表達式可以被各種文本編輯軟件、類庫(如Rogue Wave的tools. h++)、腳本工具(如awk/grep/sed )廣泛地支持。有些導航后綴可能是"官方網站"、"中文網"、"個人網站"等,例如"華 碩官方網站",本發明實施例中,將這樣的導航后綴看作是復合導航后綴,即 導航查詢詞的后綴可能是兩個甚至多個導航后綴的組合,因此本發明實施例所 使用的正則表達式可以是"([ ]+ ) ( :官方1中文1個人)*( :首頁1主頁1網站1網1門戶l官網)+"該正則表達式可以匹配以任意文字起始,中間含有零個或若干個"官方,, 或"中文"或"個人",以"首頁""主頁,,"網站""網""門戶""官網"等詞 結尾的字符串。形式比較靈活,具有較強的適應性,可以匹配"華碩官方網站" 和"東方神起中文網"這樣多個導航后綴復合的情況。通過上述正則表達式進行匹配時,需要針對每個單獨的句子進行,而通常
網頁中呈現的文本可能是一段一段的文字,因此,在使用該正則表達式進行匹 配之前,需要將網頁中呈現的文本進行斷句處理。斷句時可以按照預置的斷句 標識符進行,其中,斷句標識符可以是空格、標點符號、段落標志等。首先, 掃描網頁中呈現的整個文本,出現上述標識符時便斷開,最終可以得到一系列 不再包含斷句標識符的短句,也就是單獨的句子。然后再在各個短句中查找與 上述正則表達式相匹配的字符串,最后,便可以將得到的相匹配的字符串確定 為導航查詢詞。實施例二、可以直接利用所述導航關鍵詞對各網頁上呈現的文本進行分 析,同樣,所述導航關鍵詞可以包括但不限于"首頁"、"主頁"、"門戶"、"網 站"、"官網"、"官方網站"、"個人網站"、"中文網,,,等等。可以首先判斷各 網頁上呈現的文本中是否包含上述導航關鍵詞,如果存在,則可以將位于該導 航關鍵詞與該導航關鍵詞之前第 一個信息分隔符之間的字符串確定為導航查 詢詞。其中所述信息分隔符可以是空格符、分段符,以及一些特定標點,如下所示,。;一 、/ .! -例如,網頁上呈現的文本原文為"......今天打開搜狐后發現,搜狐首頁增加了展現奧運最新消息的滾動框……",可見,這段話中出現的所述導航關鍵 詞為"首頁",因此將"首頁"前與前面的","之間的"搜狐"確定為導航查 詢詞。按照上述方法對互聯網中所有網頁上呈現的文本都處理一遍,可以獲取到 大量的導航查詢詞,但是獲取到的導航查詢詞中可能會包含一些噪音,例如, 可能將"怎樣在搜狗"這樣的字符串確定為導航查詢詞,甚至還可能將"有的"、 "別的"等確定為導航查詢詞,因此,在本發明的優選實施例中,還可以包括 對獲取到的導航查詢詞進行過濾的步驟。具體進行過濾的方法可以多種多樣, 本發明實施例中可以采用以下兩種優選的方式(1)由于從互聯網中的所有網頁上呈現的文本中獲取導航查詢詞時,難 免會出現重復的獲取到同一個導航查詢詞,因此,可以利用這個特點作為過濾
導航查詢詞的依據。可以按照以下方式進行記錄獲取到的每個導航查詢詞出 現的次數,如果某個導航查詢詞出現的次數較少(例如,小于預置的閾值), 則可以將該導航查詢詞看作是偶然出現的噪音,并將其濾除。其中,可以為新獲取到的導航查詢詞維護一個參數,用來保存其出現的次 數;每次獲取到該導航查詢詞時,都將該參數加一,最終會得到每個導航查詢 詞出現的總次數。(2)在實際應用中,有些被確定為導航查詢詞的字符串可能出現的次數 的確比較多,但是實際上這些字符串仍然不能看作是導航查詢詞,例如"有 的"、"別的"、"一些"、"我/>司",等等。對于這種情況,可以將這些詞預先 設置為過濾關鍵詞,如果獲取到的導航查詢詞恰好是上述這些過濾關鍵詞,則 可以將該導航查詢詞視為噪音,并將其濾除。從以上分析可見,本發明實施例提供的獲取導航查詢詞的方法是基于文本 進行分析的,而且通過預置的導航關鍵詞,只需要對文本進行分析即可,因此, 相對于現有技術從搜索引擎日志中獲取導航查詢詞的方法,降低了對數據源的 要求,可以獲取更廣泛的數據來源,有利于更加全面地獲取導航查詢詞;另一 方面,無需向現有技術一樣考慮文本與網址的對應關系(例如,現有技術在搜 索引擎日志中獲取到用戶的查詢詞時,還需要獲知該用戶在輸入該查詢詞后, 最終選擇了哪個網址,才能夠判斷該查詢詞是否為導航詞),因此實現簡單。通過上述過濾方法,可以提高獲取導航查詢詞的準確性,但是過濾后的導 航查詢詞還是有可能存在一些噪音,為此,在本發明的優選實施例中,還可以 包括對獲取到的導航查詢詞進行進一步驗證的步驟將獲取到的導航查詢詞作 為搜索關鍵詞發送到多家搜索引擎進行搜索,判斷搜索引擎搜索結果的第一位 是否一致,如果一致,證明其的確是導航查詢詞,并且可以將各搜索引擎搜索 結果第一位的網址確定為該導航查詢詞對應的網址。如果各搜索引擎搜索結果 的第一位不一致,則將該導航查詢詞看作是噪音,并將其濾除。為了更好地理解本發明實施例提供的獲取導航查詢詞的方法,下面通過具 體的實例進行詳細地介紹。例如,在互聯網網頁上有下列幾段話 "今日打開搜狐后發現,搜狐首頁增加了展現奧運最新消息的滾動框,網 友可以第 一時間了解奧運最新消息。,,"陳冠希網站重開舒淇博客潮店新品遭搶購""怎樣在搜狗網站下載歌曲的歌詞?高手指教!別的網站的不行。" 可以利用前文所述正則表達式對上述文本進行分析,首先,利用標點符號、空格對上述原始文本進行斷句,可以得到以下短句 "今日打開搜狐后發現""搜狐首頁增加了展現奧運最新消息的滾動框""網友可以第一時間了解奧運最新消息""陳冠希網站重開舒淇博客""潮店新品遭搶購""怎樣在搜狗網站下載歌曲的歌詞""高手指教""別的網站的不行"使用所述正則表達式對每一個短句進行匹配,可以得到以下導航查詢詞"搜狐"、"陳冠希"、"怎樣在搜狗"、"別的"。以上三個導航查詢詞均出現了 一次。用同樣的方法對互聯網中所有網頁上 呈現的文本都處理一遍,并記錄每個導航查詢詞出現的次數。例如"搜狐"出現19824次;"陳冠希"出現5724次;"怎樣去搜狗,,出現2 次;"別的"出現24586次。其中,"怎樣去搜狗"出現的次數太低,因此被看作噪音而被濾除;"別的" 是預置的過濾關鍵詞中的一個,因此,也被看作噪音而被濾除。然后,在搜狗和百度這兩個搜索引擎上搜索"搜狐",搜索結果的第一位 都是www. sohu. com,則認為"搜狐,,是導航查詢詞,且其對應的目標網址是 www. sohu. com。
同樣在搜狗和百度這兩個搜索引擎上搜索"陳冠希",搜狗的搜索結果第一位是ent, sina.com. cn/s/h/f/chengx. html;百度的搜索結果第一位是 yule, baidu. com/z t/star/yanzhanmen/。兩者不一致,所以認為"陳冠希,,不 是導航查詢詞,并將其濾除。與本發明實施例提供的獲取導航查詢詞的方法相對應,本發明實施例還提 供了一種獲取導航查詢詞的裝置,參見圖2,該裝置包括以下單元數據源獲取單元U201,用于獲取包含文本的相關數據源;導航查詢詞獲取單元U202,用于基于預置的導航關鍵詞對相關數據源中 的文本進行分析,獲取導航查詢詞。數據源獲取單元U201獲取包含文本的相關數據源;該數據源可以是互聯 網中的各網頁,還可以包括用戶的搜索引擎日志。導航查詢詞獲取單元MO2 基于預置的導航關鍵詞對相關數據源中的文本進行分析,來獲取導航查詢詞。 這樣,將相關數據源中的文本作為數據源,再基于預置的導航關鍵詞對相關數 據源中的文本進行分析,可以盡可能全面地獲取導航查詢詞。其中,導航查詢詞獲取單元U202可以采用不同的方式來分析相關數據源 中的文本,例如,可以預先將預置的導航關鍵詞組織為正則表達式,此時,參 見圖3,導航查詢詞獲取單元U302可以包括以下子單元斷句子單元U3021,用于利用預置的斷句標識符將所述相關凝:據源中的文 本進行斷句,得到短句;匹配子單元U3022,用于在各短句中查找與所述正則表達式相匹配的字符串;第一確定子單元U3023,用于將所述相匹配的字符串確定為導4元查詢詞。也可以直接利用預置的導航關鍵詞對相關數據源中的文本進行分析,此 時,參見圖4,導航查詢詞獲取單元U402可以包括以下子單元判斷子單元U4021,用于判斷所述相關數據源中的文本中是否包含所述導 航關鍵詞;第二確定子單元U4022,用于將所述導航關鍵詞與該導航關鍵詞前第一個 信息分隔符之間的字符串確定為導航查詢詞。其中,圖3中的數據源獲取單元U301及圖4中的數據源獲取單元U301, 與圖2中的數據源獲取單元U201相同。為了保證獲取的導航查詢詞的正確性,可以對獲取到的導航查詢詞進行過 濾,因此,參見圖5,該裝置還可以包括過濾單元U503,用于將獲取到的導航查詢詞進行過濾。其中,過濾單元U503可以采用不同的方法完成對導航查詢詞的過濾,例 如,可以基于頻率進行過濾,此時,過濾單元U503可以包括以下子單元第 一判斷子單元U5031 ,用于判斷獲取到的導航查詢詞的出現次數是否小 于預置閾值;第一濾除子單元U5032,用于將出現次數小于所述預置閾值的導航查詢詞 過濾除。也可以基于預置的過濾關鍵詞進行過濾,此時,過濾單元U503可以包括 以下子單元第二判斷子單元U5033,用于判斷獲取到的導航查詢詞是否為預置的過濾 關鍵詞;第二濾除子單元U5034,用于將是預置的過濾關鍵詞的導航查詢詞濾除。由于基于頻率進行過濾時,有些噪音可能無法濾除,因此,在本發明的優 選實施例中,可以同時^f吏用兩種過濾方法,因此,如圖3所示,過濾單元U503 可以同時包括上述四個子單元。在實際應用中,還可以對獲取到的導航查詢詞在搜索引擎中進行驗證,因 此,該裝置還可以包括驗證單元U504,用于將獲取到的導航查詢詞作為搜索關鍵詞發送到至少 兩個搜索引擎進行驗證;濾除單元U505,用于當各搜索引擎搜索結果的第一位不一致時,將該導 航查詢詞濾除。
當然,如果各搜索引擎搜索結果的第一位一致,則該導航查詢詞通過驗證, 認為該導航查詢詞時正確的,該裝置還包括網址確定單元U506,用于將各搜索引擎搜索結果第一位的網址確定為該 導4元查詢詞對應的目標網址。其中,圖5中的數據源獲取單元U501、導航查詢詞獲取單元U502,與圖 2中的數據源獲取單元U201、導航查詢詞獲取單元U202相同。上述實施例介紹了獲取導航查詢詞的方法及裝置,在實際應用中還可以在 搜索引擎展現搜索結果的過程中,判斷用戶輸入的搜索內容是否為導航查詢 詞,如果是,則獲取該導航查詢詞對應的目標網址,并將該目標網址在4叟索結 果的第一位進行展現。但是,如果進行實時地判斷,需要在接收到用戶輸入的 搜索內容后,首先獲取包含文本的相關數據源,對相關數據源中的文本進行分 析,并獲取導航查詢詞的目標網址,考慮到該過程所需的時間可能會比較長, 本發明實施例提供了一種展現搜索結果的方法,該方法中,將獲取的導航查詢 詞及其對應的目標網址進行保存,形成導航查詢數據庫,搜索引擎可以通過查 詢該數據庫來完成用戶的搜索內容是否為導航搜索的判斷,節省了時間。參見 圖6,該方法包括以下步驟S601:獲取包含文本的相關數據源;S602:基于預置的導航關鍵詞對相關數據源中的文本進行分析,獲取導航 查詢詞;S603:將獲取的導航查詢詞發送到至少兩個搜索引擎進行搜索,獲取各導 航查詢詞對應的目標網址;S604:保存所述導航查詢詞及其對應的目標網址,形成導航查詢數據庫; S605:接收用戶輸入的搜索內容;S606:查詢所述導航查詢數據庫,判斷是否存在與所述搜索內容相匹配的 導航查詢詞;S607:如果存在,將所述相匹配的導航查詢詞對應的目標網址在搜索結果 的第一位進行展現,否則,將用戶輸入的搜索內容作為普通的信息查詢進行處 理。
該方法與前文所述的獲取導航查詢詞的方法相比增加了步驟S603到 S607,其他的部分均相同,各步驟可以采用的具體方法也都相同,因此相應的 內容這里不再贅述。該展現搜索結果的方法中,可以在獲取到導航查詢詞后,再將獲取的導航 查詢詞發送到至少兩個搜索引擎進行搜索,如果各搜索引擎返回的^:索結果的 第一位一致,則可以將該搜索結果的第一位作為導航查詢詞對應的目標網址, 并將導航查詢詞及其對應的目標網址保存起來,形成導航查詢數據庫。搜索引 擎只需要加載該導航查詢數據庫,便可以當用戶在搜索引擎中輸入搜索內容 時,直接通過查詢該導航查詢數據庫,來判斷該用戶輸入的搜索內容是否為導 航查詢詞,如果是,則在可以將該導航查詢詞對應的目標網址在搜索結果的第 一位進行展現。與該展現搜索結果的方法相對應,本發明實施例還提供了一種搜索引擎系 統,參見圖7,該搜索引擎系統包括以下模塊導航查詢數據庫U701,用于保存所述導航查詢詞及其對應的目標網址; 所述導航查詢數據庫通過以下方式建立獲取包含文本的相關數據源;基于預 置的導航關鍵詞對相關數據源中的文本進行分析,獲取導航查詢詞;將獲取的 導航查詢詞發送到至少兩個搜索引擎進行搜索,獲取各導航查詢詞對應的目標 網址;保存所述導航查詢詞及其對應的目標網址,形成導航查詢數據庫;接口模塊U702,用于接收用戶輸入的搜索內容;查詢模塊U703,用于查詢所述導航查詢數據庫,判斷是否存在與所述搜 索內容相匹配的導航查詢詞;呈現模塊U704,用于將所述相匹配的導航查詢詞對應的目標網址在搜索 結果的第一位進行展現。以上對本發明所提供的獲取導航查詢詞的方法、裝置及展現搜索結果的方了闡述,以上實施例的說明只是用于幫助理解本發明的方法及其核心思想;同 時,對于本領域的一般技術人員,依據本發明的思想,在具體實施方式
及應用 范圍上均會有改變之處。綜上所述,本說明書內容不應理解為對本發明的限制。
權利要求
1、一種獲取導航查詢詞的方法,其特征在于,包括獲取包含文本的相關數據源;利用預置的導航關鍵詞對相關數據源中的文本進行分析,獲取導航查詢詞。
2、 根據權利要求1所述的方法,其特征在于,所述相關數據源包括互聯 網中的各網頁;所述相關數據源中的文本包括網頁標題、正文摘要及鏈接文本上呈現的文字。
3、 根據權利要求2所述的方法,其特征在于,所述相關數據源還包括搜 索引擎日志,所述相關數據源中的文本包括搜索引擎日志中的查詢詞。
4、 根據權利要求1所述的方法,其特征在于,預先將所述導航關鍵詞組 織為預置規則的正則表達式;所述基于預置的導航關鍵詞對所述相關數據源中 的文本進行分析,獲取導航查詢詞包括利用預置的斷句標識符將所述相關數據源中的文本進行斷句,得到短句; 在各短句中查找與所述正則表達式相匹配的字符串; 將所述相匹配的字符串確定為導^^查詢詞。
5、 根據權利要求1所述的方法,其特征在于,所述基于預置的導航關鍵 詞對所述相關數據源中的文本進行分析,獲取導航查詢詞包括判斷所述相關數據源中的文本中是否包含所述導航關鍵詞; 如果包含,將所述導航關鍵詞與該導航關鍵詞前第一個信息分隔符之間的 字符串確定為導航查詢詞。
6、 根據權利要求1所述的方法,其特征在于,還包括 將獲取到的導航查詢詞進行過濾。
7、 根據權利要求6所述的方法,其特征在于,所述將獲取到的導航查詢 詞進行過濾包括判斷獲取到的導航查詢詞出現的次數是否小于預置閾值; 如果小于,過濾掉該導航查詢詞。
8、 根據權利要求6所述的方法,其特征在于,所述將獲取到的導航查詢 詞進行過濾包括判斷獲取到的導航查詢詞是否為預置的過濾關鍵詞; 如果是,過濾掉該導航查詢詞。
9、 根據權利要求1至8任意一項所述的方法,其特征在于,還包括 將獲取到的導航查詢詞作為搜索關鍵詞發送到至少兩個搜索引擎進行驗證;如果各搜索引擎搜索結果的第一位不一致,則將該導航查詢詞濾除。
10、 根據權利要求9所述的方法,其特征在于,如果各搜索引擎搜索結果 的第一位一致,則該導航查詢詞通過驗證,還包括將各搜索引擎搜索結果第一位的網址確定為該導航查詢詞對應的目標網址。
11、 一種獲取導航查詢詞的裝置,其特征在于,包括 數據源獲取單元,用于獲取包含文本的相關數據源;導航查詢詞獲取單元,用于利用預置的導航關鍵詞對相關數據源中的文本 進行分析,獲取導航查詢詞。
12、 根據權利要求11所述的裝置,其特征在于,所述相關數據源包括互 聯網中的各網頁,所述相關數據源中的文本包括網頁標題、正文摘要及鏈接文本上呈現的文字。
13、 根據權利要求12所述的裝置,其特征在于,所述相關數據源還包括 搜索引擎日志,所述相關數據源中的文本包括搜索引擎日志中的查詢詞。
14、 根據權利要求11所述的裝置,其特征在于,預先將所述導航關鍵詞 組織為預置規則的正則表達式;所述導航查詢詞獲取單元包括斷句子單元,用于利用預置的斷句標識符將所述相關數據源中的文本進行 斷句,得到短句;匹配子單元,用于在各短句中查找與所述正則表達式相匹配的字符串; 第 一確定子單元,用于將所述相匹配的字符串確定為導航查詢詞。
15、 根據權利要求11所述的裝置,其特征在于,所述導航查詢詞獲取單 元包括判斷子單元,用于判斷所述相關數據源中的文本是否包含所述導航關鍵 詞;第二確定子單元,用于將所述導航關鍵詞與該導航關鍵詞前第一個信息分 隔符之間的字符串確定為導航查詢詞。
16、 根據權利要求11所述的裝置,其特征在于,還包括 過濾單元,用于將獲取到的導航查詢詞進行過濾。
17、 根據權利要求16所述的裝置,其特征在于,所述過濾單元包括第一判斷子單元,用于判斷獲取到的導航查詢詞的出現次數是否小于預置 閾值;第一濾除子單元,用于將出現次數小于所述預置閾值的導航查詢詞過濾除。
18、 根據權利要求16所述的裝置,其特征在于,所述過濾單元包括 第二判斷子單元,用于判斷獲取到的導航查詢詞是否為預置的過濾關鍵詞;'第二濾除子單元,用于將是預置的過濾關鍵詞的導航查詢詞濾除。
19、 根據權利要求11至18任意一項所述的裝置,其特征在于,還包括 驗證單元,用于將獲取到的導航查詢詞作為搜索關鍵詞發送到至少兩個搜索引擎進行驗證;濾除單元,用于當各搜索引擎搜索結果的第一位不一致時,將該導航查詢 詞濾除。
20、 根據權利要求19所述的裝置,其特征在于,如果各搜索引擎搜索結 果的第一位一致,則該導航查詢詞通過-險證,還包括網址確定單元,用于將各搜索引擎搜索結果第一位的網址確定為該導航查 詢詞乂于應的目標網址。
21、 一種展現搜索結果的方法,其特征在于,包括 獲取包含文本的相關數據源;基于預置的導航關鍵詞對相關數據源中的文本進行分析,獲取導航查詢詞;將獲取的導航查詢詞發送到至少兩個搜索引擎進行搜索,獲取各導航查詢 詞對應的目標網址; 保存所述導航查詢詞及其對應的目標網址,形成導航查詢數據庫; 接收用戶輸入的搜索內容;查詢所述導航查詢數據庫,判斷是否存在與所述搜索內容相匹配的導航查 詢詞;如果存在,將所述相匹配的導航查詢詞對應的目標網址在搜索結果的第一 位進行展現。
22、 一種搜索引擎系統,其特征在于,包括導航查詢數據庫,用于保存所述導航查詢詞及其對應的目標網址;所述導 航查詢數據庫通過以下方式建立獲取包含有文本的數據源;基于預置的導航 關鍵詞對相關數據源中的文本進行分析,獲取導航查詢詞;將獲取的導航查詢 詞發送到至少兩個搜索引擎進行搜索,獲取各導航查詢詞對應的目標網址;保 存所述導4元查詢詞及其對應的目標網址,形成導航查詢數據庫;接口模塊,用于接收用戶輸入的搜索內容;查詢模塊,用于查詢所述導航查詢數據庫,判斷是否存在與所述搜索內容 相匹配的導^元查詢詞;呈現模塊,用于將所述相匹配的導航查詢詞對應的目標網址在搜索結果的 第一位進行展現。
全文摘要
本發明公開了一種獲取導航查詢詞的方法,該方法包括獲取包含有文本的數據源;基于預置的導航關鍵詞對相關數據源中的文本進行分析,獲取導航查詢詞。本發明還公開了一種獲取導航查詢詞的裝置、展現搜索結果的方法及搜索引擎系統。通過本發明,可以獲得更廣的數據來源,再通過預置的導航關鍵詞對各相關數據源中的文本進行分析,可以盡可能全面地獲取到導航查詢詞。
文檔編號G06F17/30GK101398856SQ200810226300
公開日2009年4月1日 申請日期2008年11月12日 優先權日2008年11月12日
發明者勇 王 申請人:北京搜狗科技發展有限公司