專利名稱:基于網頁相關性的搜索引擎搜索方法
技術領域:
本發明屬于計算機網絡中搜索引擎搜索技術領域,特別是涉及一種基于網頁相關性的搜索引擎搜索方法。
背景技術:
搜索引擎技術是一種利用關鍵字組合在網絡上查找相關信息,并按照這些信息與關鍵字的匹配程度進行排序,然后返回給用戶查看的技術。隨著互聯網的迅速發展,使用搜索引擎已成為網絡用戶獲取網絡資源的最主要途徑。近幾年來,全球出現了各種各樣的搜索引擎,并且這些搜索引擎在人們對信息的獲取過程中起到了很重要的作用。目前主要的搜索引擎可分為目錄式搜索引擎和基于關鍵字的搜索引擎。其中目錄式搜索引擎的思路是對網頁庫預分類,然后由用戶自己選擇需要哪一類的網頁,并到相應的目錄下去查找,目前最具代表性的分類目錄式搜索引擎是yahoo[http://www.yahoo.com]。但是,為了提交給用戶一組最好的搜索結果往往需要很細的類別劃分力度,而對于現有的手工和自動分類技術應用于海量的網絡信息是不現實的,另外即使搜索引擎提供了很細的類別,用戶的選擇過程也將變得非常復雜,而且不能保證用戶的判斷與搜索引擎已有的分類是完全吻合的。
目前互聯網上的搜索引擎大多數采用基于關鍵字的查詢技術,其典型代表為Google[http://www.google.com]和百度[http://www.baidu.com]。
這類搜索引擎通過程序收集并索引的信息資源量極其龐大,而用戶的提問語句卻大多由幾個詞組成,由于詞語本身存在多義性,從而導致搜索引擎很難確定用戶的需求,這種情況將會導致數量龐大的搜索結果且不能保證相關度,因此用戶需要花費巨大的精力在搜索引擎的結果中進行瀏覽篩選。總之,目前的搜索引擎給出的信息質量都不是很高。
另外,搜索引擎采用的排序算法通常包括以下幾種(1)基于詞頻統計的排序算法。早期很多搜索引擎采用的排序算法是基于詞頻統計的,詞權的計算一般把該詞在網頁中出現的位置考慮進來,例如在標題中出現的詞比在正文中的詞權值高。但是由于網絡資源的數量巨大,詞頻相同的兩個網頁質量卻可能相差很遠,而且依據詞頻計算網頁與關鍵字的相關度并不可靠,因此這種算法的局限性很明顯。(2)基于超鏈分析的排序算法。傳統情報檢索理論中的引文分析方法是確定學術文獻權威性的重要方法之一,即根據引文的數量和質量來確定文獻的權威性。基于超鏈分析的排序算法借鑒了這一思想,通過把引文分析思想借鑒到網絡文檔重要性的計算中來,利用網絡自身的超鏈接結構根據網頁被引用的次數及引用網頁自身的重要性給所有的網頁確定一個重要性的等級數,以此來幫助實現排序算法的優化。但這種算法得到的是網頁自身的重要性等級,而不是網頁與用戶查詢的關鍵字的相關度,所以常會出現查詢結果中網頁自身的質最很高但是與用戶的查詢需求不一定很相關的問題。
發明內容
為了解決上述問題,本發明的目的在于提供一種能夠在不增加操作復雜性的前提下準確地辨別出用戶的需求,從而可以提高搜索引擎的搜索結果與用戶需求之間相關性的基于網頁相關性的搜索引擎搜索方法。
為了達到上述目的,本發明提供的基于網頁相關性的搜索引擎搜索方法包括按順序進行的下列步驟(1)在搜索引擎運行過程中記錄一段時間內網絡用戶在搜索引擎搜索結果列表上的點擊行為數據;(2)用基于向量空間模型的方法計算出所有網頁間的差異度并保存;
(3)用步驟1中記錄的點擊數據更新步驟2中得到的所有網頁間差異度;(4)將步驟3中得到的網頁間差異度視為網頁間的距離,并用維數約減的算法對這些距離數據降維,從而得到網頁間差異度數據的低維幾何表示;(5)當搜索引擎接受到一個用戶的一次查詢請求時進行下列步驟(a)搜索引擎接受用戶輸入的查詢關鍵字,用某種相關度計算方法得出一個對應于此查詢關鍵字的初始查詢結果列表并將其提交給用戶查看;(b)用戶查看初始查詢列表后將點擊一個其感興趣的鏈接;(c)搜索引擎記錄用戶點擊的第一個鏈接,并將該鏈接對應的網頁記為目標網頁,然后根據步驟4得到的網頁間差異度數據的低維幾何表示計算出目標網頁與初始查詢結果列表中所有鏈接對應的網頁間的差異度,并將差異度按照從低到高的順序排列構成新的查詢結果;(d)將新的查詢結果提交給用戶,此查詢結果即是與用戶點擊的第一個網頁相關且與用戶輸入的查詢關鍵字高度相關的最終查詢結果。
所述的步驟1中的記錄時間以每個月作為周期,長期動態跟蹤。
本發明提供的基于網頁相關性的搜索引擎搜索方法具有如下有益效果1.本發明能夠在一次查詢過程中提供兩次結果給用戶,利用用戶第一次點擊提供的信息有效地解決了一意多詞和一詞多意的問題,解決了基于關鍵字的搜索引擎無法準確確定用戶查詢意圖的問題,這種根據用戶的第一次點擊提供第二次搜索結果的方法不僅可以提供給用戶與關鍵字相關且與用戶感興趣的網頁相關的網頁,而且沒有增加用戶操作的復雜性。
2.從經驗和直覺上講,只有同類的、相關性高的網頁才更容易被用戶同時訪問,所以點擊數據中包含了用戶對網頁差異性的判斷。使用點擊數據更新差異性矩陣,是從一個新的角度判斷網頁間的差異性,這種差異性是大量數據中體現出來的統計意義上的差異性,是大量搜索引擎用戶使用搜索引擎過程中作出的判斷。所以,本發明利用具有統計平穩性的網頁級的相關性(差異性)分析,不需長期跟蹤特定用戶的行為,即可為該用戶提供統計意義上的優化服務。
具體實施例方式
本發明提供的基于網頁相關性的搜索引擎搜索方法是通過收集用戶的點擊行為數據來確定用戶真正需要的信息內容類型,同時將點擊數據作為判斷網頁間相關性的依據之一,由此提高查詢結果與用戶需求的相關性。
通常使用搜索引擎的用戶不會隨機地點擊搜索結果列表上的鏈接,而是作出某種選擇,這樣點擊數據就成為一種包含豐富信息的隱性反饋。由于用戶更加趨向于去點擊那些與他們的需求相吻合的鏈接,所以搜索引擎可以通過跟蹤用戶點擊的鏈接分析出用戶的即時需求,解決查詢詞多義性問題。如搜索引擎可以提供一個動態查詢結果,使查詢結果既與查詢詞相關又與用戶剛點擊的鏈接內容相關,這樣就可以確定出用戶想要用此查詢詞表達的意思,使搜索結果適應用戶的需求。
在進行一次查詢過程中,用戶的需求往往是比較單一的,而且其總體上不會無故地進行點擊,所以在用戶的一次查詢過程中司時被點擊的多個鏈接相互之間是相關性較強的。本發明通過一個n×n的矩陣保存這種被同時點擊的信息,作為更新網頁間相關度的依據。即本發明是通過維護由大量用戶點擊數據獲得的網頁內容差異性,針對每個查詢請求,經由跟蹤用戶點擊和網頁內容差異性信息來辨識查詢主題和查詢意圖,最終提供給用戶一個與用戶點擊的第一個網頁相關且與用戶輸入的查詢關鍵字高度相關的最終查詢結果。
下面對本發明提供的基于網頁相關性的搜索引擎搜索方法進行詳細說明本發明提供的基于網頁相關性的搜索引擎搜索方法包括按順序進行的下列步驟(1)在搜索引擎運行過程中記錄一段時間內網絡用戶在搜索引擎搜索結果列表上的點擊行為數據;由于點擊行為數據需要積累,所以本步驟需要隨搜索引擎運行持續一段時間。
(2)用基于向量空間模型的方法計算出所有網頁間的差異度并保存;網頁差異度是與網頁相關度相反的屬性,是對網頁間差異程度的定量化的定義,兩個網頁的相關度越高則差異度越小。
在此過程中,首先建立差異性矩陣D并實現更新,以維護以下數據結構共同訪問計數矩陣An*n對稱矩陣,保存了所有網頁間被同時訪問的計數。
點擊計數向量Bn*1向量,bi為非負整數,
,每個元素保存了對應網頁收到的總點擊數。
初始差異性矩陣D0n*n對稱矩陣,由向量空間模型計算得到。令Doc={doci|1≤i≤n}表示一個網頁集。根據向量空間模型,每個網頁doci都可以被表示為向量doci,則D0的第i行j列元素dij0可以定義為dij0≡||doci||doci||2-doci||docj||2||2argmaxi,j{||doci||doci||2-docj||docj||2||2}---(1)]]>‖·‖2為2范數。根據定義可知dij0是一個規范化的分布在
值,D0的元素滿足測度公理(滿足測度公理是D可求出幾何嵌入的必要屬性)。
點擊差異矩陣Cn*n矩陣,直接定義C的元素為cij≡1-(aij/max{bi,bj}),i≠j0,i=j---(2)]]>差異性矩陣Dn*n的對稱矩陣。第i行j列元素dij保存了第i個網頁和第j個網頁之間的差異性,定義dij為dij≡w·cij+(1-w)·dij0,i≠j0,i=j---(3)]]>其中w為用戶參數,0<w<1。在初始狀態w置為0,隨著系統運行時間的增加逐漸調高w的值。經過足夠長的時間后,w可取1。w也可以應特殊需求進行調整,如有些網頁只收到了很少的點擊,則點擊數據的可靠性就比較低,這時可以將w取一個較小的值,則此時差異性主要取決于由VSM方法計算所得到的值。
D的壓縮表示Yn*d矩陣,D的壓縮表示,用維數約減算法處理D可以得到Y。D中的元素dij被表示為Y中第i行與第j行向量的距離。因此,所有網頁間的差異性都可以用Y中向量的歐式距離表示。
(3)用步驟1中記錄的點擊數據更新步驟2中得到的所有網頁間差異度;任意兩個網頁間的差異度更新方法如下(a)分析步驟1中記錄的點擊數據,如果點擊數據顯示這兩個網頁同時出現在某次查詢結果中且它們都被當時的用戶打開,則這兩個網頁間的同時點擊計數加1,處理完步驟1中的所有點擊數據后可以得到這兩個網頁間在步驟1所持續的時間段內總的同時點擊計數。
(4)將步驟3中得到的網頁間差異度視為網頁間的距離,并用維數約減的算法對這些距離數據降維,從而得到網頁間差異度數據的低維幾何表示;至此得到搜索引擎產生查詢結果所需的計算網頁間差異度的數據。
在上述的步驟3和4中,定期對差異性矩陣進行更新,更新過程如下
1.依據向量空間模型生成初始差異性矩陣D0。
2.對每個查詢事件,依據某種方法(不需要約束使用的具體算法)生成查詢結果集。結果集中的鏈接被有序提交給用戶,每個鏈接都附有對應網頁的摘要。
3.用戶查看列表后依據當時的需要點擊了若干個鏈接,搜索引擎記錄下被點擊的鏈接并將被點擊的網頁間的同時訪問計數加1,如下對被點擊的網頁i、j,執行aij=aij+1(4)bi=bi+1 (5)bJ=bj+1 (6)如果只有一個網頁i被打開,則執行bi=bi+1 (7)4.搜索引擎規律性的根據A、B和D0重新計算生成D,并D對進行降維,獲得D壓縮幾何表示Y。這樣網頁間的差異性被表示為d維嵌入空間下的歐式距離,d<<n。
5.當有新的網頁加入時,系統用基于向量空間模型的方法計算出新網頁與其它網頁的差異性,并將該網頁的w參數調整為0。當該網頁收到的點擊達到一定量再將w調整到一個合理的非0值。
(5)當搜索引擎接受到一個用戶的一次查詢請求時進行下列步驟(a)搜索引擎接受用戶輸入的查詢關鍵字,用某種相關度計算方法得出一個對應于此查詢關鍵字的初始查詢結果列表并將具提交給用戶查看;(b)用戶查看初始查詢列表后將點擊一個其感興趣的鏈接;(c)搜索引擎記錄用戶點擊的第一個鏈接,并將該鏈接對應的網頁記為目標網頁,然后根據步驟4得到的網頁間差異度數據的低維幾何表示計算出目標網頁與初始查詢結果列表中所有鏈接對應的網頁間的差異度,并將差異度按照從低到高的順序排列構成新的查詢結果;(d)將新的查詢結果提交給用戶,此查詢結果即是與用戶點擊的第一個網頁相關且與用戶輸入的查詢關鍵字高度相關的最終查詢結果。
在此步驟中,當有用戶使用搜索引擎時,對于一次查詢請求進行下列過程1.用基于向量空間模型的方法生成初始查詢結果集r。設此時r中行m個網頁。
2.在用戶觀察初始查詢結果并點擊一個鏈接后,搜索引擎記錄該鏈接(稱為目標網頁,設其在網頁庫中的ID為i)。計算目標網頁i和r中其它網頁的差異度(即計算Y中對應行向量間的距離),獲得差異向量di≡[dij1,dij2,...,dijm]T]]>(也可以計算目標網頁和所有其它網頁間的差異度并取差異度最小的一部分網頁作為查詢結果集的擴展)。
3.將r中的網頁按照di中對應的差異度升序排列,提交給用戶,此為搜索引擎提交給用戶的最終結果。
權利要求
1.一種基于網頁相關性的搜索引擎搜索方法,其特征在于所述的基于網頁相關性的搜索引擎搜索方法包括按順序進行的下列步驟(1)在搜索引擎運行過程中記錄一段時間內網絡用戶在搜索引擎搜索結果列表上的點擊行為數據;(2)用基于向量空間模型的方法計算出所有網頁間的差異度并保存;(3)用步驟1中記錄的點擊數據更新步驟2中得到的所有網頁間差異度;(4)將步驟3中得到的網頁間差異度視為網頁間的距離,并用維數約減的算法對這些距離數據降維,從而得到網頁間差異度數據的低維幾何表示;(5)當搜索引擎接受到一個用戶的一次查詢請求時進行下列步驟(a)搜索引擎接受用戶輸入的查詢關鍵字,用某種相關度計算方法得出一個對應于此查詢關鍵字的初始查詢結果列表并將其提交給用戶查看;(b)用戶查看初始查詢列表后將點擊一個其感興趣的鏈接;(c)搜索引擎記錄用戶點擊的第一個鏈接,并將該鏈接對應的網頁記為目標網頁,然后根據步驟4得到的網頁間差異度數據的低維幾何表示計算出目標網頁與初始查詢結果列表中所有鏈接對應的網頁間的差異度,并將差異度按照從低到高的順序排列構成新的查詢結果;(d)將新的查詢結果提交給用戶,此查詢結果即是與用戶點擊的第一個網頁相關且與用戶輸入的查詢關鍵字高度相關的最終查詢結果。
2.根據權利要求1所述的基于網頁相關性的搜索引擎搜索方法,其特征在于所述的步驟1中的記錄時間以每個月作為周期,長期動態跟蹤。
全文摘要
一種基于網頁相關性的搜索引擎搜索方法。該方法能夠在一次查詢過程中提供兩次結果給用戶,利用用戶第一次點擊提供的信息有效地解決了一意多詞和一詞多意的問題,解決了基于關鍵字的搜索引擎無法準確確定用戶查詢意圖的問題,這種不僅可以提供給用戶與關鍵字相關且與用戶感興趣的網頁相關的網頁,而且沒有增加用戶操作的復雜性。另外,使用點擊數據更新差異性矩陣,是從一個新的角度判斷網頁間差異性,這種差異性是大量數據中體現出來的統計意義上的差異性,是大量搜索引擎用戶使用搜索引擎過程中作出的判斷。所以,本發明利用具有統計平穩性的網頁級的相關性(差異性)分析,不需長期跟蹤特定用戶的行為,即可為該用戶提供統計意義上的優化服務。
文檔編號G06F17/30GK1996316SQ20071005642
公開日2007年7月11日 申請日期2007年1月9日 優先權日2007年1月9日
發明者侯越先 申請人:天津大學