專利名稱:一種用于元搜索引擎的搜索方法及其裝置的制作方法
一種用于元搜索引擎的搜索方法及其裝置
技術領域:
本發明涉及計算機軟件領域,尤其涉及一種用于元搜索引擎的搜索方法及其裝置。
背景技術:
如何讓搜索引擎主動了解用戶意圖,掌握用戶個性化信息,提供個性化服務成為 了信息檢索領域中許多學者的研究熱點。在個性化信息服務中,有關用戶行為的分析,進而 建立用戶模型成為個性化服務研究的關鍵技術。在個性化元搜索引擎中,主要有三種用戶模型的表示方式主題表示法,以用戶 感興趣的主題表示用戶模型;關鍵詞表示法,以用戶感興趣的關鍵詞表示用戶模型,如Web Watcher ;基于空間向量模型的表示法,用關鍵詞向量空間中的向量來表示用戶模型的方 法,如ffeb Mate。現有技術的個性化搜索引擎中主要有三種用戶建模技術手工定制建模, 即由用戶自行輸入或選擇的建模方法。另外,成員搜索引擎的調度以及結果的融合也都是 個性化元搜索引擎的關鍵技術。手工定制建模是由用戶自行輸入或選擇的建模方法,因此該方法的缺點在于完全 依賴于用戶并且無法準確反映用戶興趣。而示例建模是由用戶提供與興趣相關或無關的示 例來建立模型,此方法的缺點在于需要用戶在瀏覽過程中標注頁面以得到示例,因此干擾 了用戶的正常瀏覽。對于自動建模而言,是根據用戶的瀏覽行為自動建立模型,改進了示例 建模技術,不會造成對用戶的干擾,但是自動建模的程序實現過程非常復雜,目前還很不完善。
發明內容本發明所要解決的技術問題是,提供一種用于元搜索引擎的搜索方法以及裝置, 具有簡單的算法和準確的搜索結果,且不影響用戶正常瀏覽。為了解決上述問題,本發明提供了一種用于元搜索引擎的搜索方法,包括如下步 驟根據用戶瀏覽過的頁面建立用戶興趣模型;根據用戶的查詢要求和用戶的興趣模型對 成員搜索引擎進行調度;根據查詢結果與用戶興趣的相關度對結果進行融合并排序。作為可選的技術方案,所述建立用戶興趣模型的步驟進一步包括對用戶瀏覽過 的頁面進行內容分析;根據分析結果對頁面進行聚類,以形成興趣樹。作為可選的技術方案,所述對成員搜索引擎進行調度的步驟進一步包括將用戶 的查詢映射到用戶興趣分類;結合用戶對搜索引擎的偏好程度,計算成員搜索引擎與用戶 查詢的相關度;選取一個或多個成員搜索引擎進行搜索。作為可選的技術方案,所述對結果進行融合的步驟進一步包括對查詢到的相似 網頁進行去重處理;根據成員搜索引擎與興趣的相關度、查詢結果在各個成員搜索引擎中 出現的位置和次數、以及用戶對成員搜索引擎的偏好程度,計算查詢結果在成員搜索引擎 中的評分;對查詢結果按照評分從高到低的順序進行排序。
本發明還提供了一種用于元搜索引擎的搜索裝置,包括如下單元建模單元,用于 根據用戶瀏覽過的頁面建立用戶興趣模型;調度單元,用于根據用戶的查詢要求和用戶的 興趣模型對成員搜索引擎進行調度;融合單元,用于根據查詢結果與用戶興趣的相關度對 結果進行融合并排序。作為可選的技術方案,所述建模單元進一步包括分析模塊,用于對用戶瀏覽過的 頁面進行內容分析;聚類模塊,用于根據分析結果對頁面進行聚類,以形成興趣樹。作為可選的技術方案,所述調度單元進一步包括映射模塊,用于將用戶的查詢映 射到用戶興趣分類;計算模塊,用于結合用戶對搜索引擎的偏好程度,計算成員搜索引擎與 用戶查詢的相關度;搜索模塊,選取一個或多個成員搜索引擎進行搜索。作為可選的技術方案,所述排序單元進一步包括去重模塊,用于對查詢到的相似 網頁進行去重處理;評分模塊,用于根據成員搜索引擎與興趣的相關度、查詢結果在各個成 員搜索引擎中出現的位置和次數、以及用戶對成員搜索引擎的偏好程度,計算查詢結果在 成員搜索引擎中的評分;排序模塊,對查詢結果按照評分從高到低的順序進行排序。本發明的優點在于,采用模糊均值算法對用戶的行為進行聚類,自動完成對用戶 興趣模型的建立。并且充分利用對用戶的行為的分析,結合用戶的興趣模型搜索引擎的偏 好來實現對成員搜索引擎的調度。因此本發明所述的技術方案是一種基于用戶興趣的查詢 結果融合的方案,通過考慮用戶的興趣以及成員搜索引擎與用戶興趣的相關度,在不影響 用戶正常瀏覽的前提下,提高了搜索引擎的準確度。
附圖1所示是本發明所述用于元搜索引擎的搜索方法的實施步驟示意圖;附圖2所示是本發明所述用于元搜索引擎的搜索裝置的裝置結構示意圖。
具體實施方式下面結合附圖對本發明提供的用于元搜索引擎的搜索方法及其裝置的具體實施 方式做詳細說明。首先結合附圖敘述本發明所述用于元搜索引擎的搜索方法的具體實施方式
。附圖1所示是本方法的實施步驟示意圖,包括步驟S11,根據用戶瀏覽過的頁面 建立用戶興趣模型;步驟S12,根據用戶的查詢要求和用戶的興趣模型對成員搜索引擎進 行調度;步驟S13,根據查詢結果與用戶興趣的相關度對結果進行融合并排序。其中,步驟Sll進一步包括對用戶瀏覽過的頁面進行內容分析;根據分析結果對 頁面進行聚類,以形成興趣樹。用戶往往有多個不同的興趣類別,為了區分各種不同興趣, 本發明采用分類層次結構來表示用戶可能具有的興趣。具體地說,首先對用戶瀏覽過的頁面進行內容分析,根據信息主題對頁面進行聚 類,以形成不同用戶的興趣樹。采用模糊C均值(FCM)算法,該算法能夠在數據集的聚類數 目已知的情況下,尋找最佳的數據劃分。由于用戶在不同的時期表現出的興趣不同,長期興 趣比較穩定,短期興趣則能體現用戶最近的興趣。因此,本文采用一個三元組(keyi,Wi, f) 來表示每一個興趣節點,其中keyi表興趣節點的關鍵詞,Wi表示該關鍵詞的權重,f表示該 興趣的新鮮度。隨著用戶的行為增多,用戶的行為動機就越來越明確,即用戶的興趣類別越明確。步驟S12進一步包括將用戶的查詢映射到用戶興趣分類;結合用戶對搜索引擎 的偏好程度,計算成員搜索引擎與用戶查詢的相關度;選取前面的一個或多個成員搜索引 擎進行搜索。將用戶的查詢映射到用戶興趣分類,所述用戶興趣分類是采用步驟Sll中所述的 方法建立的。結合用戶對搜索引擎的偏好程度Prei,采用余弦法計算出用戶興趣與成員搜索 引擎的相關度re、。計算成員搜索引擎與用戶查詢的相關度有以下公式rel (s,q)= a^eli+l^prei,其中 a、b 為常數。根據計算出來的搜索引擎與用戶查詢的相關度rel (s,q),對各成員搜索引擎按照 相關度的降序排列,選取前面的幾個成員搜索引擎(例如5個)進行搜索。上述步驟中,還可以進一步利用并行處理來提高碰撞檢測的速度。是否能夠采用 并行處理的關鍵因素在于求解問題之間要滿足并行處理的條件1、求解問題可劃分為多個 子問題;2、子問題間具有低相關性。步驟S13進一步包括對查詢到的相似網頁進行去重處理;根據成員搜索引擎與 興趣的相關度、查詢結果在各個成員搜索引擎中出現的位置和次數、以及用戶對成員搜索 引擎的偏好程度,計算查詢結果在成員搜索引擎中的評分;對查詢結果按照評分從高到低 的順序進行排序。各成員搜索引擎返回的查詢結果可能會有交叉,為避免查詢到相似的網頁,造成 重復索引,本系統對查詢到的網頁進行了相似網頁去重處理。計算查詢結果與用戶興趣的相關度的步驟具體是分析查詢結果的標題和內容摘 要并對照用戶的興趣樹,對查詢結果進行分類,并計算查詢結果與用戶興趣的相關度。利用所獲得相關度信息,并結合查詢結果在各個成員搜索引擎中出現的位置 和次數、以及用戶對成員搜索引擎的偏好程度,計算查詢結果在成員搜索引擎中的評分 rank(se)0具體地說,成員搜索引擎與用戶興趣的相關性越高,則評分越高;查詢結果 被越多的成員搜索引擎索引,則評分越高;查詢結果出現的位置越靠前,則評分越高;用 戶對成員搜索引擎的偏好程度越高,則評分越高。根據以上原則,我們得出如下公式
權利要求
1.一種用于元搜索引擎的搜索方法,其特征在于,包括如下步驟 根據用戶瀏覽過的頁面建立用戶興趣模型;根據用戶的查詢要求和用戶的興趣模型對成員搜索引擎進行調度; 根據查詢結果與用戶興趣的相關度對結果進行融合并排序。
2.根據權利要求1所述的用于元搜索引擎的搜索方法,其特征在于,所述建 立用戶興趣模型的步驟進一步包括對用戶瀏覽過的頁面進行內容分析; 根據分析結果對頁面進行聚類,以形成興趣樹。
3.根據權利要求1所述的用于元搜索引擎的搜索方法,其特征在于,所述對成員搜索 引擎進行調度的步驟進一步包括將用戶的查詢映射到用戶興趣分類;結合用戶對搜索引擎的偏好程度,計算成員搜索引擎與用戶查詢的相關度; 選取一個或多個成員搜索引擎進行搜索。
4.根據權利要求1所述的用于元搜索引擎的搜索方法,其特征在于,所述對結果進行 融合的步驟進一步包括對查詢到的相似網頁進行去重處理;根據成員搜索引擎與興趣的相關度、查詢結果在各個成員搜索引擎中出現的位置和次 數、以及用戶對成員搜索引擎的偏好程度,計算查詢結果在成員搜索引擎中的評分; 對查詢結果按照評分從高到低的順序進行排序。
5.一種用于元搜索引擎的搜索裝置,其特征在于,包括如下單元 建模單元,用于根據用戶瀏覽過的頁面建立用戶興趣模型;調度單元,用于根據用戶的查詢要求和用戶的興趣模型對成員搜索引擎進行調度; 融合單元,用于根據查詢結果與用戶興趣的相關度對結果進行融合并排序。
6.根據權利要求5所述的用于元搜索引擎的搜索裝置,其特征在于,所述建模單元進 一步包括分析模塊,用于對用戶瀏覽過的頁面進行內容分析; 聚類模塊,用于根據分析結果對頁面進行聚類,以形成興趣樹。
7.根據權利要求5所述的用于元搜索引擎的搜索裝置,其特征在于,所述調度單元進 一步包括映射模塊,用于將用戶的查詢映射到用戶興趣分類;計算模塊,用于結合用戶對搜索引擎的偏好程度,計算成員搜索引擎與用戶查詢的相 關度;搜索模塊,選取一個或多個成員搜索引擎進行搜索。
8.根據權利要求5所述的用于元搜索引擎的搜索裝置,其特征在于,所述排序單元進 一步包括去重模塊,用于對查詢到的相似網頁進行去重處理;評分模塊,用于根據成員搜索引擎與興趣的相關度、查詢結果在各個成員搜索引擎中 出現的位置和次數、以及用戶對成員搜索引擎的偏好程度,計算查詢結果在成員搜索引擎 中的評分;排序模塊,對查詢結果按照評分從高到低的順序進行排序。
全文摘要
一種用于元搜索引擎的搜索方法,包括如下步驟根據用戶瀏覽過的頁面建立用戶興趣模型;根據用戶的查詢要求和用戶的興趣模型對成員搜索引擎進行調度;根據查詢結果與用戶興趣的相關度對結果進行融合并排序。本發明還進一步提供了一種用于元搜索引擎的搜索裝置。本發明所述的方法和裝置是一種基于用戶興趣的查詢結果融合方法,通過考慮用戶的興趣以及成員搜索引擎與用戶興趣的相關度,在不影響用戶正常瀏覽的前提下,提高了搜索引擎的準確度。
文檔編號G06F17/30GK102081604SQ20091019962
公開日2011年6月1日 申請日期2009年11月27日 優先權日2009年11月27日
發明者劉泓漫, 寧建紅, 閆俊英 申請人:上海電機學院