專利名稱:一種基于搜索引擎的網絡搜索方法
技術領域:
本發明涉及計算機科學/互聯網技術領域,尤其涉及到互聯網的網絡搜索方法。
背景技術:
隨著互聯網技術的發展,人們對網絡的依賴程度越來越大了,據統計,每個月有超過100億的搜索關鍵詞提交給網絡搜索引擎。這些搜索大多數是由一些關鍵詞組成的,簡短、模糊并且不太準確。實際上,當用戶提交一個很短并且不準確的查詢時,搜索引擎面臨的一個很大的困難是要分析出用戶的實際需求。現有的眾多的搜索方法論文以及各種搜索方法專利,這些方法主要是將用戶的搜索關鍵字提交到興趣模型,利用興趣模型的處理結果進行再次搜索,返回最終的搜索結果。 或者是根據搜索結果的相似性評價及搜索結果內容,對搜索結果進行優化排序。這些方法只是考慮了用戶的最初的搜索關鍵字,建立了各種分析模型,而忽略了用戶本身的行為,因而搜索結果可能沒有太大的說服力。
發明內容
本發明所要解決的技術問題是提供一種基于搜索引擎的網絡搜索方法,快速的幫助用戶精確定位到感興趣的內容。為解決上述技術問題,本發明的技術構思如下—、針對用戶提交的初始查詢詞,集中關注搜索引擎返回的結果。當用戶初步瀏覽了各個結果的標題和摘要后,點擊了某一個或幾個鏈接后,那這幾個被用戶點擊的頁面中必定會有一些詞是可以描述用戶的信息需求的。如果可以找出用戶感興趣的這些詞來擴展用戶的搜索詞,必然會大大提高搜索的效率。當用戶點擊搜索結果中的某個鏈接時,預示著該結果中的某一個或幾個詞語與該用戶的信息需求是相關的。找出這些詞,就可以更加清晰的了解用戶的信息需求。假如搜索結果是sada是由詞語W1W2... Wn組成的。這時就可以用空間向量模型來表示出sa。這里的關鍵問題是如何衡量各個詞語的權重。一種簡單的方法是使用詞語在該結果和整個搜索的結果集中出現的頻率來計算詞語的權重。同時也應該考慮各個詞語和原始查詢詞的相關性。此方法的基本思想是考察原始查詢詞和搜索結果前列的候選詞的共現頻率,以此來衡量該候選詞的權重。假設⑴原始查詢詞是Q,(2) Q中的關鍵詞為qiq2q3. . . qm,(3)查詢結果排在前列的文檔集是C,C = Is1, &,. . .,sn}。用c0_deg ree(t, Qi)來表示詞t和Qi在文檔C中的共同出現的次數。本文使用下面的公式來計算t和Qi的共現次數
Σ lo^m,力 +1) χ ^ogitfiqi, 5) + 1)co_dQgree(t,qi) = ^-公式一
ηtf(t, s)和tf (q,s)分別代表詞t和詞Qi在搜索結果s中出現的頻率。將這種量度作為詞w和關鍵詞Cli在集合C中的共現概率。這個算法將詞語在文檔中出現的次數和兩詞的共現次數聯系起來了。得到詞t和關鍵詞化的共現概率C0_deg ree(t,qi)后,還要計算詞t和所有的Qi在靠前的結果集中的共現率。設想t和不同的查詢詞的共現率是獨立的,很自然的一種假設是把這些單個的共現率相乘。
權利要求
1. 一種基于搜索引擎的網絡搜索方法,其特征在于,包括以下步驟 步驟1、所述搜索引擎根據用戶鍵入的初始查詢詞進行搜索,展示所述搜索結果; 步驟2、記錄所述初始查詢詞以及用戶對所述搜索結果的點擊日志; 步驟3、利用公式二計算出所述點擊日志的網頁中每個詞語與所述查詢詞之間的相關度,并按相關度進行排序,挑選相關度高的前η個詞語擴展所述初始查詢詞為擴展查詢詞; 所述η為人為設定的自然數;g(t,Q) = Π (CO _dQgree(t,q) + \ydf^公式二 q^Q其中,Q表示查詢詞,q表示查詢詞Q中的關鍵詞,t表示任意詞,C0_deg ree(t,qi)表示詞t和Qi在查詢結果排在前列的文檔集C中的共同出現的次數;測+ 1.步驟4、將所述擴展查詢詞提交到所述搜索引擎進行二次搜索,并展示新的搜索結果。
2.根據權利要求1所述的基于搜索引擎的網絡搜索方法,其特征在于,在所述步驟4之后,包括以下步驟步驟5、將所述初始查詢詞和擴展查詢詞分別提交到問答社區進行搜索,步驟6、利用公式五計算所述問答社區中的答案和搜索引擎的搜索結果的KL距離,Sim{Q,D) KL(Q 丨…)=Σ ((尸…\Q)~P(^ I D)) log公式五werP(w I D)KL距離小的問答對被認為是反映用戶搜索意圖的問答對;步驟7、取搜索結果中KL距離值小的前m個搜索結果展示給用戶,供用戶選擇,所述m 為人為設定的自然數。
3.根據權利要求2所述的基于搜索引擎的網絡搜索方法,其特征在于,在所述公式五中,P(W|Q) = APml(w|Q) + (1-A)P(w|C)0
4.根據權利要求2或3之一所述的基于搜索引擎的網絡搜索方法,其特征在于,在所述步驟7之后,還包括以下步驟步驟8、采用如下公式七,, . . ^ R(i) χ pos(i)AverageFr ecision(q) = X公式七tt R(Tq)Xi其中,%為搜索結果的總數,R(i)為前i個結果中與查詢詞q相關的結果的個數, pos (i)是一個二元函數,它指示第i個結果與查詢詞是否相關;分別計算針對原始關鍵詞%的問答社區查詢結果的平均精確度aP(l以及針對擴展關鍵詞Cl1的問答社區查詢結果的平均精確度apQ,比較apQ和aPl值大小,如果apQ和aPl的相似比例在設定范圍內,則認為查詢結果準確。
全文摘要
本發明涉及基于搜索引擎的網絡搜索方法,用于為搜索客戶端提供精確搜索,該精確搜索可以根據搜索客戶端用戶對搜索結果的點擊日志篩選出可以反映用戶搜索意圖的關鍵詞,并將這些搜索詞在各種專業的問答社區進行問題匹配,以此來明確用戶的真正搜索意圖,恢復用戶的精確搜索語句,并以此語句重新提交搜索,將用戶真正感興趣的、對用戶有用的結果以高優先級返回給用戶,從而大大減少用戶的搜索時間,提高用戶的搜索效率。
文檔編號G06F17/30GK102254039SQ20111022964
公開日2011年11月23日 申請日期2011年8月11日 優先權日2011年8月11日
發明者溫杰, 王君澤, 胡廣, 魏超, 黃本雄 申請人:武漢安問科技發展有限責任公司