一種挖掘搜索引擎未召回類糾錯詞的方法及裝置制造方法
【專利摘要】本發明提出了一種挖掘搜索引擎未召回類糾錯詞的方法,包括以下步驟:搜索引擎獲取用戶的會話日志,其中,會話日志至少包括第一會話和第二會話,第一會話和第二會話中分別包括第一搜索詞和第二搜索詞;搜索引擎獲得第一搜索詞和第二搜索詞之間的關聯關系信息;搜索引擎根據關聯關系信息判斷第一搜索詞是否為未召回類糾錯詞。本發明還提出了一種挖掘搜索引擎未召回類糾錯詞的裝置。本發明通過對用戶搜索詞序列和搜索結果的建模分析,能夠自動地發現未召回類糾錯詞,召回效率遠高于人工查找,大大節省了尋找未召回類糾錯詞的人力成本。
【專利說明】-種挖掘搜索引擎未召回類糾錯詞的方法及裝置
【技術領域】
[0001] 本發明涉及互聯網搜索【技術領域】,特別涉及一種挖掘搜索引擎未召回類糾錯詞的 方法及裝置。
【背景技術】
[0002] 搜索引擎搜索詞糾錯是一種有效的用戶搜索詞糾正和引導方法。當用戶在搜索 時,由于拼寫錯誤、記憶不清而不能提供完整和準確的搜索詞的時候,搜索引擎能夠通過糾 錯、校正用戶的輸入或者將用戶引導到正確的搜索詞上,使得用戶獲得有用的查詢結果,如 圖1(a)、圖1(b)、圖1(c)所示,例如用戶本來想搜索"中關村",但是輸入錯誤的"中觀村"、 "眾關村"或者"zhong關村",搜索引擎都能夠給出正確的糾錯詞"中關村"。
[0003] 如果搜索引擎給出的糾錯詞不正確,例如將不需要糾錯的搜索詞做糾錯,或者需 要糾錯的搜索詞沒有正確糾錯,那么不僅無法引導給用戶需要的結果,往往還會造成適得 其反的負面效果。因此針對搜索引擎糾錯的效果進行驗證(包括準確率和召回率),以及挖 掘出糾錯效果不好的搜索引擎糾錯失敗的案例以供后續改進就變得非常重要。
[0004] 搜索引擎糾錯失敗的情況可以分為如下三種類型:
[0005] (1)用戶輸入的是正確的搜索詞,但是搜索引擎卻做了糾錯,給了不合適的糾錯 詞;
[0006] (2)用戶輸入的是錯誤的搜索詞,但是搜索引擎給出的糾錯詞也不正確;
[0007] (3)用戶輸入的是錯誤的搜索詞,但是搜索引擎沒有給出糾錯詞,也就是業界所說 的糾錯詞未召回的情況,例如,用戶輸入"萬里長征永不倒"查詢結果如圖2(a)所示,搜索 引擎沒有給出糾錯詞,實際上用戶想要檢索的應該是"萬里長城永不倒",用"萬里長城永不 倒"檢索能夠檢索到更多更好的結果,如圖2(b)所示。
[0008] 對于其中的(1)和(2)兩種情況,通過對帶有糾錯詞信息的用戶Session (會話) 日志進行建模分析能夠有效地發現。而對于第(3)種搜索引擎未召回類糾錯詞的情況,現 有技術中尚未有針對性的解決辦法。
【發明內容】
[0009] 本發明旨在至少在一定程度上解決上述技術問題之一或至少提供一種有用的商 業選擇。
[0010] 為此,本發明的第一個目的在于提出一種挖掘搜索引擎未召回類糾錯詞的方法, 通過對用戶搜索詞序列和搜索結果的建模分析,能夠自動地發現未召回類糾錯詞。本發明 的第二個目的在于提出一種挖掘搜索引擎未召回類糾錯詞的裝置。
[0011] 為達到上述目的,本發明第一方面的實施例提出了一種挖掘搜索引擎未召回類糾 錯詞的方法,包括以下步驟:搜索引擎獲取用戶的會話日志,其中,所述會話日志至少包括 第一會話和第二會話,所述第一會話和第二會話中分別包括第一搜索詞和第二搜索詞;所 述搜索引擎獲得所述第一搜索詞和第二搜索詞之間的關聯關系信息;所述搜索引擎根據所 述關聯關系信息判斷所述第一搜索詞是否為未召回類糾錯詞。
[0012] 根據本發明實施例的挖掘搜索引擎未召回類糾錯詞的方法,通過樣本的訓練之后 能夠自動的進行未召回類糾錯詞判斷,大大節省了尋找未召回類糾錯詞的人力,并且,通過 對用戶搜索詞序列和搜索結果的建模分析,能夠自動地發現未召回類糾錯詞,召回效率遠 高于以往的人工查找。
[0013] 在本發明的一個實施例中,所述關聯關系信息包括所述第一搜索詞和第二搜索詞 之間的編輯距離信息,所述第一搜索詞和第二搜索詞之間的分詞數量變化信息,以及所述 第一搜索詞和第二搜索詞之間的包含關系信息。
[0014] 在本發明的一個實施例中,所述關聯關系信息還包括所述第一搜索詞和第二搜索 詞之間的差異比例。
[0015] 在本發明的一個實施例中,所述搜索引擎根據所述關聯關系信息判斷所述第一搜 索詞是否為未召回類糾錯詞,進一步包括:所述搜索引擎根據所述關聯關系信息計算所述 第一搜索詞是未召回類糾錯詞的概率,當所述概率大于預設閾值時,所述搜索引擎判斷所 述第一搜索詞是未召回類糾錯詞。
[0016] 在本發明的一個實施例中,所述方法還包括:所述搜索引擎分別獲取所述第一搜 索詞對應的第一搜索結果和所述第二搜索詞對應的第二搜索結果;所述搜索引擎根據所述 第一搜索結果的數量與所述第二搜索結果的數量之比判斷所述第一搜索詞是否為未召回 類糾錯詞。
[0017] 在本發明的一個實施例中,所述方法還包括:所述搜索引擎獲取所述用戶對所述 第一搜索結果的第一點擊記錄和所述用戶對所述第二搜索結果的第二點擊記錄;所述搜索 引擎根據所述第一點擊記錄與所述第二點擊記錄判斷所述第一搜索詞是否為未召回類糾 錯詞。
[0018] 本發明第二方面的實施例提出了一種挖掘搜索引擎未召回類糾錯詞的裝置,包 括:日志讀取模塊,用于獲取用戶的會話日志,其中,所述會話日志至少包括第一會話和第 二會話,所述第一會話和第二會話中分別包括第一搜索詞和第二搜索詞;關聯關系檢測模 塊,用于獲得所述第一搜索詞和第二搜索詞之間的關聯關系信息;判斷模塊,用于根據所述 關聯關系信息判斷所述第一搜索詞是否為未召回類糾錯詞。
[0019] 根據本發明實施例的挖掘搜索引擎未召回類糾錯詞的裝置,通過樣本的訓練之后 能夠自動的進行未召回類糾錯詞判斷,大大節省了尋找未召回類糾錯詞的人力,并且,通過 對用戶搜索詞序列和搜索結果的建模分析,能夠自動地發現未召回類糾錯詞,召回效率遠 高于以往的人工查找。
[0020] 在本發明的一個實施例中,所述關聯關系信息包括所述第一搜索詞和第二搜索詞 之間的編輯距離信息,所述第一搜索詞和第二搜索詞之間的分詞數量變化信息,以及所述 第一搜索詞和第二搜索詞之間的包含關系信息。
[0021] 在本發明的一個實施例中,所述關聯關系信息還包括所述第一搜索詞和第二搜索 詞之間的差異比例。
[0022] 在本發明的一個實施例中,所述判斷模塊根據所述關聯關系信息計算所述第一搜 索詞是未召回類糾錯詞的概率,當所述概率大于預設閾值時,所述搜索引擎判斷所述第一 搜索詞是未召回類糾錯詞。
[0023] 在本發明的一個實施例中,所述裝置還包括:搜索結果獲取模塊,所述搜索模塊用 于分別獲取所述第一搜索詞對應的第一搜索結果和所述第二搜索詞對應的第二搜索結果, 所述判斷模塊還用于根據所述第一搜索結果的數量與所述第二搜索結果的數量之比判斷 所述第一搜索詞是否為未召回類糾錯詞。
[0024] 在本發明的一個實施例中,所述搜索結果獲取模塊還用于獲取所述用戶對所述第 一搜索結果的第一點擊記錄和所述用戶對所述第二搜索結果的第二點擊記錄,所述判斷模 塊還用于根據所述第一點擊記錄與所述第二點擊記錄判斷所述第一搜索詞是否為未召回 類糾錯詞。
[0025] 本發明附加的方面和優點將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過本發明的實踐了解到。
【專利附圖】
【附圖說明】
[0026] 本發明上述的和/或附加的方面和優點從下面結合附圖對實施例的描述中將變 得明顯和容易理解,其中 :
[0027] 圖1 (a)為一個搜索引擎對錯誤的搜索詞進行糾錯的示意圖;
[0028] 圖1 (b)為一個搜索引擎對錯誤的搜索詞進行糾錯的示意圖;
[0029] 圖1 (c)為一個搜索引擎對錯誤的搜索詞進行糾錯的示意圖;
[0030] 圖2(a)為一個搜索引擎對錯誤的搜索詞沒有進行糾錯的示意圖;
[0031] 圖2(b)為圖2(a)中錯誤的搜索詞相對應的正確的搜索詞的示意圖;
[0032] 圖3為根據本發明一個實施例的挖掘搜索引擎未召回類糾錯詞的方法的流程圖;
[0033] 圖4(a)為一個用戶輸入錯誤的搜索詞的示意圖;
[0034] 圖4(b)為圖4(a)中錯誤的搜索詞相對應的正確的搜索詞的示意圖;
[0035] 圖5為根據本發明一個實施例的挖掘搜索引擎未召回類糾錯詞的裝置的示意圖; 以及
[0036] 圖6為根據本發明一個實施例的挖掘搜索引擎未召回類糾錯詞的裝置的示意圖。
【具體實施方式】
[0037] 下面詳細描述本發明的實施例,所述實施例的示例在附圖中示出,其中自始至終 相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附 圖描述的實施例是示例性的,僅用于解釋本發明,而不能解釋為對本發明的限制。
[0038] 在本發明的描述中,需要說明的是,除非另有規定和限定,術語"安裝"、"相連"、 "連接"應做廣義理解,例如,可以是機械連接或電連接,也可以是兩個元件內部的連通,可 以是直接相連,也可以通過中間媒介間接相連,對于本領域的普通技術人員而言,可以根據 具體情況理解上述術語的具體含義。
[0039] 下面參考附圖描述根據本發明實施例的挖掘搜索引擎未召回類糾錯詞的方法及 裝直。
[0040] 如圖3所示,根據本發明第一方面實施例的挖掘搜索引擎未召回類糾錯詞的方 法。在本發明中,糾錯詞是指搜索引擎對用戶輸入的搜索詞進行糾正之后詞。未召回類糾 錯詞是指目前雖然用戶輸入的搜索詞有誤,但是搜索引擎并沒有給出相應的糾錯詞,因此 稱之為未召回類糾錯詞。該方法包括以下步驟:
[0041] S101 :搜索引擎獲取用戶的會話日志,其中,會話日志至少包括第一會話和第二會 話,第一會話包括第一搜索詞,且第二會話包括第二搜索詞。
[0042] S102 :搜索引擎獲得第一搜索詞和第二搜索詞之間的關聯關系信息。
[0043] 其中,關聯關系信息包括:第一搜索詞和第二搜索詞之間的編輯距離信息、第一搜 索詞和第二搜索詞之間的分詞數量變化信息、第一搜索詞和第二搜索詞之間的包含關系信 息中的一種或多種。
[0044] S103:搜索引擎根據關聯關系信息判斷第一搜索詞是否為未召回類糾錯詞。
[0045] 優選地,搜索引擎根據關聯關系信息計算第一搜索詞是未召回類糾錯詞的概率, 當概率大于預設閾值時,搜索引擎判斷第一搜索詞是未召回類糾錯詞。預設閾值可通過對 一定數量的會話日志進行訓練后計算得出。
[0046] 以下通過具體的實施例對本發明進行說明。
[0047] 用戶在某一段時間內使用搜索引擎輸入的搜索詞,稱為用戶的搜索詞序列。用戶 的搜索詞序列中的前后搜索詞之間存在一定的聯系。在本發明的一個實施例中,比如用戶 輸入錯誤的第一搜索詞"優酷tvv新劇",發現查詢結果太少并且無法滿足自己的需求,這 時候也許用戶會意識到自己輸入的搜索詞有誤,通過將搜索詞修正為第二搜索詞"優酷tvb 新劇"之后得到較好的查詢結果并點擊相應的搜索結果,來滿足自己的信息檢索需求。以下 表述中,有需要時,第一搜索詞也以"前搜索詞",第二搜索詞也以"后搜索詞"來描述。
[0048]用戶使用搜索引擎一般來說都有某種搜索訴求,希望通過搜索引擎找到自己想要 的信息。而搜索詞就是用戶和搜索引擎交互的渠道,如果使用的搜索詞不合適或者搜索詞 出現錯誤,搜索結果可能就無法滿足用戶的需求。用戶也會通過修正或者調整搜索詞來獲 取更好的搜索結果滿足自己的需求。因此,當用戶發現自己輸入的搜索詞錯誤而導致搜索 結果不好的時候,會主動地修正搜索詞;如果用戶意識不到輸入了錯誤的搜索詞,那么用戶 可能會想方設法調整使用別的搜索詞來獲取更好的搜索結果。而體現在會話日志中,則表 現為用戶修正或者調整前后的搜索詞之間存在關聯關系,例如當用戶錯誤輸入第一搜索詞 "優酷tvv新劇"之后搜索引擎給出的結果不太好,如圖4 (a),那么用戶修正后,輸入第二搜 索詞為"優酷tvb新劇"獲得了更好的搜索結果,如圖4(b),編輯距離的意義為第二搜索詞 相比于第一搜索詞的最小修正字符數,圖4(a)和圖4(b)中,修正的字符為把"v"變成"b", 因此修正前后兩個搜索詞之間的編輯距離為1。
[0049] 本發明基于用戶會話日志中提取的搜索詞序列和搜索結果進行建模分析,然后計 算不同指標分布情況下屬于未召回類糾錯詞的概率從而挖掘搜索引擎未召回類糾錯詞的 方法。主要分析因素如下:
[0050] (1)對會話序列中前后兩個搜索詞之間的關聯關系分析以獲得前后兩個搜索詞之 間的關聯關系信息,關聯關系信息主要包括如下內容:
[0051] A、編輯距離,例如"鉆進需要哪些資格證書"和"鉆井需要哪些資格證書"之間的 編輯距離為1 ;
[0052] 這里的編輯距離1為絕對編輯距離,實際上,在本實施例中,關聯關系信息還可以 包括第一搜索詞和第二搜索詞之間的差異比例,即絕對編輯距離和第一搜索詞長度的比 例,上面這個例子的差異比例就是10%。而"芒果"轉換為"蘋果"之間雖然編輯距離也為 1,但是差異比例為50%。再比較一下這兩個例子,"芒果"轉換為"蘋果"這個場景下,前一 個搜索詞"芒果"不被認為是輸入錯誤詞,而"鉆進需要哪些資格證書"被認為是輸入錯誤 而需要糾正的搜索詞。
[0053] 也就是說,前后兩個詞之間的差異比例越小的情況下,前面的搜索詞可能是需要 糾錯的搜索詞的概率會相對高一些。
[0054] B、前后詞的分詞數量變化,例如"是會可以吃?",經分詞后,分詞個數為4(是、會、 可以、吃),"石灰可以吃? "經分詞后,分詞個數為3 (石灰、可以、吃);
[0055] 當用戶輸入的搜索詞存在輸入錯誤的時候,很大概率上會造成分詞數增加,例如: "大學生就業問題"如果出現輸入錯誤變成"大學生就也問題",這種情形下,分詞數會由 3 (大學生、就業、問題)變為4 (大學生、就、也、問題),因為輸入的錯字導致搜索詞的分詞 結果更加分散了。
[0056] C、前后詞的包含關系,包含關系分為"前詞包含后詞","后詞包含前詞"和"不包 含"三種關系,例如"淘寶網購物"和"淘寶網"之間就是"前詞包含后詞"的關系,并且刪除 的"購物"兩個字能夠獨立成詞。"淘寶網實"和"淘寶網"之間也是"前詞包含后此"的關 系,但是刪除的"實"字不能獨立成詞。一般情況下,如果"后詞包含前詞"那么前詞屬于輸 入錯誤詞的概率會小一些,而"前詞包含后詞"的情況下,如果差異的字較少并且不能獨立 成詞,那么前詞屬于輸入錯誤詞的概率就會偏大一些。
[0057] (2)搜索詞查詢結果的數量變化
[0058] 錯誤的搜索詞通常情況下召回的搜索結果比較少或者召回的結果相關度比較差, 而且經過修正后能夠召回更多、相關度更高的搜索結果(每個查詢詞的搜索結果都能夠通 過建模計算出一個量化的相關度值,這個計算過程可以使用現有技術,因此在此不再贅述。 一般情況下錯誤的搜索詞召回的搜索結果與正確的搜索詞召回的搜索結果相比,計算出來 的相關度值更低)。修正后的第二搜索詞的搜索結果的數量和/或相關度比第一搜索詞的 搜索結果更高,也是搜索引擎判斷第一搜索詞是未召回類糾錯詞的判斷依據之一。在本發 明的一個實施例中,搜索引擎分別獲取第一搜索詞對應的第一搜索結果和第二搜索詞對應 的第二搜索結果,并根據第一搜索結果的數量與第二搜索結果的數量之比判斷第一搜索詞 是否為未召回類糾錯詞。
[0059] (3)搜索詞對應查詢結果的點擊情況
[0060] 錯誤的搜索詞由于召回的搜索結果比較少或者召回的結果相關性比較差,因此也 經常會造成用戶對修正前的搜索結果點擊少甚至不點擊,而對修正后的結果點擊多的情 況。修正后的第二搜索詞的搜索結果的點擊次數比第一搜索詞的搜索結果的點擊次數更 多,也是搜索引擎判斷第一搜索詞是未召回類糾錯詞的判斷依據之一。在本發明的一個實 施例中,搜索引擎獲取用戶對第一搜索結果的第一點擊記錄和用戶對所述第二搜索結果的 第二點擊記錄,并根據第一點擊記錄與第二點擊記錄的比較判斷第一搜索詞是否為未召回 類糾錯詞。
[0061] 本發明將"用戶輸入錯誤的第一搜索詞之后,重新輸入的第二搜索詞相比于第一 搜索詞更能夠滿足用戶需要"這一判斷第一搜索詞是未召回類糾錯詞的基本依據,具體地 在統計學原理上分解為第一部分所述的第一搜索詞和第二搜索詞之間的關聯關系(尤其 是編輯距離和差異比例,可體現出第二搜索詞是否是由用戶對第一搜索詞修改而得到),第 二部分所述的前后兩次搜索結果的相關度之間的比較,第三部分所述的用戶對前后兩次搜 索結果的點擊次數比較等三方面的因素,實現了將對第一搜索詞是未召回類糾錯詞的判斷 智能化、自動化。
[0062] 表1為一個具體實施例中的搜索詞的關聯關系的不意表。
[0063]
【權利要求】
1. 一種挖掘搜索引擎未召回類糾錯詞的方法,其特征在于,包括以下步驟: 搜索引擎獲取用戶的會話日志,其中,所述會話日志至少包括第一會話和第二會話,所 述第一會話和第二會話中分別包括第一搜索詞和第二搜索詞; 所述搜索引擎獲得所述第一搜索詞和第二搜索詞之間的關聯關系信息;以及 所述搜索引擎根據所述關聯關系信息判斷所述第一搜索詞是否為未召回類糾錯詞。
2. 如權利要求1所述的挖掘搜索引擎未召回類糾錯詞的方法,其特征在于,所述關聯 關系信息包括所述第一搜索詞和第二搜索詞之間的編輯距離信息,所述第一搜索詞和第二 搜索詞之間的分詞數量變化信息,以及所述第一搜索詞和第二搜索詞之間的包含關系信 息。
3. 如權利要求2所述的挖掘搜索引擎未召回類糾錯詞的方法,其特征在于,所述關聯 關系信息還包括所述第一搜索詞和第二搜索詞之間的差異比例。
4. 如權利要求1-3任一項所述的挖掘搜索引擎未召回類糾錯詞的方法,其特征在于, 所述搜索引擎根據所述關聯關系信息判斷所述第一搜索詞是否為未召回類糾錯詞,進一步 包括: 所述搜索引擎根據所述關聯關系信息計算所述第一搜索詞是未召回類糾錯詞的概率, 當所述概率大于預設閾值時,所述搜索引擎判斷所述第一搜索詞是未召回類糾錯詞。
5. 如權利要求1-4中任一項所述的挖掘搜索引擎未召回類糾錯詞的方法,其特征在 于,還包括: 所述搜索引擎分別獲取所述第一搜索詞對應的第一搜索結果和所述第二搜索詞對應 的第二搜索結果; 所述搜索引擎根據所述第一搜索結果的數量與所述第二搜索結果的數量之比判斷所 述第一搜索詞是否為未召回類糾錯詞。
6. 如權利要求5所述的挖掘搜索引擎未召回類糾錯詞的方法,其特征在于,還包括: 所述搜索引擎獲取所述用戶對所述第一搜索結果的第一點擊記錄和所述用戶對所述 第二搜索結果的第二點擊記錄; 所述搜索引擎根據所述第一點擊記錄與所述第二點擊記錄判斷所述第一搜索詞是否 為未召回類糾錯詞。
7. -種挖掘搜索引擎未召回類糾錯詞的裝置,其特征在于,包括: 日志讀取模塊,用于獲取用戶的會話日志,其中,所述會話日志至少包括第一會話和第 二會話,所述第一會話和第二會話中分別包括第一搜索詞和第二搜索詞; 關聯關系檢測模塊,用于獲得所述第一搜索詞和第二搜索詞之間的關聯關系信息;以 及 判斷模塊,用于根據所述關聯關系信息判斷所述第一搜索詞是否為未召回類糾錯詞。
8. 如權利要求7所述的挖掘搜索引擎未召回類糾錯詞的裝置,其特征在于,所述關聯 關系信息包括所述第一搜索詞和第二搜索詞之間的編輯距離信息,所述第一搜索詞和第二 搜索詞之間的分詞數量變化信息,以及所述第一搜索詞和第二搜索詞之間的包含關系信 息。
9. 如權利要求8所述的挖掘搜索引擎未召回類糾錯詞的裝置,其特征在于,所述關聯 關系信息還包括所述第一搜索詞和第二搜索詞之間的差異比例。
10. 如權利要求7所述的挖掘搜索引擎未召回類糾錯詞的裝置,其特征在于,所述判斷 模塊根據所述關聯關系信息計算所述第一搜索詞是未召回類糾錯詞的概率,當所述概率大 于預設閾值時,所述判斷模塊判斷所述第一搜索詞是未召回類糾錯詞。
11. 如權利要求7-10中任一項所述的挖掘搜索引擎未召回類糾錯詞的裝置,其特征在 于,還包括: 搜索結果獲取模塊,所述搜索模塊用于分別獲取所述第一搜索詞對應的第一搜索結果 和所述第二搜索詞對應的第二搜索結果,并根據所述第一搜索結果的數量與所述第二搜索 結果的數量之比判斷所述第一搜索詞是否為未召回類糾錯詞。
12. 如權利要求11所述的挖掘搜索引擎未召回類糾錯詞的裝置,其特征在于, 所述搜索結果獲取模塊還用于獲取所述用戶對所述第一搜索結果的第一點擊記錄和 所述用戶對所述第二搜索結果的第二點擊記錄,并根據所述第一點擊記錄與所述第二點擊 記錄判斷所述第一搜索詞是否為未召回類糾錯詞。
【文檔編號】G06F17/27GK104102633SQ201310111569
【公開日】2014年10月15日 申請日期:2013年4月1日 優先權日:2013年4月1日
【發明者】阮星華 申請人:百度在線網絡技術(北京)有限公司