專利名稱:一種糾錯對自動生成方法及系統的制作方法
技術領域:
本發明屬于計算機技術領域,尤其涉及一種糾錯對自動生成方法及系統。
背景技術:
隨著互聯網的普及,互聯網的信息資源成指數增長,搜索引擎為用戶提供了一個從海量的信息資源中獲取需要的資源的重要途徑,然而,對于大多數用戶來說,在進行初始搜索時,輸入的搜索詞是比較模糊的,有時搜索詞還存在一定的錯誤,用戶無法用較為準確的搜索詞來搜索自己所需要的信息,只有通過不斷地篩選和提煉才可能獲得最終的搜索詞,現有搜索引擎在檢測到用戶的搜索詞時,可以根據用戶輸入的搜索詞向用戶提供糾正后的搜索詞,用戶輸入的搜索詞(模糊的、不正確的搜索詞)和糾正后的搜索詞構成了一個糾錯對,然而該糾錯對主要是依靠在已存儲的搜索記錄、日志等中進行查詢匹配后向用 戶反饋的,對于尚未存在的搜索詞難以提供正確的、更為準確的搜索詞,導致信息搜索時間長,信息查準確率低,搜索效率低下。
發明內容
本發明實施例的目的在于提供一種糾錯對自動生成方法及系統,旨在解決由于現有搜索引擎難以向用戶提供更為準確的搜索詞,導致信息查準確率低,搜索效率低下的問題。本發明實施例是這樣實現的,一種糾錯對自動生成方法,所述方法包括下述步驟獲取預設時間內用戶輸入的相鄰搜索詞;計算所述相鄰搜索詞為糾錯對的置信度;當所述置信度大于第一閾值時,將所述相鄰搜索詞設置為候選糾錯對;當所述候選糾錯對符合所述預設條件時,確定所述相鄰搜索詞為糾錯對。本發明實施例的另一目的在于提供一種搜索候選詞自動生成系統,所述系統包括搜索詞獲取單元,用于獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞;置信度計算單元,用于計算所述相鄰搜索詞為糾錯對的置信度;候選糾錯對設置單元,用于當所述置信度大于第一閾值時,將所述相鄰搜索詞設置為候選糾錯對;以及糾錯對確定單元,當所述候選糾錯對符合所述預設條件時,確定所述相鄰搜索詞為糾錯對。本發明實施例通過獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞,計算相鄰搜索詞為糾錯對的置信度,當置信度大于預設的第一閾值時,將相鄰搜索詞設置為候選糾錯對,根據預設條件對候選糾錯對進行篩選,當候選糾錯對符合預設條件時,確定相鄰搜索詞為糾錯對,從而實現了糾錯對的自動生成,解決了對于尚未存在的搜索詞難以提供正確的、更為準確的搜索詞的問題,提高了用戶搜索信息時搜索詞的準確度,縮短了獲取信息的時間,進而提高了用戶的搜索效率。
圖I是本發明第一實施例提供的糾錯對自動生成方法的實現流程圖;圖2是本發明第二實施例提供的糾錯對自動生成方法的實現流程圖;圖3是本發明第三實施例提供的糾錯對自動生成方法的實現流程圖;圖4是本發明第四實施例提供的糾錯對自動生成方法的實現流程圖;圖5是本發明第五實施例提供的糾錯對自動生成系統的結構圖;圖6是本發明第六實施例提供的糾錯對自動生成系統的結構圖;·
圖7是本發明第七實施例提供的糾錯對自動生成系統的結構圖;圖8是本發明第八實施例提供的糾錯對自動生成系統的結構圖。
具體實施例方式為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并不用于限定本發明。本發明實施例通過預設時間長度內用戶輸入的相鄰搜索詞為糾錯對的置信度,當置信度大于預設的第一閾值時,將相鄰搜索詞設置為候選糾錯對,并根據候選糾錯對中搜索詞的字形相似度、拼音相似度以及該搜索詞被點擊且其對應的搜索結果被查看確定候選糾錯對是否為最終的糾錯對,實現了糾錯對的自動生成,并提高了糾錯對的準確率,為用戶提供了更加正確的、準確的搜索詞,提高了用戶搜索信息時搜索詞的準確度,縮短了獲取信息的時間,進而提高了搜索效率。以下結合具體實施例對本發明的具體實現進行詳細描述實施例一:搜索引擎用戶會話(session)是指同一用戶為了同一個搜索目的而產生的一系列查詢請求,當用戶輸入搜索詞時,用戶輸入的錯誤形式以及其相對應的正確形式的搜索詞,形成一個糾錯對。例如,用戶在搜索引擎的輸入框中輸入“漂亮的好有印象”,其實際需要搜索的是“漂亮的好友印象”,那么“漂亮的好有印象”和“漂亮的好友印象”就構成了一個糾錯對。本發明實施例在一個搜索引擎用戶會話中,根據用戶先后輸入的搜索詞獲取候選糾錯對,通過特征針對糾錯對進行篩選,最終得到糾錯對。圖I示出了本發明第一實施例提供的糾錯對自動生成方法的實現流程,詳述如下在步驟SlOl中,獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞。在本發明實施例中,搜索引擎用戶會話以一個時間窗口(時間長度)來定義,位于預設時間長度內的搜索被定義為搜索引擎用戶會話,該時間長度可以根據用戶的搜索偏好進行設置,例如,有的用戶發現錯誤的搜索詞后會立即進行修改進行再次搜索,時間長度則可以設置短一些,有的用戶發現錯誤的搜索詞后則瀏覽一下搜索結果,則可以設置一個較長的時間長度,較優地,將該時間長度設置為120秒。具體地,存儲的預設時間長度內用戶輸入的相鄰搜索詞的獲取可以從搜索引擎的查詢日志中獲取。在步驟S102中,計算相鄰搜索詞為糾錯對的置信度。置信度可以稱為可靠度、置信水平或置信系數,是指特定個體對待特定命題真實性相信的程度,在本發明實施例中,相鄰搜索詞中后一時間點的搜索詞為前一時間點的搜索詞的糾錯后的搜索詞(即兩者構成一個糾錯對)的置信系數,可以根據用戶對后一時間點的搜索詞的搜索結果的點擊數據進行置信度的計算,也可以將影響置信度的因素作為置信度計算的因子,例如,保存的用戶偏好信息等,較優地,通過將相鄰搜索詞中前一時間點的搜索詞和后一時間點的搜索詞分別設為第一搜索詞和第二搜索詞,分別獲取第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數,根據獲取的第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數,計算第一搜索詞和第二搜索詞為糾錯對的置信度,具體地,通過公式
CredU(q, qc) = -TimeWelght{q,qc)^PV{qc) + l)_ E0033]^ TimeWeight(q, qct) x (PV(q) +1) χ Count{q*)
/=1計算糾錯對(q,qc)的置信度,其中q為相鄰搜索詞中前一時間點的搜索詞,qc為后一時間點的搜索詞,PV(qc)為搜索詞qc被點擊且其搜索結果被查看的次數,PV(q)為搜索詞q被點擊且其搜索結果被查看的次數,Count (q,*)為q被糾錯為非搜索詞qc的次數,
TimeWeight(q,qc) = "+艦咖艦⑷為糾錯對(d,qc)的時間緊密度,其中λ為預設的
常數,t為預設時間長度,較優地,將該時間長度設置為120秒,time(qc)為用戶輸入qc的時間點,time(q)為用戶輸入q的時間點,η為時間t內q被糾錯為搜索詞qCi形成的糾錯對的個數。在步驟S103中,當置信度大于第一閾值時,將相鄰搜索詞設置為候選糾錯對。在本發明實施例,預先設置一個置信度的閾值(第一閾值),閾值的設置可以根據系統對糾錯對準確度的要求進行設置,例如,當系統對糾錯對的準確度要求較高時,則相應地將閾值設置為一較大值,當系統對糾錯對的準確度要求較低時,則相應地將閾值設置為一較小值。當置信度大于預設的閾值時,則該相鄰搜索詞可能可構成一糾錯對,可將該相鄰搜索詞設置為候選糾錯對。在步驟S104中,當候選糾錯對符合預設條件時,確定相鄰搜索詞為糾錯對。在本發明實施例中,進一步根據預先設置的糾錯對的特征對候選糾錯對進行篩選,當候選糾錯對符合糾錯對的特征時,確定相鄰搜索詞為糾錯對,具體地,糾錯對的特征有(1)糾錯對中錯誤的搜索詞(前一時間點的搜索詞)可能沒有被點擊且其搜索結果未被查看,而糾錯對中正確的搜索詞(后一時間點的搜索詞)可能被點擊且其搜索結果也被查看;(2)糾錯對中搜索詞的字形相似度較高;(3)糾錯對中搜索詞的拼音相似度較高等。在本發明實施例中,預先確定一個搜索引擎用戶會話,獲取該會話中的相鄰搜索詞,通過計算相鄰搜索詞中后一時間點的搜索詞為前一時間點的搜索詞的糾錯后的搜索詞構成一個糾錯對的置信系數,根據系統對糾錯對準確度的要求進行設置一閾值,當置信系統大于預設的閾值且滿足預設條件時,確定該相鄰搜索詞為糾錯對,使得系統可以根據用戶對糾錯對準確度的要求提供相應的糾錯對,提高了用戶的搜索效率,使得搜索更加人性化。實施例二 :圖2示出了本發明第二實施例提供的糾錯對自動生成方法的實現流程,詳述如下在步驟S201中,獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞。在步驟S202中,計算相鄰搜索詞為糾錯對的置信度。在步驟S203中,判斷相鄰搜索詞為糾錯對的置信度是否大于第一閾值,是則執行步驟S204,否則執行步驟S209。在步驟S204中,當置信度大于第一閾值時,將相鄰搜索詞設置為候選糾錯對。·
在步驟S205中,當相鄰搜索詞中前一時間點的搜索詞未被點擊時,檢測相鄰搜索詞中后一時間點的搜索詞是否被點擊且該搜索詞對應的搜索結果被查看,是則執行步驟S206,否則執行步驟S209。在本發明實施例中,為了提高糾錯對的準確度,應對相鄰搜索詞中的兩個搜索詞的用戶點擊操作進行檢測,即判斷用戶輸入搜索詞后是否輸入了搜索命令(例如,點擊搜索按鈕)進行搜索,當相鄰搜索詞中前一時間點的搜索詞未被點擊時,后一時間點的搜索詞被點擊且該搜索詞對應的搜索結果被查看,則表明后一時間點的搜索詞更加接近用戶的搜索詞,若相鄰搜索詞中前一時間點的搜索詞未被點擊時,后一時間點的搜索詞未被點擊,或后一時間點的搜索詞被點擊但對應的搜索結果未被查看,則表明后一時間點的搜索詞也不符合用戶的搜索要求,則確定該相鄰搜索詞為非糾錯對。在步驟S206中,計算候選糾錯對中搜索詞的字形相似度。在本發明實施例中,若相鄰搜索詞中前一時間點的搜索詞未被點擊,相鄰搜索詞中后一時間點的搜索詞被點擊且該搜索詞對應的搜索結果被查看時,計算候選糾錯對中搜索詞的字形相似度,具體地,可以通過編輯距離算法、最長公共子串算法或余弦定理(向量空間算法)等,在此不用以限制本發明。在步驟S207中,判斷候選糾錯對中搜索詞的字形相似度是否大于第二閾值,是則執行步驟S208,否則執行步驟S209。在本發明實施例,預先設置一個字形相似度的閾值(第二閾值),閾值的設置可以根據系統對糾錯對準確度的要求進行設置,例如,當系統對糾錯對的準確度要求較高時,則相應地將閾值設置為一較大值,當系統對糾錯對的準確度要求較低時,則相應地將閾值設
置為一較小值。在步驟S208中,當候選糾錯對中搜索詞的字形相似度大于第二閾值,確定該相鄰搜索詞為糾錯對。在步驟S209中,當候選糾錯對中搜索詞的字形相似度不大于第二閾值,確定相鄰搜索詞為非糾錯對。在本發明實施例中,在相鄰搜索詞為糾錯對的置信度符合要求后,進一步地當相鄰搜索詞中前一時間點的搜索詞未被點擊時,判斷相鄰搜索詞中后一時間點的搜索詞是否被點擊且該搜索詞對應的搜索結果被查看,若相鄰搜索詞中后一時間點的搜索詞被點擊且該搜索詞對應的搜索結果被查看,計算候選糾錯對中搜索詞的字形相似度,若字形相似度大于預設的閾值時,則確定相鄰搜索詞為糾錯對,從而進一步提高了糾錯對的可信度。
實施例三:圖3示出了本發明第三實施例提供的糾錯對自動生成方法的實現流程,詳述如下在步驟S301中,獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞。在步驟S302中,計算相鄰搜索詞為糾錯對的置信度。在步驟S303中,判斷相鄰搜索詞為糾錯對的置信度是否大于第一閾值,是則執行步驟S304,否則執行步驟S309。在步驟S304中,當置信度大于第一閾值時,將相鄰搜索詞設置為候選糾錯對。在步驟S305中,當相鄰搜索詞中前一時間點的搜索詞未被點擊時,檢測相鄰搜索詞中后一時間點的搜索詞是否被點擊且該搜索詞對應的搜索結果被查看,是則執行步驟 S306,否則執行步驟S309。在步驟S306中,對候選糾錯對中搜索詞進行注音,計算搜索詞的拼音相似度。在本發明實施例中,當相鄰搜索詞中前一時間點的搜索詞未被點擊,相鄰搜索詞中后一時間點的搜索詞被點擊且該搜索詞對應的搜索結果被查看時,為了提高糾錯對的準確度,通過候選糾錯對中搜索詞的拼音相似度對候選糾錯對進行篩選,具體地,首先對候選糾錯對中的搜索詞進行拼音的自動標注,注音后,計算候選糾錯對中前、后時間點的搜索詞的拼音相似度,在具體實施過程中,可以通過編輯距離算法、最長公共子串算法或余弦定理(向量空間算法)等計算拼音相似度,在此不用以限制本發明。在步驟S307中,判斷候選糾錯對中搜索詞的拼音相似度是否大于第三閾值,是則執行步驟S308,否則執行步驟S309。在本發明實施例,預先設置一個拼音相似度的閾值(第三閾值),閾值的設置可以根據系統對糾錯對準確度的要求進行設置,例如,當系統對糾錯對的準確度要求較高時,則相應地將閾值設置為一較大值,當系統對糾錯對的準確度要求較低時,則相應地將閾值設
置為一較小值。在步驟S308中,當候選糾錯對中搜索詞的字形相似度大于第三閾值,確定該相鄰搜索詞為糾錯對。在步驟S309中,當候選糾錯對中搜索詞的字形相似度不大于第三閾值,確定相鄰搜索詞為非糾錯對。在本發明實施例中,在獲得候選糾錯對后,計算候選糾錯對中搜索詞的拼音相似度,若拼音相似度大于預設的第三閾值時,則確定相鄰搜索詞為糾錯對,從而進一步提高糾錯對的可信度。實施例五圖4示出了本發明第四實施例提供的糾錯對自動生成方法的實現流程,詳述如下在步驟S401中,獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞。在步驟S402中,計算相鄰搜索詞為糾錯對的置信度。在步驟S403中,當置信度大于第一閾值時,將相鄰搜索詞設置為候選糾錯對。在步驟S404中,當候選糾錯對符合預設條件時,確定相鄰搜索詞為糾錯對。在步驟S405中,在預設的時間點對糾錯對進行優化,保存優化后的糾錯對。
在本發明實施例中,經過預設的時間點后,通過在確定糾錯對的時間點到該預設的時間點之間獲得的糾錯對,采用啟發式規則對步驟S404中確定的糾錯對進行優化,保存優化后的糾錯對。具體地可以通過以下三種方法進行優化,但不限于下述方法(I)對糾錯對中的搜索詞進行分詞和詞性的標注,當糾錯對中的搜索詞之間的不同詞為助詞或數字時,刪除該糾錯對。在本發明實施例中,采用分詞和詞性標注工具對糾錯對中的兩個搜索詞進行分詞和詞性的標注,當當糾錯對中的搜索詞之間的不同詞為助詞或數字時,則表明糾錯對中的兩個搜索詞區別比較小,可以視為等同搜索詞,刪除該糾錯對,例如糾錯對(“007的開場音樂”,“007開場音樂”)中兩個搜索的區別僅在于助詞“的”,因此,可以刪除該糾錯對。
(2)在預設的時間點檢測糾錯對是否存在反向糾錯對,當糾錯對存在反向糾錯對時刪除該糾錯對。反向糾錯對是指第一糾錯對中的前一時間點搜索詞在第二糾錯對中為后一時間點的搜索詞,第一糾錯對中的后一時間點的搜索詞在第二糾錯對中為前一時間點的搜索詞,兩個糾錯對互為反向糾錯對。例如糾錯對(“哪家飯店好”,“哪家飯館好”)和(“哪家飯館好”,“哪家飯店好”)互為反向糾錯對,在本發明實施例中,當在預設的時間點檢測到步驟S404中確定的糾錯對存在反向糾錯對時,則可以視確定的糾錯對中的兩個搜索詞為等同搜索詞,因此,可以刪除該糾錯對。(3)在預設的時間點檢測糾錯對中前一時間點的搜索詞的點擊次數和其搜索結果被查看的次數是否大于后一時間點的搜索詞的點擊次數和其搜索結果被查看的次數,當糾錯對中前一時間點的搜索詞的點擊次數和其搜索結果被查看的次數大于后一時間點的搜索詞的點擊次數和其搜索結果被查看的次數時,刪除該糾錯對。在本發明實施例中,在確定糾錯對并經過一定的時候段后,通過累積的糾錯對數據對,采用啟發式規則對確定的糾錯對進行優化,保存優化后的糾錯對,從而有效地提高糾錯對的準確度,提高了用戶的搜索體驗。本領域普通技術人員可以理解實現上述實施例方法中的全部或部分步驟是可以通過程序來指令相關的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質中,所述的存儲介質,如R0M/RAM、磁盤、光盤等。實施例五圖5示出了本發明第五實施例提供的糾錯對自動生成系統的結構,為了便于說明,僅不出了與本發明實施例相關的部分。該糾錯對自動生成系統可以用于搜索引擎,或者具有搜索功能的其他應用系統,其中搜索詞獲取單元51獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞。置信度計算單元52計算相鄰搜索詞為糾錯對的置信度。在本發明實施例中,相鄰搜索詞中后一時間點的搜索詞為前一時間點的搜索詞的糾錯后的搜索詞(即兩者構成一個糾錯對)的置信系數,可以根據用戶對后一時間點的搜索詞的搜索結果的點擊數據進行置信度的計算,也可以將影響置信度的因素作為置信度計算的因子,例如,保存的用戶偏好信息等,較優地,通過搜索詞設置單元521、查看次數獲取單元522和置信度計算子單元523計算相鄰搜索詞為糾錯對的置信度,其中
搜索詞設置單元521,用于將相鄰搜索詞中前一時間點的搜索詞和后一時間點的搜索詞分別設為第一搜索詞和第二搜索詞;查看次數獲取單元522,用于分別獲取第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數,置信度計算子單元523,用于根據獲取的第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數,計算第一搜索詞和第二搜索詞為糾錯對的置信度,具體地。在具體實施過程中,可以通過下述公式計算相鄰搜索詞為糾錯對的置信度
權利要求
1.一種糾錯對自動生成方法,其特征在于,所述方法包括下述步驟 獲取預設時間內用戶輸入的相鄰搜索詞; 計算所述相鄰搜索詞為糾錯對的置信度; 當所述置信度大于第一閾值時,將所述相鄰搜索詞設置為候選糾錯對; 當所述候選糾錯對符合預設條件時,確定所述相鄰搜索詞為糾錯對。
2.如權利要求I所述的方法,其特征在于,計算所述相鄰搜索詞為糾錯對的置信度的步驟包括步驟 將所述相鄰搜索詞中前一時間點的搜索詞和后一時間點的搜索詞分別設為第一搜索詞和第二搜索詞; 分別獲取第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數; 根據獲取的第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數,計算第一搜索詞和第二搜索詞為糾錯對的置信度。
3.如權利要求2所述的方法,其特征在于,所述根據獲取的第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數,計算第一搜索詞和第二搜索詞為糾錯對的置信度的步驟包括 通過公式 計算糾錯對(q,qc)的置信度,其中q為所述第一搜索詞,qc為所述第二搜索詞,PV(qc)為搜索詞qc被點擊且其搜索結果被查看的次數,PV(q)為搜索詞q被點擊且其搜索結果被查看的次數,Count (q, *)為搜索詞q被糾錯為非搜索詞qc的次數,TimeWeight(q,qc) = "+艦艦⑷為糾錯對(Q,Qc)的時間緊密度,其中λ為預設的常數,t為所述預設時間長度,time (qc)為用戶輸入搜索詞qc的時間點,time (q)為用戶輸入搜索詞q的時間點,η為時間t內搜索詞q被糾錯為搜索詞qCi形成的糾錯對的個數。
4.如權利要求I所述的方法,其特征在于,當所述置信度大于第一閾值時,將所述相鄰搜索詞設置為候選糾錯對的步驟之后,當所述候選糾錯對符合預設條件時,確定所述相鄰搜索詞為糾錯對的步驟之前,所述方法還包括 當所述相鄰搜索詞中前一時間點的搜索詞未被點擊時,檢測所述相鄰搜索詞中后一時間點的搜索詞是否被點擊且該搜索詞對應的搜索結果被查看; 當所述相鄰搜索詞中后一時間點的搜索詞被點擊且該搜索詞對應的搜索結果被查看,執行所述當所述候選糾錯對符合預設條件時,確定所述相鄰搜索詞為糾錯對的步驟。
5.如權利要求I所述的方法,其特征在于,當所述候選糾錯對符合所述預設條件時,確定所述相鄰搜索詞為糾錯對的步驟包括下述步驟 計算所述候選糾錯對中搜索詞的字形相似度; 當所述字形相似度大于第二閾值時,確定所述相鄰搜索詞為糾錯對。
6.如權利要求I所述的方法,其特征在于,當所述候選糾錯對符合所述預設條件時,確定所述相鄰搜索詞為糾錯對的步驟包括下述步驟對所述候選糾錯對中搜索詞進行注音,計算搜索詞的拼音相似度; 當所述拼音相似度大于第三閾值時,確定所述相鄰搜索詞為糾錯對。
7.如權利要求I所述的方法,其特征在于,在確定所述相鄰搜索詞為糾錯對的步驟之后,所述方法還包括 在預設的時間點對所述糾錯對進行優化,保存優化后的糾錯對。
8.如權利要求7所述的方法,其特征在于,在預設的時間點對所述糾錯對進行優化,保存優化后的糾錯對的步驟包括步驟 對所述糾錯對中的搜索詞進行分詞和詞性的標注; 當所述糾錯對中的搜索詞之間的不同詞為助詞或數字時,刪除所述糾錯對。
9.如權利要求7所述的方法,其特征在于,在預設的時間點對所述糾錯對進行優化,保存優化后的糾錯對的步驟包括步驟 在預設的時間點檢測所述糾錯對是否存在反向糾錯對; 當所述糾錯對存在所述反向糾錯對時,刪除所述糾錯對。
10.如權利要求7所述的方法,其特征在于,在預設的時間點對所述糾錯對進行優化,保存優化后的糾錯對的步驟包括步驟 在預設的時間點檢測所述糾錯對中前一時間點的搜索詞的點擊次數和其搜索結果被查看的次數是否大于后一時間點的搜索詞的點擊次數和其搜索結果被查看的次數; 當所述糾錯對中前一時間點的搜索詞的點擊次數和其搜索結果被查看的次數大于后一時間點的搜索詞的點擊次數和其搜索結果被查看的次數時,刪除所述糾錯對。
11.一種糾錯對自動生成系統,其特征在于,所述系統包括 搜索詞獲取單元,用于獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞; 置信度計算單元,用于計算所述相鄰搜索詞為糾錯對的置信度; 候選糾錯對設置單元,用于當所述置信度大于第一閾值時,將所述相鄰搜索詞設置為候選糾錯對;以及 糾錯對確定單元,用于當所述候選糾錯對符合預設條件時,確定所述相鄰搜索詞為糾錯對。
12.如權利要求10所述的系統,其特征在于,所述置信度計算單元包括 搜索詞設置單元,用于將相鄰搜索詞中前一時間點的搜索詞和后一時間點的搜索詞分別設為第一搜索詞和第二搜索詞; 查看次數獲取單元,用于分別獲取第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數;以及 置信度計算子單元,用于根據獲取的第一搜索詞和第二搜索詞被點擊且其搜索結果被查看的次數,計算第一搜索詞和第二搜索詞為糾錯對的置信度。
13.如權利要求11所述的系統,其特征在于,所述系統還包括 搜索詞檢測單元,用于當所述相鄰搜索詞中前一時間點的搜索詞未被點擊時,檢測所述相鄰搜索詞中后一時間點的搜索詞是否被點擊且該搜索詞對應的搜索結果被查看。
14.如權利要求11所述的系統,其特征在于,所述糾錯對確定單元包括 字形相似度計算單元,用于計算所述候選糾錯對中搜索詞的字形相似度;以及 第一糾錯對確定子單元,用于當所述字形相似度大于第二閾值時,確定所述相鄰搜索詞為糾錯對。
15.如權利要求11所述的系統,其特征在于,所述糾錯對確定單元包括 拼音相似度計算單元,用于對所述候選糾錯對中搜索詞進行注音,計算搜索詞的拼音相似度;以及 第二糾錯對確定子單元,用于當所述拼音相似度大于第三閾值時,確定所述相鄰搜索詞為糾錯對。
16.如權利要求11所述的系統,其特征在于,所述系統還包括 糾錯對優化單元,用于在預設的時間點對所述糾錯對進行優化,保存優化后的糾錯對。
全文摘要
本發明適用于計算機技術領域,提供了一種糾錯對自動生成方法及系統,所述方法包括下述步驟獲取存儲的預設時間長度內用戶輸入的相鄰搜索詞;計算所述相鄰搜索詞為糾錯對的置信度;當所述置信度大于第一閾值時,將所述相鄰搜索詞設置為候選糾錯對;當所述候選糾錯對符合所述預設條件時,確定所述相鄰搜索詞為糾錯對。本發明實現了糾錯對的自動生成,解決了對于尚未存在的搜索詞難以提供正確的、更為準確的搜索詞的問題,提高了用戶搜索信息時搜索詞的準確度,縮短了獲取信息的時間,進而提高了用戶的搜索效率。
文檔編號G06F17/30GK102915314SQ201110224448
公開日2013年2月6日 申請日期2011年8月5日 優先權日2011年8月5日
發明者李超, 田里, 宋國龍, 賈自艷 申請人:騰訊科技(深圳)有限公司