專利名稱:一種搜索需求識別方法及裝置的制作方法
技術領域:
本申請涉及互聯網應用技術領域,特別是涉及一種搜索需求識別方法及裝置。
背景技術:
搜索引擎(search engine)是指根據一定的策略、運用特定的計算機程序從互聯網上搜集信息,在對信息進行組織和處理后,為用戶提供檢索服務,將用戶檢索相關的信息展示給用戶的系統。傳統的搜索引擎,在接收到用戶的提交的搜索請求(query)后,首先提取該query所包含的關鍵詞,然后基于文本內容匹配操作,將包含有該關鍵詞的網頁或文檔返回給用戶。隨著用戶對搜索智能化要求的不斷提升,搜索需求識別已經成為搜索領域的一個研究熱點。
所謂搜索需求識別,就是根據用戶所提交的query,分析和預測用戶的需求,確定用戶的意圖或感興趣的領域,然后再向其提供相應的信息。例如,用戶輸入“從北京到上海”這樣的query,則可以識別出該用戶可能具有較強的地圖查詢需求或票務查詢需求,這樣就可以在展示搜索結果時,直接向用戶提供地圖或票務的相關內容,或者將地圖或票務的相關內容排在搜索結果的前面,從而方便用戶進一步瀏覽。搜索需求識別所涉及的關鍵技術包括語義分析、行為分析、智能人機交互、海量計算處理、信息抽取等等。由于用戶query表述方式的多樣性,目前一種較為常用的方式是在不同的領域對用戶的query進行分析,以實現更有針對性的搜索需求識別。翻譯需求是用戶在搜索過程中一種較為常見的需求,根據現有技術,當用戶輸入“XXX翻譯”或“XXX是什么意思”這樣的query后,搜索引擎可以根據“翻譯”或“是什么意思”等明顯具有翻譯需求的表述,較好地識別出用戶具有針對單詞“xxx”的翻譯需求。但是在實際應用中,用戶的query中可能僅包括一個單詞或短語,而不包括“翻譯”或“是什么意思”等有翻譯需求的表述,在這種情況下,現有的搜索引擎還不能夠很好地確定用戶當前是否具有翻譯需求。
發明內容
為解決上述技術問題,本申請實施例提供種一種搜索需求識別方法及裝置,以實現對用戶翻譯需求的更有效識別,技術方案如下本申請實施例提供一種搜索需求識別方法,包括預先建立語言模型;接收到搜索請求后,利用所述語言模型得到搜索關鍵詞對應的語言模型概率;根據所述搜索關鍵詞的語言模型概率,判斷所述搜索請求是否具有翻譯需求;其中,在搜索關鍵詞所包含的單詞個數L = I的情況下,所述判斷過程包括所述搜索關鍵詞的語言模型概率是否低于預設的概率閾值,如果是,則確定該搜索請求具有翻譯需求。根據本申請方案的一種實施方式,在搜索關鍵詞所包含的單詞個數L ^ I的情況下,所述判斷過程包括計算所述搜索關鍵詞的困惑度;判斷所述搜索關鍵詞的困惑度是否高于預設的困惑度閾值,如果是,則確定該搜索請求具有翻譯需求,其中,搜索關鍵詞的困惑度=[^(5)] i,P (S)為搜索關鍵詞的語言模型概率。根據本申請方案的一種實施方式,接收到搜索請求后,還包括判斷搜索關鍵詞所包含的單詞個數是否小于預設的長度閾值,如果是,則進一步利用語言模型得到搜索關鍵詞對應的語言模型概率。根據本申請方案的一種實施方式,所述利用語言模型得到搜索關鍵詞對應的語言 模型概率,包括利用語言模型即時計算得到搜索關鍵詞對應的語言模型概率。根據本申請方案的一種實施方式,所述利用語言模型得到搜索關鍵詞對應的語言模型概率,包括根據預置的語言模型概率表,查詢得到搜索關鍵詞對應的語言模型概率。根據本申請方案的一種實施方式,在確定搜索請求具有翻譯需求后,還包括對搜索請求對應的翻譯結果進行展現,所述翻譯結果的展現方法包括在搜索框中,展現搜索請求所對應的翻譯結果;或將搜索請求所對應的翻譯結果以搜索建議的形式進行展現。根據本申請方案的一種實施方式,在接收到搜索請求并生成搜索建議之后,還包括判斷搜索建議的內容是否具有翻譯需求。根據本申請方案的一種實施方式,在確定搜索建議的內容具有翻譯需求后,還包括將搜索建議對應的翻譯內容展現在搜索建議框中。本申請實施例還提供一種搜索需求識別裝置,包括建模單元,用于預先建立語言模型;語言模型概率計算單元,用于在接收到搜索請求后,利用所述語言模型得到搜索關鍵詞對應的語言模型概率;翻譯需求識別單元,用于根據所述搜索關鍵詞的語言模型概率,判斷所述搜索請求是否具有翻譯需求;其中,在搜索關鍵詞所包含的單詞個數L = I的情況下,所述翻譯需求識別單元的判斷過程包括所述搜索關鍵詞的語言模型概率是否低于預設的概率閾值,如果是,則確定該搜索請求具有翻譯需求。根據本申請方案的一種實施方式,在搜索關鍵詞所包含的單詞個數L ^ I的情況下,所述翻譯需求識別單元的判斷過程包括計算所述搜索關鍵詞的困惑度;判斷所述搜索關鍵詞的困惑度是否高于預設的困惑度閾值,如果是,則確定該搜索請求具有翻譯需求,
其中,搜索關鍵詞的困惑度=[尸(X)]—〗,P (S)為搜索關鍵詞的語言模型概率。根據本申請方案的一種實施方式,該裝置還包括關鍵詞長度判斷單元,用于在接收到搜索請求后,判斷搜索關鍵詞所包含的單詞個數是否小于預設的長度閾值,如果是,則觸發所述語言模型概率計算單元進一步利用語言模型得到搜索關鍵詞對應的語言模型概率。根據本申請方案的一種實施方式,所述語言模型概率計算單元,具體配置為用于利用語言模型即時計算得到搜索關鍵詞對應的語言模型概率。根據本申請方案的一種實施方式,所述語言模型概率計算單元,具體配置為
·
用于根據預置的語言模型概率表,查詢得到搜索關鍵詞對應的語言模型概率。根據本申請方案的一種實施方式,還包括翻譯結果展現單元,用于在所述翻譯需求識別單元確定搜索請求具有翻譯需求后,對搜索請求對應的翻譯結果進行展現,所述翻譯結果展現單元具體配置為用于在搜索框中,展現搜索請求所對應的翻譯結果;或將搜索請求所對應的翻譯結果以搜索建議的形式進行展現。根據本申請方案的一種實施方式,所述翻譯需求識別單元還用于在接收到搜索請求并生成搜索建議之后,判斷搜索建議的內容是否具有翻譯需求。根據本申請方案的一種實施方式,所述翻譯結果展現單元,還用于在所述翻譯需求識別單元確定搜索建議的內容具有翻譯需求后,將搜索建議對應的翻譯內容展現在搜索建議框中。上述方案利用語言模型概率來判斷搜索請求是否具有翻譯需求,語言模型概率越低,說明搜索關鍵詞越不常見,相應的翻譯需求也就越強。進而,如果用戶在搜索過程中,使用的搜索關鍵詞的語言模型概率越低,則可以判斷該用戶本次的搜索行為具有翻譯需求。應用本申請實施例所提供的方案,可以不要求用戶在搜索時輸入“翻譯”或“是什么意思”等明確表示翻譯需求的關鍵詞,直接確定用戶所輸入的內容是否具有翻譯需求并給出翻譯結果,從而提高了翻譯需求識別的應用范圍,并且進一步方便了用戶的使用。
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。圖I為本申請實施例搜索需求識別方法的流程圖;圖2為本申請實施例所提供的一種翻譯結果展現方式示意圖;圖3為本申請實施例所提供的第二種翻譯結果展現方式示意圖;圖4為本申請實施例所提供的第三種翻譯結果展現方式示意圖;圖5為本申請實施例搜索需求識別裝置的第一種結構示意圖;圖6為本申請實施例搜索需求識別裝置的第二種結構示意圖;圖7為本申請實施例搜索需求識別裝置的第三種結構示意圖。
具體實施例方式在現有的搜索引擎中,當用戶在搜索框輸入一段文字,特別是輸入外文時,用戶可能是想得到包含有該文字內容的網頁或文檔,即普通搜索需求;也可能是想要查看與該文字內容相應的翻譯或雙語例句,即翻譯需求。對于搜索引擎而言,如果可以正確判斷出用戶當前的需求,則可以構建更為符合用戶需求的搜索結果向用戶展現,以方便用戶瀏覽。本申請實施例提供一種搜索需求識別方法,該方法包括以下步驟預先建立語言模型; 接收到搜索請求后,利用所述語言模型得到搜索關鍵詞對應的語言模型概率;根據所述搜索關鍵詞的語言模型概率,判斷所述搜索請求是否具有翻譯需求;上述方法利用語言模型概率來判斷搜索請求是否具有翻譯需求,語言模型概率越低,說明搜索關鍵詞越不常見,相應的翻譯需求也就越強。進而,如果用戶在搜索過程中,使用的搜索關鍵詞的語言模型概率越低,則可以判斷該用戶本次的搜索行為具有翻譯需求。應用上述方案,可以不要求用戶在搜索時輸入“翻譯”或“是什么意思”等明確表示翻譯需求的關鍵詞,直接確定用戶所輸入的內容是否具有翻譯需求并給出翻譯結果,從而提高了翻譯需求識別的應用范圍,并且進一步方便了用戶的使用。為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員所獲得的所有其他實施例,都應當屬于本申請保護的范圍。圖I所示,為本申請實施例一種搜索需求識別方法的流程圖,該方法可以包括以下步驟S101,預先建立語言模型;在自然語言處理(NLP)領域,語言模型是用來計算一個詞或句子出現概率的模型。根據語言模型概率值,可以決定哪一種詞序列出現的可能性更大、或者在已知若干詞的前提下,預測下一個詞。語言模型一般應用于語音識別、機器翻譯、拼寫檢查等領域,而本申請實施例所提供的方案,是基于語言模型對用戶提交的搜索關鍵詞進行打分,作為識別翻譯需求的依據。N-Gram是一種常用的語言模型,該模型基于這樣一種假設,第η個詞的出現只與前面N-I個詞相關,而與其它任何詞都不相關,整句的概率就是各個詞出現概率的乘積。即對于一個詞序列s = W1, W1, , Wm,其概率可以表示為
mp(s) = Piwl,W1,...,Wm) = Wpiwi I
i=l其中,概率PbiIw1, . . . , WiJ可以通過直接從語料中統計N個詞同時出現的次數得到。也就是說,語言模型可以用大量的語料訓練得到。以上僅以N-Gram模型做示意性說明,語言模型還有其他形式,在本申請實施例中,只是利用語言模型概率作為作為識別翻譯需求的依據,所采用語言模型的具體形式并不影響本申請實施例方案的實現,其中,語言模型的具體訓練方法可以利用現有技術實現,例如使用語言模型訓練工具SRILM,本申請實施例不需要對語言模型的具體訓練方法做詳細介紹。S102,接收到搜索請求后,利用所述語言模型得到搜索關鍵詞對應的語言模型概率;在本步驟中,當搜索引擎接收到新的搜索請求后,將根據預先建立的語言模型獲得搜索請求中搜索關鍵詞的語言模型概率。以N-gram模型為例,假如用戶輸入的搜索關鍵詞為s = W1, W1, . . . , Wl則根據公式
權利要求
1.一種搜索需求識別方法,其特征在于,包括 預先建立語言模型; 接收到搜索請求后,利用所述語言模型得到搜索關鍵詞對應的語言模型概率; 根據所述搜索關鍵詞的語言模型概率,判斷所述搜索請求是否具有翻譯需求; 其中,在搜索關鍵詞所包含的單詞個數L = I的情況下,所述判斷過程包括所述搜索關鍵詞的語言模型概率是否低于預設的概率閾值,如果是,則確定該搜索請求具有翻譯需求。
2.根據權利要求I所述的方法,其特征在于,在搜索關鍵詞所包含的單詞個數L> I的情況下,所述判斷過程包括 計算所述搜索關鍵詞的困惑度; 判斷所述搜索關鍵詞的困惑度是否高于預設的困惑度閾值,如果是,則確定該搜索請求具有翻譯需求, 其中,搜索關鍵詞的困惑度=[p(X>] L,P(s)為搜索關鍵詞的語目模型概率。
3.根據權利要求2所述的方法,其特征在于,接收到搜索請求后,還包括 判斷搜索關鍵詞所包含的單詞個數是否小于預設的長度閾值,如果是,則進一步利用語言模型得到搜索關鍵詞對應的語言模型概率。
4.根據權利要求I所述的方法,其特征在于,所述利用語言模型得到搜索關鍵詞對應的語言模型概率,包括 利用語言模型即時計算得到搜索關鍵詞對應的語言模型概率。
5.根據權利要求I所述的方法,其特征在于,所述利用語言模型得到搜索關鍵詞對應的語言模型概率,包括 根據預置的語言模型概率表,查詢得到搜索關鍵詞對應的語言模型概率。
6.根據權利要求1-5任一項所述的方法,其特征在于,在確定搜索請求具有翻譯需求后,還包括對搜索請求對應的翻譯結果進行展現,所述翻譯結果的展現方法包括 在搜索框中,展現搜索請求所對應的翻譯結果;或 將搜索請求所對應的翻譯結果以搜索建議的形式進行展現。
7.根據權利要求1-5任一項所述的方法,其特征在于,在接收到搜索請求并生成搜索建議之后,還包括 判斷搜索建議的內容是否具有翻譯需求。
8.根據權利要求7所述的方法,其特征在于,在確定搜索建議的內容具有翻譯需求后,還包括 將搜索建議對應的翻譯內容展現在搜索建議框中。
9.一種搜索需求識別裝置,其特征在于,包括 建模單元,用于預先建立語言模型; 語言模型概率計算單元,用于在接收到搜索請求后,利用所述語言模型得到搜索關鍵詞對應的語言模型概率; 翻譯需求識別單元,用于根據所述搜索關鍵詞的語言模型概率,判斷所述搜索請求是否具有翻譯需求;其中,在搜索關鍵詞所包含的單詞個數L= I的情況下,所述翻譯需求識別單元的判斷過程包括所述搜索關鍵詞的語言模型概率是否低于預設的概率閾值,如果是,則確定該搜索請求具有翻譯需求。
10.根據權利要求9所述的裝置,其特征在于,在搜索關鍵詞所包含的單詞個數LSI的情況下,所述翻譯需求識別單元的判斷過程包括 計算所述搜索關鍵詞的困惑度; 判斷所述搜索關鍵詞的困惑度是否高于預設的困惑度閾值,如果是,則確定該搜索請求具有翻譯需求, 其中,搜索關鍵詞的困惑度=[p(s)] L,P(S)為搜索關鍵詞的語目模型概率。
11.根據權利要求10所述的裝置,其特征在于,該裝置還包括 關鍵詞長度判斷單元,用于在接收到搜索請求后,判斷搜索關鍵詞所包含的單詞個數是否小于預設的長度閾值,如果是,則觸發所述語言模型概率計算單元進一步利用語言模型得到搜索關鍵詞對應的語言模型概率。
12.根據權利要求9所述的裝置,其特征在于,所述語言模型概率計算單元,具體配置為 用于利用語言模型即時計算得到搜索關鍵詞對應的語言模型概率。
13.根據權利要求9所述的裝置,其特征在于,所述語言模型概率計算單元,具體配置為 用于根據預置的語言模型概率表,查詢得到搜索關鍵詞對應的語言模型概率。
14.根據權利要求9-13任一項所述的裝置,其特征在于,還包括 翻譯結果展現單元,用于在所述翻譯需求識別單元確定搜索請求具有翻譯需求后,對搜索請求對應的翻譯結果進行展現,所述翻譯結果展現單元具體配置為 用于在搜索框中,展現搜索請求所對應的翻譯結果;或 將搜索請求所對應的翻譯結果以搜索建議的形式進行展現。
15.根據權利要求9-13任一項所述的裝置,其特征在于,所述翻譯需求識別單元還用于在接收到搜索請求并生成搜索建議之后,判斷搜索建議的內容是否具有翻譯需求。
16.根據權利要求15所述的裝置,其特征在于,所述翻譯結果展現單元,還用于在所述翻譯需求識別單元確定搜索建議的內容具有翻譯需求后,將搜索建議對應的翻譯內容展現在搜索建議框中。
全文摘要
本申請公開了一種搜索需求識別方法及裝置。一種搜索需求識別方法包括預先建立語言模型;接收到搜索請求后,利用所述語言模型得到搜索關鍵詞對應的語言模型概率;根據所述搜索關鍵詞的語言模型概率,判斷所述搜索請求是否具有翻譯需求。應用本申請實施例所提供的方案,可以不要求用戶在搜索時輸入“翻譯”或“是什么意思”等明確表示翻譯需求的關鍵詞,直接確定用戶所輸入的內容是否具有翻譯需求并給出翻譯結果,從而提高了翻譯需求識別的應用范圍,并且進一步方便了用戶的使用。
文檔編號G06F17/30GK102982024SQ201110258828
公開日2013年3月20日 申請日期2011年9月2日 優先權日2011年9月2日
發明者藍翔, 柴春光, 吳華 申請人:北京百度網訊科技有限公司