一種關鍵詞推薦方法和裝置的制造方法
【技術領域】
[0001] 本發明涉及計算機領域,具體涉及一種關鍵詞推薦方法和裝置。
【背景技術】
[0002] 在線競價廣告是一種目前廣泛存在的互聯網信息推薦方案,包括基于關鍵詞的信 息推薦方式。基于關鍵詞的信息推薦方式是根據用戶在搜索引擎中輸入的關鍵詞來確定向 用戶推送的信息。用戶在網站內外進行信息投放時,必須以關鍵詞為單位選擇投放,如何 獲得適合自己的關鍵詞成為關鍵操作之一。進行信息投放的用戶選擇關鍵詞后,對關鍵詞 進行出價,網站或信息投放平臺制定投放和扣費機制。常見的扣費機制有CPC (Cost Per Click,按照點擊扣費,信息的被點擊數越多則扣費越多),CPM (Cost Per Mille,按照信息 的千次展現數扣費),CPS (Cost Per Sale,按照成交金額扣費,類似于成交提成)等。
[0003] 關鍵詞推薦系統在互聯網信息投放系統中一直有廣泛的需求,現有技術方案有以 下幾類:
[0004] ?基于Offer (比如信息投放者發布的一條商品出售信息或求購信息)的抽取和組 合。主要方法是:對信息投放者發布的offer的標題、屬性等字段進行分詞、標注和權重計 算等操作,對其中預設的重要term進行抽取和組合從而得到一個關鍵詞集合,對關鍵詞集 合中關鍵詞的命中的term、term的標簽(比如,term的詞性)及term的權重進行打分。該 分數表示關鍵詞完整地表達了 offer的重要含義的程度。其中,在空間向量模型中,文本的 內容特征常常用它所含有的基本語言單位(比如字、詞、詞組或者短語等)來表示,這些基本 的語言單位被統稱為文本的詞項,即term。
[0005] ?基于IR (信息檢索)系統的offer的關鍵詞推薦。IR系統是基于信息檢索技術 的一種系統框架,封閉的形式如圖書館檢索系統,開放應用形式如在線搜索引擎。IR系統包 含倒排索引的建立系統、查詢的構造模塊、排序模塊等。基于IR (信息檢索)系統的offer 的關鍵詞推薦的主要方法包括:對信息投放者發布的offer進行分詞、標注、分詞的權重計 算等操作后,抽取重要term,查詢每個term到關鍵詞的倒排索引結構,召回與該重要term 相關的關鍵詞。基于關鍵詞中包含的term、term的標簽及term權重對該關鍵詞進行推薦 度評分。基于關鍵詞的推薦度評分選擇合適的關鍵詞推送給信息投放者。
[0006] 現有技術方案的核心是基于用戶投放信息的term級的組合,或運用了簡單的IR 系統去擴大關鍵詞的召回率,這些方法的缺點可能包括:
[0007] 1、關鍵詞的召回率不足
[0008] 基于offer的term的組合的方法,用戶的offer的標題和屬性均受到長度的限 制,包含的信息普遍較少,質量參差不齊,難以推薦出足夠數量的關鍵詞供用戶選擇,關鍵 詞的召回率明顯不足。而基于IR的offer的關鍵詞推薦,雖然能部分提高關鍵詞的召回率, 但是不能召回同義詞和近義詞,以及字面含義不同但潛在含義相關的關鍵詞。
[0009] 2、關鍵詞的相關性不足
[0010] 基于offer的term的組合的方法,計算關鍵詞與投放信息的相關性是按照term 的標簽、term的權重高低來進行加權計算的。由于這種方法受到詞項的權重(term weight) 的準確性和分詞工具(如AliWS)的效果的限制,不能很好的衡量投放信息與關鍵詞之間的 相關性。例如:〇ffer標題為"批發優質籃球背心",基于offer的term的組合方法能夠推 出的詞有"批發籃球背心"、"籃球背心"、"批發背心"。但是"批發背心"這個詞已經和原來 的offer不太相關。
[0011] 基于IR的關鍵詞推薦,能夠通過IR的排序(rank)方法解決部分相關性問題,但是 仍然不能解決同義異形關鍵詞的相關性評分。在基于IR的關鍵詞推薦方法中,關鍵詞是否 匹配投放信息判斷是根據待匹配關鍵詞包含投放信息中的分詞的個數及該分詞的權重確 定的。然而,一種可能的情形是:關鍵詞中包含投放信息中的重要分詞,基于IR的關鍵詞推 薦方法可以確定該關鍵詞與投放信息匹配,但實際上該關鍵詞與該投放信息仍然不具有相 關性。比如在進行手機供應類的投放信息和"手機電池"此類關鍵詞的相關性評價時,"手 機電池"這樣的關鍵詞表面上是存在"手機"這個重要term,且該term的權重較高。因此, 在基于IR的關鍵詞推薦方法中,"手機電池"可能會作為手機供應類的投放信息的相關關鍵 詞推薦給信息投放方。但是"手機"在手機供應類的投放信息中是作為產品核心詞存在的, 而在"手機電池"里卻是修飾"電池"的一個修飾詞。實際上手機供應類的投放信息與"手 機電池"的相關性并不高。因此,基于IR的關鍵詞推薦方法仍然具有推薦準確性不高的問 題。
【發明內容】
[0012] 本發明要解決的技術問題是提供一種關鍵詞推薦方法和裝置,能提高關鍵詞與發 布信息的相關性。
[0013] 為解決上述技術問題,本發明提供了一種關鍵詞推薦方法,所述方法包括:
[0014] 接收輸入信息;
[0015] 將所述輸入信息分詞為多個詞項;
[0016] 用每個詞項查詢預先建立的倒排索引結構,所有詞項查詢所述倒排索引結構得到 的關鍵詞組成候選推薦詞集合;
[0017] 計算候選推薦詞集合中每個關鍵詞與所述輸入信息的相關性分數,根據所述相關 性分數選擇一個或者多個關鍵詞作為推薦詞輸出。
[0018] 進一步地,所述相關性分數包括以下分數的一種或多種:文本相似度分,信息檢索 (IR)相關性分,類目相關性分,其中:所述文本相似度分由所述關鍵詞分詞后得到的各詞項 與所述輸入信息中的各詞項的相似度確定;所述IR相關性分由所述關鍵詞包含的輸入信 息中的詞項的個數及其權重確定;所述類目相關性分由每個關鍵詞的類目與所述輸入信息 的類目的相似度確定。
[0019] 進一步地,所述相關性分數包括文本相似度分、IR相關性分、類目相關性分中的兩 種或兩種以上時,將所包含的分數線性加權求和得到最終的相關性分數。
[0020] 進一步地,所述文本相似度分采用以下方法計算獲得:
[002