可搜索索引的制作方法
【專利說明】可搜索索引
【背景技術】
[0001] 推薦系統可以具有分離的信息檢索和機器學習的排名階段。信息檢索階段基于各 種信號從語料庫選擇文檔(視頻、廣告、音樂、文本文檔等)并且機器學習的系統對信息檢 索系統的輸出進行排名。例如,當用戶錄入查詢"貓"時,上下文信息檢索系統可以從所有 可用的廣告中選擇包含詞語"貓"的候選廣告集。此候選廣告集繼而可以基于機器學習的 模型被排名,該機器學習的模型已經被訓練以基于各種特征(諸如,用戶的類型、用戶的位 置、一天中進行查詢的時間等)來預測廣告被用戶點入(Click through)的可能性。信息 檢索工具是計算上高效的,但是僅可以產生向用戶最佳推薦的項目的粗略估計。機器學習 的模型能夠產生更精確的推薦,但是與信息檢索工具相比經常在計算上更密集。此外,因為 信息檢索工具較不準確,因此其可以使用機器學習的模型從考慮中排除可能另外排名高的 某些候選。
【發明內容】
[0002] 根據本公開主題的實現方式,來自機器學習的模型的多個規則可以由計算機化的 機器學習系統生成并接收,每個規則包含成果、一個或多個特征以及由機器學習的模型針 對該一個或多個特征和成果預測的成果概率。針對基于令牌的索引的條目可以針對多個規 則中的每個規則被生成并且可以包含基于規則的一個或多個特征、規則的成果和規則的成 果概率的一個或多個令牌。查詢可以被接收并且對應于該查詢的令牌的子集可以被標識。 基于令牌的索引可以被搜索以基于令牌的子集獲得多個成果概率。成果可以基于多個成果 概率被選擇并且可以被提供給用戶。選定成果的子集可以被排名。例如,數百視頻(成果) 可以通過概率排名并且前二十可以從最高概率到最低概率被顯示給用戶。
[0003] 根據本公開的系統和技術可以基于作為機器學習系統的產品的模型的規則和結 果生成或修改一個或多個索引。生成或修改的索引可以被用于基于搜索技術來提供結果。 本公開主題的附加特性、優點和實現方式可以通過考慮以下【具體實施方式】、附圖和權利要 求書進行闡述或者變得容易理解。此外,應當理解以上
【發明內容】
和以下【具體實施方式】包括 各種示例并且旨在提供進一步的解釋而不是限制權利要求書的范圍。
【附圖說明】
[0004] 為提供對本公開主題的進一步理解而包括的附圖并入在本說明書中并且構成本 說明書的一部分。附圖還圖示了本公開主題的各實現方式,并且與【具體實施方式】一起用于 解釋本公開主題的各實現方式的原理。并未試圖示出比對于本公開主題以及在其中可實踐 本公開主題的各種方法的基本理解所必需的更為詳細的結構細節。
[0005] 圖1示出了根據本公開主題的一個實現方式的用于經由基于令牌的索引提供成 果/成果概率的示例圖示。
[0006] 圖2a示出了根據本公開主題的一個實現方式的生成基于令牌的索引的示例過 程。
[0007] 圖2b示出了根據本公開主題的一個實現方式的基于成果概率針對成果搜索基于 令牌的索引的示例過程。
[0008] 圖3示出了根據本公開主題的一個實現方式的計算機。
[0009] 圖4示出了根據本公開主題的一個實現方式的網絡配置。
【具體實施方式】
[0010] 根據本公開主題的各實現方式,可搜索索引可以基于從機器學習的模型推導的規 則來生成。通過此方式,機器學習的模型的卓越智能和邏輯可以被體現在易于可搜索的索 引中。標準信息檢索工具可以用于使用該索引高效地檢索數據。這通過消除在信息檢索階 段另外可能被機器學習的模型高評分的候選的損失而比具有分離的信息檢索和機器學習 排名階段的系統相比更為有利。總之,根據本公開主題的實現方式更多候選可以被更精確 地排名。
[0011] 本公開的技術可以被應用于使用有監督的學習數據(諸如標記的示例)生成的 機器學習的模型。該標記的示例可以被輸入機器學習系統并且機器學習系統的輸出可以 是包含響應于標記的數據而生成的權重的機器學習的模型。該標記的示例可以包含成果 (outcome)以及與特定實例相關聯的屬性兩者。應當理解,權重和成果可以是無單位數值、 百分比、出現計數或者其他定量。機器學習系統可以接收標記的數據(例如,標記的示例) 以開發包含響應于有監督的標記的數據而生成的權重的機器學習的模型。一個或多個規則 可以由機器學習的模型創建。
[0012] 規則可以包括成果、特征集和概率。例如,規則:
[0013] (keyword :car, video :carmaker_l)->. 03
[0014] 指示當用戶在搜索引擎提交搜索關鍵字"車(car) "(特征)并且該用戶被呈現以 關于Carmaker_l的視頻(成果)時,存在3%的概率用戶將選擇該視頻以查看它(概率)。
[0015] 可搜索索引中的條目可以包括文檔和可搜索令牌。機器學習的基于令牌的索引中 的令牌可以被稱為索引的令牌。索引的令牌可以包括關鍵字或者可以不包括關鍵字。例如, 索引可以包括包含關鍵字"車"的一個令牌以及不包括關鍵字但涉及諸如位置、語言和瀏覽 器設置之類的其他特征的其他令牌。通常,特征可以包括關于用戶已知的任何信息,諸如由 用戶提交的查詢文本、由用戶設置的瀏覽器配置等。同樣,特征可以是通用狀態信息,諸如 一天中的時間、地理位置等。例如,網頁可以被索引以產生如下條目:
[0016] web_page_l:[text:boxcar, 4. 0], [image:train,2. 0]
[0017] 這指示網站的網頁("web_page_l",文檔)包括文本串"boxcar"四次以及兩個火 車(train)的圖像。
[0018] 根據本公開主題的一個實現方式,標準基于規則的機器學習的模型可以被分解成 具有權重的文檔和令牌集。例如,以下規則指示將搜索關鍵字"車"錄入搜索引擎的用戶將 選擇關于特定車企(carmaker)的視頻的可能性:
[0019] (keyword :car, video :carmaker_l)->. 03
[0020] (keyword :car, video :carmaker_2)->. 05
[0021] 這些規則可以被變換成包括對應于每個視頻的可搜索令牌的集合的條目,諸如:
[0022] carmaker_l : [keyword :car, . 03]
[0023] carmaker_2 : [keyword :car, . 05]
[0024] 條目可以包括成果(諸如"carmaker_l")、令牌(諸如keyword :car)和權重(諸 如3%)。令牌可以基于機器學習的規則中的特征的出現。權重可以對應于成果將基于某 些特征(這里表示為令牌)的出現而出現的概率。
[0025] 由于實現方式的數據具有與標準web搜索信息檢索問題相同的結果,因此可以 使用標準web搜索和其他信息檢索技術,諸如反向索引(inverted indices)和倒排列表