專利名稱:確定搜索詞權重值方法及裝置、搜索結果生成方法及裝置的制作方法
技術領域:
本申請涉及計算機應用領域,特別是涉及一種確定搜索詞權重值的方法及裝置、 搜索結果生成方法及裝置。
背景技術:
信息搜索系統是一種能夠為用戶提供信息檢索服務的系統,以互聯網中常用的搜索引擎為例,作為應用在互聯網領域的搜索系統,搜索引擎目前已經成為用戶上網必不可少的輔助工具之一。從用戶的角度看,搜索引擎一般提供一個包含搜索框的頁面,用戶在搜索框輸入查詢串,通過瀏覽器提交給搜索引擎后,搜索引擎就會返回與用戶輸入的查詢串內容相匹配的信息。對于用戶輸入的搜索請求,可以由一個或多個搜索詞組成。當用戶輸入的搜索請求由多個搜索詞組成時,搜索系統首先對用戶輸入的搜索請求進行分詞,得到多個搜索詞, 再以搜索詞為單位匹配數據庫中的信息。然后,系統按照各搜索詞的重要性對各搜索詞分別匹配到的信息進行排序,返回搜索結果展現給用戶。現有技術中,對于各搜索詞重要性的劃分往往是統計各搜索詞的詞頻得到的。具體的,系統定期對數據庫中保存的用戶的歷史搜索信息進行統計,得到各搜索詞出現的頻率,作為搜索詞對應的詞頻。詞頻較高的搜索詞被認為是比較重要的;而詞頻偏低的搜索詞則被認為是不太重要的。通過對現有技術的研究,發明人發現現有技術中采用詞頻確定各搜索詞的重要性存在的問題是首先,詞頻統計時會包括大量的噪音詞,影響統計結果;其次,根據歷史搜索信息統計詞頻,使得查詢次數不多但很有價值的搜索詞很容易被忽視。這導致利用現有技術得到的各搜索詞的重要性對搜索結果的排序不是十分合理,增加了用戶的查詢時間, 甚至導致用戶重新輸入搜索詞進行搜索,增加了服務器的負擔和能耗。
發明內容
為解決上述技術問題,本申請提供了一種確定搜索詞權重值的方法及裝置、一種搜索結果生成方法及裝置,可以更為合理的確定用戶輸入的搜索請求中各搜索詞的重要性。本申請提供一種確定搜索詞權重值的方法,包括以下步驟接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;從數據庫中提取屬性詞表,優化所述類目分布詞表;根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。本申請還提供一種搜索結果生成方法,包括以下步驟接收輸入的搜索請求,獲取所述搜索請求中各搜索詞對應的權重值;將各搜索詞對應的匹配信息按照各搜索詞對應的權重值排序;
其中,各搜索詞對應的權重值通過下述步驟得到接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;從數據庫中提取屬性詞表,優化所述類目分布詞表;具體為依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表,如果是,濾除所述搜索詞對應的搜索概率低于預設的第一閾值的搜索類目;如果否,將所述搜索詞對應的各搜索類目的搜索概率平均化;根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。本申請還提供一種確定搜索詞權重值的裝置,包括日志生成模塊,用于接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;詞表生成模塊,用于統計數據庫中保存的所述搜索信息日志,生成類目分布詞表; 所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;詞表優化模塊,用于從數據庫中提取屬性詞表,優化所述類目分布詞表;權重計算模塊,用于根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。本申請還提供一種搜索結果生成裝置,包括日志生成模塊,用于接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;詞表生成模塊,用于統計數據庫中保存的所述搜索信息日志,生成類目分布詞表; 所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;詞表優化模塊,用于從數據庫中提取屬性詞表,優化所述類目分布詞表;權重計算模塊,用于根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值;權重提取模塊,用于接收輸入的搜索請求,獲取所述搜索請求中各搜索詞對應的權重值;結果生成模塊,用于將各搜索詞對應的匹配信息按照各搜索詞對應的權重值排序。與現有技術相比,本申請實施例所述方法及裝置,統計各搜索詞在不同搜索類目中的分布,計算各搜索類目的搜索概率,同時,根據搜索系統本身的屬性詞表進行優化過濾,在計算各搜索詞的權重。對于各搜索詞,如果其頻繁出現在多個搜索類目中,并且在各搜索類目的搜索概率很平均,那么可以認為該搜索詞具有很大的通用性,該搜索詞對應的權重偏小,表明該搜索詞重要性偏低;相反,對于只出現在個別搜索類目中,并且在個別搜索類目的搜索概率較集中,認為該搜索詞具有較強的區分能力,其權重值較大,表明該搜索詞重要性偏高。采用本申請所述方法及裝置,可以更為合理的確定用戶輸入的搜索請求中各搜索詞的重要性,從而使得返回的搜索結果的排序更加合理,減少了用戶的查詢時間,減輕了服務器的負擔和能耗,提高用戶的體驗滿意度。
為了更清楚地說明本申請實施例或現有技術中的技術方案,下面將對實施例或現有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本申請中記載的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動性的前提下,還可以根據這些附圖獲得其他的附圖。圖1為本申請實施例的確定搜索詞權重值的方法流程圖;圖2為本申請實施例的搜索結果生成方法流程圖;圖3為本申請實施例的確定搜索詞權重值的裝置結構示意圖;圖4為本申請實施例的詞表優化模塊結構示意圖;圖5為本申請實施例的搜索結果生成裝置結構示意圖。
具體實施例方式首先對本申請實施例的一種確定搜索詞權重值的方法,包括接收用戶輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;從數據庫中提取屬性詞表,優化所述類目分布詞表;具體為依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表,如果是,濾除所述搜索詞對應的搜索概率低于預設的第一閾值的搜索類目;如果否,將所述搜索詞對應的各搜索類目的搜索概率平均化;根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。為了使本技術領域的人員更好地理解本申請中的技術方案,下面將結合本申請實施例中的附圖,對本申請實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本申請一部分實施例,而不是全部的實施例。基于本申請中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他實施例,都應當屬于本申請保護的范圍。下面以網絡搜索應用為例,對本申請所提供的技術方案進行詳細說明,圖1所示為本申請實施例的確定搜索詞權重值的方法流程圖,包括以下步驟步驟S101、系統接收用戶輸入的搜索請求和點擊信息,生成搜索信息日志,并保存入數據庫;當用戶在搜索頁面上輸入搜索請求并點擊搜索后,所述用戶的搜索請求、點擊信息會通過網絡上的鏈接傳送到系統的后臺服務器。后臺服務器根據接收到的搜索請求和點擊信息,生成搜索信息日志。所述搜索信息日志包括搜索詞、各搜索詞對應的搜索類目等。對于互聯網中的信息,很多都是按照一定的類目進行發布的,例如,在門戶網站中,網頁類目可以包括新聞、體育、娛樂、財經等等,在電子商務網站中,商品類目包括家居、服飾、數碼、食品等,而數碼類目又可以包括手機、相機、電腦等等。那么,對于用戶輸入的搜索請求,都會對應一個該搜索請求所在的類目,稱為搜索類目。以電子商務網站為例進行說明,假設用戶的搜索請求為“相機”,用戶可以在各種商品類目下進行搜索。當用戶在家居類目下搜索“相機”時,則搜索詞“相機”對應的搜索類目即為“家居”;當用戶在數碼類目下搜索“相機”時,則搜索詞“相機”對應的搜索類目即為“數碼”。需要說明的是,用戶輸入的所述搜索信息可以為一個搜索詞,也可以是多個搜索詞組成的搜索串。當所述搜索信息為搜索串時,系統需要先對該搜索串進行分詞,得到多個搜索詞,再確定各搜索詞對應的搜索類目,生成搜索信息日志。當然,對于用戶一次輸入的搜索串分詞得到的各搜索詞,其對應的搜索類目是相同的。例如,當用戶在家居類目下輸入的搜索請求為搜索串時,假設為“相機單反”,則首先系統對搜索串進行分詞,得到搜索詞“相機”、“單反”,則此時搜索詞“相機”對應的搜索類目為“家居”,搜索詞“單反”對應的搜索類目也為“家居”。系統確定了各搜索詞對應的搜索類目后,生成相應的搜索信息日志,并保存入數據庫。步驟S102、系統統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;其中,所述類目分布詞表用于表示數據庫中保存的所有的搜索詞對應的搜索類目的分布情況,具體為各搜索詞對應的各搜索類目的點擊次數。具體地,對于同一搜索詞,當不同用戶采用該搜索詞進行搜索時,其對應的搜索類目可能是不同的。因此,在數據庫中保存的搜索信息日志中,該搜索詞對應的搜索類目也是不同的。步驟S102中,系統統計數據庫中保存的所有的搜索信息日志,對各搜索詞進行統計,統計同一搜索詞對應的所有搜索類目、以及各搜索類目的點擊次數,生成該搜索詞對應的搜索類目分布信息。統計數據庫中所有的搜索詞的搜索類目分布信息,組合在一起,生成類目分布詞表。具體的,所述類目分布詞表可以分為兩列,第一列為搜索詞,第二列為該搜索詞對應的搜索類目分布信息。所述搜索類目分布信息可以包括該搜索詞對應的多個搜索類目的組合、以及各個搜索類目對應的點擊次數,其格式如下式所示Word catl :weightl ;cat2 :weight2 ;. . . ;catn :weightn其中,Word為搜索詞;cati為該搜索詞對應的第i個搜索類目;weighti為該搜索詞對應的第i個搜索類目的點擊次數;i = 1、2. . . η ;n為該搜索詞對應的搜索類目的個數。仍以“相機,,為例進行說明。根據常識可知,一般電子網站均會將相機歸屬于“數碼”類目。但是對于用戶而言,其并不一定只在“數碼”類目下搜索相機,用戶有可能在“全部類目,,下直接搜索相機,也可能在“家居”類目下搜索相機。根據步驟SlOl可知,對于每次用戶的點擊搜索,系統均會生成對應的搜索信息日志,用于記錄每個用戶每次輸入搜索詞“相機”時對應的搜索類目。則步驟S102中,系統根據數據庫中保存的所有的搜索信息日志,對搜索詞“相機” 對應的所有的搜索類目進行統計,得到搜索詞“相機”對應的搜索類目分布信息。假設,通過統計得到,所述搜索詞“相機”對應的搜索類目包括“全部類目”、“數
7碼”、“家居”、“服裝”,且各搜索類目對應的點擊次數分別為3對、1四0、34、8。此時,搜索詞 “相機”對應的搜索類目分布信息為相機全部類目324 ;數碼1290 ;家居34 ;服裝8優選地,本申請實施例中,為了更加清楚的表示各搜索詞對應的搜索類目的分布情況,可以以概率形式表示各搜索類目對應的點擊次數。具體為,統計得到該搜索詞對應的點擊總次數,進而計算得到所述搜索詞對應的各搜索類目的搜索概率。此時,所述搜索類目分布信息可以包括該搜索詞對應的多個搜索類目的組合、以及各個搜索類目對應的搜索概率,其格式如下式所示Word catl :pl ;cat2 :p2 ;. . . ;catn :pn其中,Word為搜索詞;cati為該搜索詞對應的第i個搜索類目;pi為該搜索詞對應的第i個搜索類目的搜索概率;i = 1、2、. .、η ;n為該搜索詞對應的搜索類目的個數。仍以搜索詞“相機”為例,當采用搜索概率時,其對應的搜索類目分布信息為相機全部類目19.6% ;數碼77.9% ;家居2% ;服裝0. 5%對于本申請實施例,在以下實施方式的描述中,除特殊聲明外,所述搜索類目分布信息均是以搜索概率的形式表示。需要說明的是,系統可以定期或不定期的對數據庫中保存的所述搜索信息日志進行統計,生成或更新所述類目分布詞表。例如,系統可以設定每周或每月對所述類目分布詞表自動更新一次;或者是,由系統維護人員自動選擇更新所述類目分布詞表。步驟S103、從數據庫中提取屬性詞表,優化過濾所述類目分布詞表;對于互聯網信息,系統會根據網站的性質在數據庫中保存該網站對應的屬性詞表,所述屬性詞表中保存有該網站的常規屬性詞匯。例如,在電子商務中,其常規的屬性詞匯一般包括商品的類型、品牌、型號等;故在電子商務網站中,當商家發布商品信息時,會填寫商品的類型、品牌、型號、顏色等信息,此時系統會獲取商品的類型、品牌、型號、顏色等能夠表示該商品特定屬性的信息,作為屬性信息保存入數據庫中的屬性詞表中。例如,商家發布一款相機時,填寫該手機品牌為“佳能”、類型為“單反”、型號為“D450”、顏色為“黑色”。 此時,對于“佳能”、“單反”、“D450”都是可以表示相機的某一特定屬性的,而“黑色”則是比較大眾的詞匯。此時,系統將“佳能”、“單反”、“D450”保存入屬性詞表,而“黑色”不保存入屬性詞表。優選地,系統可以對屬性詞表中的各屬性信息進行分類,例如“佳能”作為品牌詞;“單反”和“D450”作為屬性詞。通常所述屬性詞表中保存的均是商家和買家比較關注的并且能夠體現商品特性的信息。本申請實施例中,系統從數據庫中提取出所述屬性詞表,用于優化過濾步驟S102 中生成的所述類目分布詞表。具體地,步驟S103中所述優化過濾所述類目分布詞表包括以下步驟步驟S1031 系統依次判斷所述類目分布詞表中的各搜索詞是否屬于所述屬性詞表,如果是,進入步驟S1032 ;如果否,進入步驟S1033 ;步驟S1032 將所述搜索詞對應的各搜索類目的搜索概率與預設的第一閾值相比較,濾除所述搜索詞對應的搜索概率低于所述第一閾值的搜索類目;具體地,在實際應用中,由于用戶搜索的隨意性和自由性,很容易產生很多不相關的點擊信息,造成干擾信息,此類信息需要濾除。例如,個別客戶在“服裝”類目搜索“相機”,從而使得系統產生一次“搜索詞相機;搜索類目服裝”的信息,但是很明顯“相機”和“服裝”是不相關的,在“服裝”類目下搜索“相機”的用戶記錄也是比較少的,可以認為這樣的記錄是一種干擾信息,對于網站的準確搜索是沒有用途的,因此可以將其濾除。此處仍以搜索詞“相機”為例進行說明。首先系統通過判斷,確定“相機”屬于屬性詞表,此時從所述類目分布詞表中提取所述搜索詞“相機”對應的搜索類目分布信息為相機全部類目19.6% ;數碼77.9% ;家居2% ;服裝0. 5%然后,對搜索詞“相機”對應的搜索類目分布信息進行優化,濾除搜索詞“相機”對應的搜索概率低于所述第一閾值的搜索類目。具體的,假設預設的第一閾值為5%,通過比較可知,搜索詞“相機”對應的搜索類目“家居”和“服裝”的搜索概率均低于5%,需要濾除, 此時,對于搜索詞“相機”,優化后的搜索類目分布信息如下所示相機全部類目19. 6% ;數碼77. 9%步驟S1033 將所述搜索詞對應的各搜索類目的搜索概率平均化。在實際應用中,有些用戶輸入的搜索詞并不能用于表明商品的屬性,只是一些用于減小搜索范圍的限制用詞匯,這些詞匯一般具有很強的公用性,例如“紅色”、“美觀”、“價廉”等。這些搜索詞可以用于對各種類目的商品進行搜索,例如即可以用于搜索“相機”,也可以用于搜索“上衣”,并不能對各類目商品進行區分。本申請實施例中,這類詞匯并不會被保存在屬性詞表中,因此當系統確定某搜索詞不屬于屬性詞表時,可以認為該詞匯為各類目通用詞匯,并不能用于表示某類目商品的特有屬性,其用于各搜索類目的搜索概率是平均的。此時,本申請實施例中,對該類搜索詞對應的各搜索類目的搜索概率進行平均化。例如,假設用戶輸入的搜索串中包括搜索詞“美觀”,根據步驟S102生成的類目分布詞表中,搜索詞“美觀”對應的搜索類目分布信息如下所示美觀全部類目21.2% ;數碼15. 7% ;家居35.4% ;服裝27. 8%首先,經過系統判斷,確定搜索詞“美觀”不屬于屬性詞表,此時需要對搜索詞“美觀”對應的各搜索類目的搜索概率進行平均化處理,得到優化后的類目分布詞表中搜索詞 “美觀”對應的搜索類目分布信息如下所示美觀全部類目25% ;數碼25% ;家居25% ;服裝25%本申請實施例中,對所述類目分布詞表中包括的搜索詞依次進行優化,優化各搜索詞對應的搜索類目分布信息,進而實現對整個類目分布詞表的優化。具體為,依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表,對于屬于屬性詞表的搜索詞,濾除所述搜索詞對應的搜索類目中,搜索概率過低的搜索類目;對于不屬于屬性詞表的搜索詞,對所述搜索詞對應的各搜索類目的搜索概率進行平均化。由此, 實現了對步驟S102中得到的類目分布詞表的優化過濾,使得所述類目分布詞表中各搜索詞對應的搜索概率分布信息更加合理。步驟S104、根據優化后的所述類目分布詞表,依次計算所述類目分布詞表中各搜索詞的權重;本申請實施例中,采用信息熵的方式表示各搜索詞的權重,以體現該搜索詞在信息搜索過程中的重要程度。通過步驟S103得到優化后的所述類目分布詞表后,可以根據所述類目分布詞表中各搜索詞對應的搜索概率分布信息計算各搜索詞對應的熵。需要說明的是,由于在計算熵時,需要保證所有搜索詞的維度是相同的,但是一般各搜索詞對應的搜索類目的個數是不相同的。此時,設定對于各搜索詞,其對應的搜索類目均為所述類目分布詞表中包括的搜索類目的總個數;對于該搜索詞沒有包括的搜索類目, 設定該搜索詞對應的所述搜索類目的搜索概率為0。具體的,通過下式計算所述類目分布詞表中各搜索詞對應的熵C (Word) = p^ogp^p^ogp^pglogpg+——+Pm Iogp J其中,Word為搜索詞;Pi為優化后的所述類目分布詞表中所述搜索詞對應的第i 個搜索類目的搜索概率,0 < Pi < 1 ;i = 1、2、. . . m ;m為所述類目分布詞表中搜索類目的總個數。以搜索詞“相機”和“美觀”為例進行說明,其優化后的搜索類目分布信息分別為相機全部類目19.6% ;數碼77.9%美觀全部類目25% ;數碼25% ;家居25% ;服裝25%設定所述類目分布詞表中搜索類目的總個數m = 5,則搜索詞“相機”和“美觀”對應的熵分別為C (相機)=0. 196 X IogO. 196+0. 779 X IogO. 779+0 X log0+0 X IogO+OXlogO= 0.2232C (美觀)=0. 25 X IogO. 25+0. 25 X IogO. 25+0. 25 X IogO. 25+0. 25 X IogO. 25+OXlogO=0.602熵是信息量無序度的度量。各搜索詞對應的熵越大說明搜索詞所表達的信息越不
確定,搜索詞相對越不重要。例如,搜索詞“相機”的熵小于搜索詞“美觀”的熵,可以認為搜索詞“美觀”相較搜索詞“相機”而言,不太重要。優選地,本申請實施例中,可以直接將各搜索詞對應的熵作為各搜索詞對應的權重值。此時,對應的,搜索詞的權重值越低說明該搜索詞越重要,反之,權重值越高,說明該搜索詞越不重要。但是,這種表示權重值的方式并不符合人們習慣的認知方式。一般均認為,搜索詞越重要,其權重值應越高,反之,搜索詞越不重要,其權重值應越低。因此,本申請實施例中,可以通過下述方式獲取各搜索詞的權重值WE (Word) = -C (Word) +CO其中,Word為搜索詞;WE (Word)表示搜索詞Word對應的權重;C (Word)為搜索詞 Word對應的熵;CO為基準值。其中,CO大于所述類目分布詞表中各搜索詞對應的熵的最大值,可以表示為CO > max (Cl, C2. . . . Cj)其中,j為所述類目分布詞表中搜索詞的總個數。例如假設所述類目分布詞表中各搜索詞對應的熵的最大值為0. 99,則可以設定 CO = 1,此時,仍以搜索詞“相機”和“美觀”為例進行說明,有WE (相機)=-0. 2232+1 = 0. 7768WE (美觀)=-0. 602+1 = 0. 398
此時,搜索詞“相機”對應的權重大于搜索詞“美觀”對應的權重,說明,搜索詞“相機”比搜索詞“美觀”重要。至此,本申請實施例所述方法實現了對搜索詞的權重的計算。本申請實施例所提供的確定詞權重值的方法,統計各搜索詞在不同搜索類目中的分布,計算各搜索類目的搜索概率,同時,根據搜索系統本身的屬性詞表進行優化過濾,再確定各搜索詞的權重值。對于各搜索詞,如果其頻繁出現在多個搜索類目中,并且在各搜索類目的搜索概率很平均,那么可以認為該搜索詞具有很大的通用性,該搜索詞對應的權重偏小,表明該搜索詞重要性偏低;相反,對于只出現在個別搜索類目中,并且在個別搜索類目的搜索概率較集中,認為該搜索詞具有較強的區分能力,其權重值較大,表明該搜索詞重要性偏高。采用本申請所述方法,可以更為合理的確定用戶輸入的搜索請求中各搜索詞的重要性,從而使得返回的搜索結果的排序更加合理,減少了用戶的搜索時間,提高了用戶的體驗滿意度。具體的,前面已經說過,對于各搜索詞,其權重值代表了該搜索詞的重要程度。權重值越高,說明該搜索詞越重要;反之,權重值越低,說明該搜索詞不重要。從用戶的角度而言,當所述搜索詞對應的權重值越高時,說明用戶對該搜索詞的關注程度越高,因此,將權重值較高的搜索詞對應的匹配信息靠前排序,優先展現給用戶,從而實現了搜索結果中排序在前的信息是用戶更為關注的信息,提高了用戶的體驗滿意度。具體的,對于搜索詞“相機”和搜索詞“美觀”,很明顯,用戶優先關注的應是“相機” 對應的搜索結果,進一步才是“美觀”對應的搜索結果。而同時,可以看到,系統從數據庫中獲取的,搜索詞“相機”對應的權重高于搜索詞“美觀”的權重。因此,在返回搜索結果時, 將搜索詞“相機”對應的匹配信息靠前排序,搜索詞“美觀”對應的匹配信息靠后排序。由此使得用戶更為關注的搜索信息排在靠前的位置,更便捷了用戶的搜索,提高了用戶的滿意程度。對于不同的搜索詞,一般都表示不同類型的信息。對于用戶的搜索,各類型信息的關注程度是基本確定的。例如,在商務網站中,對于搜索詞一般可以區分為以下類型產品詞、品牌詞、屬性詞等。所述產品詞用于表示某一商品的類別,例如該商品是屬于相機、服裝、還是食品等;所述品牌詞用于表示某一商品的品牌,例如該商品品牌為佳能、尼康、還是富士等;所述屬性詞用于表示商品的特有屬性,例如該商品為單反機、卡片機等。對于不同類型的搜索詞,可以預先設定其關注程度。例如,對于商務網站,一般可以認為產品詞比品牌詞更受關注,品牌詞比屬性詞更受關注。因此,本申請實施例所述方法中,根據各搜索詞的類型,對各搜索詞的權重進行修正,使得關注程度較高的類型的搜索詞對應的權重值高于關注程度較低的類型的搜索詞對應的權重值。具體地,以商務網站為例,使得屬于產品詞的搜索詞對應的權重值高于屬于品牌詞的搜索詞對應的權重值,同時,使得屬于品牌詞的搜索詞對應的權重值高于屬于屬性詞的搜索詞對應的權重值。例如,假設對于搜索詞“相機”、“佳能”、“單反”,通過步驟S104中計算得到的各搜索詞對應的權重值分別為WE (相機)=0. 7768
WE (佳能)=0. 5982WE (單反)=0. 8781此時,可以發現TO(相機)高于WE(佳能),而TO(佳能)低于TO(單反),即為當前權重滿足了產品詞的權重高于品牌詞的權重,但是品牌詞的權重卻低于了屬性詞權重。 因此,優選地,還可對步驟S104計算得到的權重值進行修正。具體地,所述修正過程包括對所述類目分布詞表中的搜索詞進行分類,確定各類型搜索詞的關注度;對各類型的搜索詞對應的權重進行修正,使得關注度高的搜索詞對應的權重值高于關注度低的搜索詞對應的權重值。具體地,所述對各類型的搜索詞對應的權重進行修正,具體為對各類型搜索詞對應的權重值分別加上該類型搜索詞對應的修正值。例如,仍以搜索詞“相機”、“佳能”、“單反”為例進行說明。WE'(相機)=WE(相機)+ AWE(產品詞)WE'(佳能)=WE (佳能)+ Δ WE (品牌詞)WE'(單反)=WE(單反)+ AWE(屬性詞)具體的,通過對各類型搜索詞對應的權重值TO(Word)加上對應的修正值 AffE(Word),使得修正后的關注度高的搜索詞對應的權重值WE' (Word)大于關注度較低的搜索詞對應的權重值。例如,可以設定AWE(產品詞)=1,AWE(品牌詞)=0.8,AWE(屬性詞)= 0. 3 ;此時修正后的搜索詞“相機”、“佳能”、“單反”的權重值分別為WE'(相機)=0.7768+1.0 = 1.7768WE'(佳能)=0.5982+0.8 = 1.3982WE'(單反)=0. 8781+0. 3 = 1. 1781由此使得,TO'(相機)高于WE'(佳能),而TO'(佳能)高于WE'(單反), 即為當前權重滿足了產品詞的權重高于品牌詞的權重,且品牌詞的權重高于屬性詞權重。本申請實施例還提供一種搜索結果生成方法。參照圖2,為本申請實施例的搜索結果生成方法流程圖。所述方法包括步驟S201、系統接收用戶輸入的搜索請求,獲得所述搜索請求中各搜索詞對應的權重值;當系統接收到用戶輸入的搜索請求時,會對所述搜索請求進行分詞處理。當所述搜索請求僅僅為一個詞時,則分詞處理后得到的搜索詞即為該搜索詞本身,例如,搜索請求為“相機”,則搜索詞即為“相機”;當所述搜索請求包括多個詞時,則分詞處理后得到的搜索詞為多個,例如,搜索請求為“相機美觀”,則搜索詞為“相機”和“美觀”。對于分詞處理后得到的各搜索詞,系統查詢所述數據庫,獲取各搜索詞對應的權重值。例如,系統通過查詢數據庫,得到所述搜索詞“相機”何搜索詞“美觀”分別對應的權重值為WE (相機)=0. 7768WE (美觀)=0.398其中,所述搜索詞的權重值的確定方法與上述本申請實施例中的所述確定搜索詞權重值的方法相同,在此不再贅述。
步驟S202、將各搜索詞對應的匹配信息按照各搜索詞對應的權重值排序,展現給用戶。針對用戶在搜索時所輸入的搜索信息,搜索引擎往往能夠檢索到多條匹配信息, 這個數量可能會達到數十至數萬。從用戶的角度來講,往往只會重點關注在搜索結果中排序比較靠前的信息。這樣,在搜索引擎向用戶提供搜索結果時,如何對這些信息進行排序就顯得尤為重要,搜索結果的排序是否合理將直接影響著用戶的體驗。優選地,本申請實施例所述方法中,還可以進一步包括根據步驟S201中獲取所述搜索請求中各搜索詞對應的權重值,對各搜索詞進行主、輔搜索詞劃分。具體地,當所述搜索詞對應的權重值大于預設的第二閾值時,確定所述搜索詞為主搜索詞;否則,確定所述搜索詞為輔搜索詞。系統根據所述搜索請求中包括的各搜索詞進行搜索時,以所述主搜索詞為主,其返回的搜索結構中,必須包含所述主搜索詞,而所述輔搜索詞則可有可無。但是,所述輔搜索詞可以幫助系統對返回給用戶的搜索結果進行排序,將含有該輔搜索詞的搜索結果排在不含有輔搜索詞的搜索結果之前。本申請實施例中,根據所述搜索信息中各搜索詞的權重值,對各搜索詞對應的匹配信息進行排序,并將排序后的匹配信息作為搜索結果展現給用戶。當所述搜索詞對應的權重值越高時,說明用戶對該搜索詞的關注程度越高,因此,將權重值較高的搜索詞對應的匹配信息靠前排序,優先展現給用戶,從而實現了搜索結果中排序在前的信息是用戶更為關注的信息,提高了用戶的體驗滿意度。以上介紹以電子商務搜索為例對本申請技術方案進行了介紹,可以理解的是,這只是本申請技術方案的舉例說明,事實上,本申請技術方案可以應用于各類搜索需求,例如圖書數據庫搜索、文獻數據庫搜索等。并且應用范圍也僅不局限于互聯網領域,其他如單機、局域網中的搜索,都可以應用本申請所提供的技術方案。對應于上述確定搜索詞權重值的方法實施例,本申請還提供一種確定搜索詞權重值的裝置,參照圖3所示,所述裝置包括日志生成模塊10,用于接收用戶輸入的搜索請求和點擊信息,生成搜索信息日志, 保存入數據庫;詞表生成模塊20,用于統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;詞表優化模塊30,用于從數據庫中提取屬性詞表,優化所述類目分布詞表;權重計算模塊40,用于根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重。參照圖4所示,所述詞表優化模塊30包括判斷子模塊301,用于依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表;屬性詞優化子模塊302,用于當所述判斷子模塊的結果為是時,濾除所述搜索詞對應的搜索概率低于預設的第一閾值的搜索類目;
非屬性詞優化子模塊303,用于當所述判斷子模塊的結果為否時,將所述搜索詞對應的各搜索類目的搜索概率平均化。優選地,本申請實施例中,所述權重計算模塊40通過下述方式計算所述類目分布詞表中各搜索詞的權重WE (Word) = -C (Word) +CO其中,Word為搜索詞;TO (Word)為所述搜索詞對應的權重;C (Word)為所述搜索詞對應的熵;CO大于等于所述類目分布詞表中各搜索詞對應的熵的最大值。所述權重計算模塊40通過下述方式計算搜索詞對應的熵C (Word) = p^ogp^p^ogp^pglogpg+——+Pm Iogp J其中,Word為搜索詞;Pi為優化后的所述類目分布詞表中所述搜索詞對應的第i 個搜索類目的搜索概率,0 < Pi < 1 ;i = 1、2、. . . m ;m為所述類目分布詞表中搜索類目的總個數。優選地,所述裝置還包括分類模塊,用于對所述類目分布詞表中的搜索詞進行分類,確定各類型搜索詞的關注度;修正模塊,用于對各類型的搜索詞對應的權重進行修正,使得關注度高的搜索詞對應的權重值高于關注度低的搜索詞對應的權重值。對應于上述搜索結果生成方法實施例,本申請還提供一種搜索結果生成裝置,參照圖5所示,所述裝置包括日志生成模塊100,用于接收用戶輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;詞表生成模塊200,用于統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;詞表優化模塊300,用于從數據庫中提取屬性詞表,優化所述類目分布詞表;權重計算模塊400,用于根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。權重提取模塊500,用于接收用戶輸入的搜索請求,獲取所述搜索請求中各搜索詞對應的權重值;結果生成模塊600,用于將各搜索詞對應的匹配信息按照各搜索詞對應的權重值排序。優選地,所述詞表優化模塊300具體包括判斷子模塊,用于依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表;屬性詞優化子模塊,用于當所述判斷子模塊的結果為是時,濾除所述搜索詞對應的搜索概率低于預設的第一閾值的搜索類目;非屬性詞優化子模塊,用于當所述判斷子模塊的結果為否時,將所述搜索詞對應的各搜索類目的搜索概率平均化;優選地,所述搜索結果生成裝置還包括
主詞設定模塊,用于當所述搜索詞對應的權重值大于預設的第二閾值時,確定所述搜索詞為搜索主詞。為了描述的方便,描述以上裝置時以功能分為各種模塊分別描述。當然,在實施本申請時可以把各單元的功能在同一個或多個軟件和/或硬件中實現。通過以上的實施方式的描述可知,本領域的技術人員可以清楚地了解到本申請可借助軟件加必需的通用硬件平臺的方式來實現。基于這樣的理解,本申請的技術方案本質上或者說對現有技術做出貢獻的部分可以以軟件產品的形式體現出來,該計算機軟件產品可以存儲在存儲介質中,如ROM/RAM、磁碟、光盤等,包括若干指令用以使得一臺計算機設備 (可以是個人計算機,服務器,或者網絡設備等)執行本申請各個實施例或者實施例的某些部分所述的方法。本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的系統實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現本實施例方案的目的。本領域普通技術人員在不付出創造性勞動的情況下,即可以理解并實施。本申請可用于眾多通用或專用的計算系統環境或配置中。例如個人計算機、服務器計算機、手持設備或便攜式設備、平板型設備、多處理器系統、基于微處理器的系統、置頂盒、可編程的消費電子設備、網絡PC、小型計算機、大型計算機、包括以上任何系統或設備的分布式計算環境等等。本申請可以在由計算機執行的計算機可執行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執行特定任務或實現特定抽象數據類型的例程、程序、對象、組件、數據結構等等。也可以在分布式計算環境中實踐本申請,在這些分布式計算環境中,由通過通信網絡而被連接的遠程處理設備來執行任務。在分布式計算環境中,程序模塊可以位于包括存儲設備在內的本地和遠程計算機存儲介質中。以上所述僅是本申請的具體實施方式
,應當指出,對于本技術領域的普通技術人員來說,在不脫離本申請原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應視為本申請的保護范圍。
權利要求
1.一種確定搜索詞權重值的方法,其特征在于,包括以下步驟 接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫; 統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;從數據庫中提取屬性詞表,優化所述類目分布詞表;根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。
2.根據權利要求1所述的方法,其特征在于所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;優化所述類目分布詞表具體為依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表,如果是,濾除所述搜索詞對應的搜索概率低于預設的第一閾值的搜索類目;如果否,將所述搜索詞對應的各搜索類目的搜索概率平均化。
3.根據權利要求1或2所述的方法,其特征在于通過下述方式計算所述類目分布詞表中各搜索詞的權重值 WE(Word) = -C(Word)+CO其中,Word為搜索詞;TO (Word)為所述搜索詞對應的權重值;C (Word)為所述搜索詞對應的熵;CO大于等于所述類目分布詞表中各搜索詞對應的熵的最大值。
4.根據權利要求3所述的方法,其特征在于,通過下述方式計算搜索詞對應的熵 C (Word) = p1logp1+p2logp2+p3logp3+——+PmIogpJ其中,Word為搜索詞;Pi為優化后的所述類目分布詞表中所述搜索詞對應的第i個搜索類目的搜索概率,O < Pi < 1 ;i = 1、2、. . . m ;m為所述類目分布詞表中搜索類目的總個數。
5.根據權利要求1或2所述的方法,其特征在于,所述方法還包括對所述類目分布詞表中的搜索詞進行分類,確定各類型搜索詞的關注度; 對各類型的搜索詞對應的權重進行修正,使得關注度高的搜索詞對應的權重值高于關注度低的搜索詞對應的權重值。
6.一種搜索結果生成方法,其特征在于,包括以下步驟接收輸入的搜索請求,獲取所述搜索請求中各搜索詞對應的權重值; 將各搜索詞對應的匹配信息按照各搜索詞對應的權重值排序; 其中,各搜索詞對應的權重值通過下述步驟得到 接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫; 統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括 搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;從數據庫中提取屬性詞表,優化所述類目分布詞表;具體為依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表,如果是,濾除所述搜索詞對應的搜索概率低于預設的第一閾值的搜索類目;如果否,將所述搜索詞對應的各搜索類目的搜索概率平均化; 根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。
7.一種確定搜索詞權重值的裝置,其特征在于,包括日志生成模塊,用于接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據詞表生成模塊,用于統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;詞表優化模塊,用于從數據庫中提取屬性詞表,優化所述類目分布詞表; 權重計算模塊,用于根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值。
8.根據權利要求7所述的裝置,其特征在于,所述詞表優化模塊包括判斷子模塊,用于依次判斷所述類目分布詞表中各搜索詞是否屬于所述屬性詞表; 屬性詞優化子模塊,用于當所述判斷子模塊的結果為是時,濾除所述搜索詞對應的搜索概率低于預設的第一閾值的搜索類目;非屬性詞優化子模塊,用于當所述判斷子模塊的結果為否時,將所述搜索詞對應的各搜索類目的搜索概率平均化。
9.根據權利要求7或8所述的裝置,其特征在于,還包括分類模塊,用于對所述類目分布詞表中的搜索詞進行分類,確定各類型搜索詞的關注度;修正模塊,用于對各類型的搜索詞對應的權重值進行修正,使得關注度高的搜索詞對應的權重值高于關注度低的搜索詞對應的權重值。
10.一種搜索結果生成裝置,其特征在于,包括日志生成模塊,用于接收輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;詞表生成模塊,用于統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;所述類目分布詞表包括搜索詞、所述搜索詞對應的搜索類目、所述搜索詞對應的各搜索類目的搜索概率;詞表優化模塊,用于從數據庫中提取屬性詞表,優化所述類目分布詞表; 權重計算模塊,用于根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重值;權重提取模塊,用于接收輸入的搜索請求,獲取所述搜索請求中各搜索詞對應的權重值;結果生成模塊,用于將各搜索詞對應的匹配信息按照各搜索詞對應的權重值排序。
全文摘要
本申請公開了一種確定搜索詞權重值的方法、搜索結果生成方法及裝置。一種確定搜索詞權重值的方法,包括接收用戶輸入的搜索請求和點擊信息,生成搜索信息日志,保存入數據庫;統計數據庫中保存的所述搜索信息日志,生成類目分布詞表;從數據庫中提取屬性詞表,優化所述類目分布詞表;根據優化后的所述類目分布詞表,計算所述類目分布詞表中各搜索詞的權重。應用以上技術方案,在用戶進行搜索時,可以更為合理的確定用戶輸入的搜索請求中各搜索詞的重要性,減少用戶的搜索時間。
文檔編號G06F17/30GK102289436SQ201010207880
公開日2011年12月21日 申請日期2010年6月18日 優先權日2010年6月18日
發明者郭祥 申請人:阿里巴巴集團控股有限公司