基于搜索結果效用分析的工業產品垂直搜索引擎排列技術的制作方法
【技術領域】
[0001]本發明屬于搜索引擎領域,具體涉及一種基于搜索結果效用分析的工業產品垂直搜索引擎排列技術。
【背景技術】
[0002]目前的搜索引擎結果排序技術主要分為兩類:一類是針對普適性搜索引擎的搜索結果排序技術;另一類是針對垂直搜索引擎結果排序技術。針對普適性搜索引擎的搜索結果排序技術包括網頁排序技術(PageRank技術)和詞頻-逆文本頻率技術(TF-1DF技術)。
[0003]PageRank技術是一種針對普適性搜索引擎的搜索結果排序技術,該技術將互聯網中的所有網頁連同網頁之間的超鏈接關系理解為一張“有向圖”數據結構,即:每個網頁為圖中的一個節點,每個超鏈接為一個有向邊。通過這種數據結構的構建,該方法可以計算出每個網頁的排序權重。TF-1DF通過比較搜索詞條與網頁的文本內容,為網頁進行排序。
[0004]針對垂直搜索引擎,目前主流的排序技術為“字符匹配”配合“按結果屬性排序”的方法。即首先通過字符匹配的方法確定結果集合,然后通過對比結果集合中每個結果的某個屬性對結果進行排序,例如:按照結果的價格進行排序、按照結果的大小進行排序、按照結果的時間進行排序等。
[0005]對于針對工業產品的垂直搜索引擎,現有技術的主要缺陷如下:
[0006](I)排序準確度低。針對普適性搜索引擎的搜索結果排序技術基于傳統互聯網網頁的特點提出,適合對于具有大量文字的文檔進行文本性匹配。然而,對于工業產品的垂直搜索領域,待搜索的數據具有新的特點,其數據不是以網頁形式組織的整體,而是每個數據均由多個數據屬性組成,包括:產品名稱、產品價格、生產企業、上架時間等等。針對普適性搜索引擎的搜索結果排序技術不適應工業產品數據結構的特點,搜索結果無法滿足用戶需求,準確度低。
[0007](2)排序依據單一片面。現有的針對垂直搜索引擎的排序技術,按照搜索結果的某種屬性記性排序,比如價格、時間、用戶評價等等,每一種排序的方法的排序依據均比較單一片面,無法從產品的綜合價值角度進行排序。
[0008](3)使用方便程度低。現有的針對垂直搜索引擎的排序技術,需要在使用者輸入搜索詞條后重新選擇結果排序方式,使用方便程度低。
【發明內容】
[0009]為解決上述技術問題,本發明提供了一種針對工業產品垂直搜索引擎的結果排序技術,通過對搜索詞條以及搜索結果的分析,本發明采用“搜索結果價值”的計算方法,并稱之為“結果效用”,通過對結果效用進行計算,并且按照結果效用對搜索結果進行排序,極大提高了搜索結果的相關程度,提高用戶體驗和排序的準確度。
[0010]為達到上述目的,本發明的技術方案如下:
[0011]一種基于搜索結果效用分析的工業產品垂直搜索引擎排列技術,其特征在于,Q為搜索詞條,Di為第i個搜索結果,當Q有M條搜索結果時,O ( i ( M,所述垂直搜索引擎排列技術包括以下幾步:
[0012]第一步:對搜索詞條Q和搜索結果0,進行分詞;
[0013]第二步:對分詞后的搜索詞條和分伺候的搜索結果Di進行結果效用F計算,F = 產品成交次數 /(D i的產品價格 +1)*(145 - TF ^gram - TF2_gram - TF3^gram _ TF4_gram),其中: 產品成交次數/(D i的產品價格+1)為搜索結果D i的標準化效用參數,145 - TF ^graffl -
TF2_gram - TF3^gram - TF4_gMm為搜索詞條Q相對于搜索結果D i的相關指數;
[0014]第三步:按照第二步中計算的結果效用F,對所有的搜索結果進行排列,結果效用F高的結果排序靠前,結果效用F低的結果排序靠后。
[0015]在本發明的一個較佳實施例中,進一步包括,第二步中對分詞后的搜索詞條和分伺候的搜索結果Di進行結果效用F計算,包括以下步驟:
[0016]步驟一:對分詞后的搜索詞條Q,抽取Ι-gram到N-gram,其中N-gram為有向序列的長度為N的有向子序列,I < N < 4且N為正整數;
[0017]步驟二:對步驟一中從搜索詞條Q中抽取的每個1-gram、2-gram、3-gram與4-gram,分別在每個搜索結果01中進行字符串子串查找匹配,分別得到1-gram、2-gram、3-gram 與 4-gram 在詞頻,N-gram 的詞頻表示為 TF N_gram,TFN_gram =
TFN-gram-1+TFN-gram-2+......+TFN-gram-K+......+TFN_gram_K其中,I 彡 N 彡 4 ;R 為搜索詞條 Q 中 N-gram
的數目;N-gram-K表示第K個N-gram (I彡K彡R) ;TFN_gM_K表示第K個N-gram的匹配頻率;
[0018]步驟三:計算搜索詞條Q與搜索結果Di的結果效用F,F = D 產品成交次數/ (D ,的產品價格+ 1)* (145 - TF1^gram - TF2_gram - TF3^gram _ TF4_gram),其中屯的產品成交次數/ (D丨的產品價格+1)為搜索結果Di的標準化效用參數,145 - TF ^gram - TF2_gram - TF3^gram _ TF4_gran^搜索詞條Q相對于搜索結果Di的相關指數,TF步驟二中得到的詞頻。
[0019]在本發明的一個較佳實施例中,進一步包括,第一步中的對搜索詞條Q和搜索結果01進行分詞包括以下形式:對搜索詞條Q和搜索結果Di同時進行分詞;將搜索結果01先分詞并且存儲于數據庫中,搜索詞條Q在搜索時臨時分詞。
[0020]在本發明的一個較佳實施例中,進一步包括,第一步中的分詞方法包括以下一種或幾種:字符串匹配分詞法、詞義分詞法和統計分詞法。
[0021]在本發明的一個較佳實施例中,進一步包括,所述字符串匹配分詞法包括以下一種或幾種分詞法:正向最大匹配法、反向最大匹配法、雙向最大匹配法和最短路徑分詞法。
[0022]本發明的有益效果是:
[0023]其一、本發明的排序方法排序準確度高。該技術針對“工業產品垂直搜索引擎”的數據特點提出,在“結果效用”的計算公式中“相關指數”體現了搜索詞條與搜索結果的相關程度,“標準化效用參數”體現了搜索結果本身的效用高低。按“結果效用”值對結果進行排序,可以保證相關程度高、且質量有保證的搜索結果排序靠前,即提高了排序準確度。
[0024]其二、本發明的排序方法排序依據全面。如上所述,搜索結果依據“結果效用”排序,同時考慮了使用者的需求與搜索結果本身的數據質量(產品價格與信譽程度),排序靠前的結果擁有更高的綜合質量,而不是單方面的高指標。
[0025]其三、本發明的排序方法使用方便程度高。在本發明的支撐下,使用者在輸入搜索詞條后,不需要選擇額外的排序方式,而可以直接得到準確的搜索結果排序方式,操作更加簡單,使用更加方便。
【附圖說明】
[0026]為了更清楚地說明本發明實施例技術中的技術方案,下面將對實施例技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以根據這些附圖獲得其他的附圖。
[0027]圖1本發明方法的流程圖。
【具體實施方式】
[0028]下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于本發明中的實施例,本領域普通技術人員在沒有作出創造性勞動前提下所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0029]實施例
[0030]如圖1所示,本實施例中公開了一種基于搜索結果效用分析的工業產品垂直搜索引擎排列技術,Q為搜索詞條,Di為第i個搜索結果,當Q有M條搜索結果時,O < i < M,所述垂直搜索引擎排列技術包括以下幾步:
[0031]第一步:對搜索詞條Q和搜索結果Di進行分詞。
[0032]第二步:對分詞后的搜索詞條和分伺候的搜索結果Di進行結果效用F計算。
[0033]第三步:按照第二步中計算的結果效用F,對所有的搜索結果進行排列,結果效用F高的結果排序靠前,結果效用F低的結果排序靠后。
[0034]第一步中的對搜索詞條Q和搜索結果Di進行分詞是并列關系,可以對對搜索詞條Q和搜索結果Di同時進行分詞;也可以先將搜索結果Di先分詞并且存儲于數據庫中,搜索詞條Q在搜索時臨時分詞。
[0035]具體的,第一步中涉及的分詞方法包括以下幾種:字符串匹配分詞法、詞義分詞法和統計分詞法。其中所述字符串匹配分詞法包括以下幾種分詞法:正向最大匹配法、反向最大匹配法、雙向最大匹配法和最短路徑分詞法。
[0036](I)正向最大匹配法