:就是把一個詞從左至右來分詞。
[0037]例如:“不知道你在說什么”這句話采用正向最大匹配法是“不知道,你,在,說什么”。
[0038](2)反向最大匹配法:“不知道你在說什么”反向最大匹配法來分上面這段是“不,知道,你在,說,什么”,這個就分的比較多了,反向最大匹配法就是從右至左。
[0039](3)雙向最大匹配法:有一種特殊的情況,就是關鍵詞前后組合內容被認為粘性相差不大,而搜索結果中也同時包含這兩組詞的話,會進行正反向同時進行分詞匹配。
[0040](4)就是最短路徑分詞法:就是說一段話里面要求切出的詞數是最少的,“不知道你在說什么”最短路徑分詞法就是指,把上面那句話分成的詞要是最少的,“不知道,你在,說什么”,這就是最短路徑分詞法,分出來就只有3個詞了。
[0041]詞義分詞法:就是一種機器語音判斷的分詞方法。進行句法、語義分析,利用句法信息和語義信息來處理歧義現象來分詞,這種分詞方法,現在還不成熟,處在測試階段。
[0042]統計分詞法:根據詞組的統計,就會發現兩個相鄰的字出現的頻率最多,那么這個詞就很重要,就可以作為用戶提供字符串中的分隔符,這樣來分詞。比如,“我的,你的,許多的,這里,這一,那里”等等,這些詞出現的比較多,就從這些詞里面分開來。
[0043]第二步中對分詞后的搜索詞條和分伺候的搜索結果Di進行結果效用F計算,包括以下步驟:
[0044]步驟一:對分詞后的搜索詞條Q,抽取Ι-gram到N-gram,其中N-gram為有向序列的長度為N的有向子序列,I < N < 4且N為正整數。
[0045]例如,假設搜索詞條“全自動抹墻機/粉墻機設備”的分詞結果為“全自動抹墻機粉墻機設備”,則其包含的四個1-gram:全自動、抹墻機、粉墻機、設備,三個2-gram:全自動抹墻機、抹墻機粉墻機、粉墻機設備,兩個3-gram:全自動抹墻機粉墻機、抹墻機粉墻機設備,一個4-gram:全自動抹墻機粉墻機設備。
[0046]步驟二:對步驟一中從搜索詞條Q中抽取的每個1-gram、2-gram、3-gram與4-gram,分別在每個搜索結果01中進行字符串子串查找匹配,分別得到1-gram、2-gram、3-gram 與 4-gram 在詞頻,N-gram 的詞頻表示為 TF N_gram,TFN_gram =
TFN-gram-1+TFN-gram-2+......+TFN-gram-K+......+TFN_gram_K其中,I 彡 N 彡 4 ;R 為搜索詞條 Q 中 N-gram
的數目;N-gram-K表示第K個N-gram (I彡K彡R) ;TFN_gM_K表示第K個N-gram的匹配頻率。
[0047]步驟三:計算搜索詞條Q與搜索結果Di的結果效用F,F = D 產品成交次數/ (D ,的產品價格+ 1)* (145 - TF1^gram - TF2_gram - TF3^gram _ TF4_gram),其中屯的產品成交次數/ (D丨的產品價格+1)為搜索結果Di的標準化效用參數,145 - TF ^gram - TF2_gram - TF3^gram _ TF4_gran^搜索詞條Q相對于搜索結果Di的相關指數,TF步驟二中得到的詞頻。
[0048]上述的標準化效用參數體現了價格與信譽對產品效用的影響,上述相關指數體現了搜索詞條Q與搜索結果Di的相關程度。
[0049]本發明的排序方法排序準確度高,其針對“工業產品垂直搜索引擎”的數據特點提出,在“結果效用”的計算公式中“相關指數”體現了搜索詞條與搜索結果的相關程度,“標準化效用參數”體現了搜索結果本身的效用高低。按“結果效用”值對結果進行排序,可以保證相關程度高、且質量有保證的搜索結果排序靠前,即提高了排序準確度。
[0050]本發明的排序方法排序依據全面。如上所述,搜索結果依據“結果效用”排序,同時考慮了使用者的需求與搜索結果本身的數據質量(產品價格與信譽程度),排序靠前的結果擁有更高的綜合質量,而不是單方面的高指標。
[0051 ] 本發明的排序方法使用方便程度高。在本發明的支撐下,使用者在輸入搜索詞條后,不需要選擇額外的排序方式,而可以直接得到準確的搜索結果排序方式,操作更加簡單,使用更加方便。
[0052]對所公開的實施例的上述說明,使本領域專業技術人員能夠實現或使用本發明。對這些實施例的多種修改對本領域的專業技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發明的精神或范圍的情況下,在其它實施例中實現。因此,本發明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。
【主權項】
1.一種基于搜索結果效用分析的工業產品垂直搜索引擎排列技術,其特征在于,Q為搜索詞條,Di為第i個搜索結果,當Q有M條搜索結果時,O ( i ( M,所述垂直搜索引擎排列技術包括以下幾步: 第一步:對搜索詞條Q和搜索結果0,進行分詞; 第二步:對分詞后的搜索詞條和分詞后的搜索結果Di進行結果效用F計算,F = D ^勺產品成交次數/ (Di的產品價格+1) * (145 - TFw — TF2_gram - TF3_gram - TF4_gram),其中 -Di的產品成交次數/ (Di的產品價格+1)為搜索結果D i的標準化效用參數,145 - TF ^gram - TF2^graffl -TF3^gram - TF4_gM為搜索詞條Q相對于搜索結果D i的相關指數; 第三步:按照第二步中計算的結果效用F,對所有的搜索結果進行排列,結果效用F高的結果排序靠前,結果效用F低的結果排序靠后。
2.根據權利要求1所述的基于搜索結果效用分析的工業產品垂直搜索引擎排列技術,其特征在于,第二步中對分詞后的搜索詞條和分伺候的搜索結果Di進行結果效用F計算,包括以下步驟: 步驟一:對分詞后的搜索詞條Q,抽取Ι-gram到N-gram,其中N-gram為有向序列的長度為N的有向子序列,I < N < 4且N為正整數; 步驟二:對步驟一中從搜索詞條Q中抽取的每個1-gram、2-gram、3-gram與4-gram,分別在每個搜索結果Di*進行字符串子串查找匹配,分別得到1-gram、2-gram、3-gram與 4-gram 在 詞頻,N-gram 的詞頻表示為 TF N_gram,TFN_gram= TF N-gram-1+TFN_gram_2+......+TFN_gMm_K+……+TFN_gMrf其中,I彡N彡4 ;R為搜索詞條Q中N-gram的數目;N-gram_K表示第K個N-gram (I彡K彡R) ;TFN_gMm_K表示第K個N-gram的匹配頻率; 步驟三:計算搜索詞條Q與搜索結果Di的結果效用F,F = D 產品成交次數/(D ^勺產品價格+1)* (145 - TF1^gram - TF2_gram - TF3^gram _ TF4_gram),其中屯的產品成交次數/ (D丨的產品價格+1)為搜索結果Di的標準化效用參數,145 - TF ^gram - TF2^gram - TF3^gram _ TF4_gM為搜索詞條Q相對于搜索結果Di的相關指數,TF為步驟二中得到的詞頻。
3.根據權利要求1所述的基于搜索結果效用分析的工業產品垂直搜索引擎排列技術,其特征在于,第一步中的對搜索詞條Q和搜索結果01進行分詞包括以下形式:對搜索詞條Q和搜索結果Di同時進行分詞;將搜索結果D i先分詞并且存儲于數據庫中,搜索詞條Q在搜索時臨時分詞。
4.根據權利要求3所述的基于搜索結果效用分析的工業產品垂直搜索引擎排列技術,其特征在于,第一步中的分詞方法包括以下一種或幾種:字符串匹配分詞法、詞義分詞法和統計分詞法。
5.根據權利要求4所述的基于搜索結果效用分析的工業產品垂直搜索引擎排列技術,其特征在于,所述字符串匹配分詞法包括以下一種或幾種分詞法:正向最大匹配法、反向最大匹配法、雙向最大匹配法和最短路徑分詞法。
【專利摘要】本發明涉及一種基于搜索結果效用分析的工業產品垂直搜索引擎排列技術,Q為搜索詞條,Di為第i個搜索結果,當Q有M條搜索結果時,0≤i≤M,所述垂直搜索引擎排列技術包括以下幾步:對搜索詞條Q和搜索結果Di進行分詞;對分詞后的搜索詞條和分伺候的搜索結果Di進行結果效用F計算;按照結果效用F,對所有的搜索結果進行排列,結果效用F高的結果排序靠前,結果效用F低的結果排序靠后。本發明的方法通過對結果效用進行計算,并且按照結果效用對搜索結果進行排序,極大提高了搜索結果的相關程度,提高用戶體驗和排序的準確度。
【IPC分類】G06F17-30
【公開號】CN104794251
【申請號】CN201510256116
【發明人】張晶晶
【申請人】蘇州工訊科技有限公司
【公開日】2015年7月22日
【申請日】2015年5月19日