專利名稱:一種挖掘同義屬性詞的方法和裝置的制作方法
一種挖掘同義屬性詞的方法和裝置
技術領域:
本發明涉及計算機技術領域,特別涉及一種挖掘同義屬性詞的方法和裝置。
背景技術:
隨著網絡技術的不斷發展,搜索引擎已經成為人們獲取信息的重要途徑,用戶通過在搜索引擎中輸入搜索詞(query),獲取搜索引擎針對該query返回的搜索結果。為了有針對性地向用戶返回搜索結果,需要對query進行需求分析,其中實體屬性是分析用戶需求的基礎,同時也使實現結構化搜索(垂直搜索)的基礎。即從query中分析出實體詞和屬性詞,例如對于“劉德華身高是多少”的query,分析出其實體詞為“劉德華”,屬性詞為“身高”,這樣就能夠通過結構化搜索返回用戶想知道的劉德華身高的具體信息。在實體屬性的識別過程中,實體詞和屬性詞分別通過預設的實體詞詞典和屬性詞詞典進行匹配識別,然而,通常實體詞的表述比較唯一和固定,而屬性詞則可能存在不同的表述形式,通常屬性詞詞典中包含的是標準化的表述形式,對于其他的同義屬性詞則通過人工的方式添加或者結合同義詞詞庫添加,人工添加的方式耗費人力資源、效率較低且召回率較低;結合同義詞詞典 的方式,同樣存在召回率較低的問題,例如,對于某些同義詞詞典中所沒有的口語化的表述“有多高”、“個頭”等同義屬性詞都無法召回。
發明內容本發明提供了一種挖掘同義屬性詞的方法和裝置,以便于節約人力資源、提高效率和召回率。具體技術方案如下:—種挖掘同義屬性詞的方法,該方法包括:S1、獲取 query 集合;S2、基于已有的實體詞詞典和屬性詞詞典對query集合中的各query進行結構化解析,抽取出標準query,未抽取出標準query的query作為非標準query,所述標準query由實體詞和屬性詞的組合構成;S3、針對每一個標準query分別執行步驟S31至步驟S32:S31、計算各非標準query與當前標準query的點擊相似度,確定點擊相似度滿足預設相似度要求且與當前標準query具有相同實體詞的非標準query ;S32、將所述步驟S31確定的非標準query中去除與當前標準query相同的實體詞后,對剩余的詞語進行過濾處理得到候選同義屬性詞;S33、基于候選同義屬性詞與當前標準query中屬性詞的共現頻度占比、點擊相似度以及字面相似度中的至少一種,對各候選同義屬性詞進行打分,獲取打分值滿足預設分值要求的候選同義屬性詞作為當前標注query中屬性詞的同義屬性詞。根據本發明一優選實施例,該方法還包括:確定所述query集合中各query的點擊向量,所述query的點擊向量由query對應的被點擊url以及各被點擊url的點擊權重構成;所述步驟S31中計算非標準query與當前標準query的點擊相似度為:計算非標準query的點擊向量與當前標準query的點擊向量的余弦相似度。根據本發明一優選實施例,queryi的點擊向量中Urlj的點擊權重Wij為:
權利要求
1.一種挖掘同義屬性詞的方法,其特征在于,該方法包括: 51、獲取query集合; 52、基于已有的實體詞詞典和屬性詞詞典對query集合中的各query進行結構化解析,抽取出標準query,未抽取出標準query的query作為非標準query,所述標準query由實體詞和屬性詞的組合構成; 53、針對每一個標準query分別執行步驟S31至步驟S32: 531、計算各非標準query與當前標準query的點擊相似度,確定點擊相似度滿足預設相似度要求且與當前標準query具有相同實體詞的非標準query ; 532、將所述步驟S31確定的非標準query中去除與當前標準query相同的實體詞后,對剩余的詞語進行過濾處理得到候選同義屬性詞; 533、基于候選同義屬性詞與當前標準query中屬性詞的共現頻度占比、點擊相似度以及字面相似度中的至少一種,對各候選同義屬性詞進行打分,獲取打分值滿足預設分值要求的候選同義屬性詞作為當前標注query中屬性詞的同義屬性詞。
2.根據權利要求1所 述的方法,其特征在于,該方法還包括:確定所述query集合中各query的點擊向量,所述query的點擊向量由query對應的被點擊urI以及各被點擊urI的點擊權重構成; 所述步驟S31中計算非標準query與當前標準query的點擊相似度為:計算非標準query的點擊向量與當前標準query的點擊向量的余弦相似度。
3.根據權利要求2所述的方法,其特征在于,queryi的點擊向量中的點擊權重Wij為:
4.根據權利要求2或3所述的方法,其特征在于,所述步驟S2之前還包括:對所述query集合進行剪枝處理得到有效query,其中所述剪枝處理采用以下剪枝策略中的至少一種: 剪枝策略1:過濾掉搜索次數低于預設搜索次數閾值的query ; 剪枝策略2:過濾掉對應url的點擊總次數低于預設點擊次數閾值的query ;以及, 剪枝策略3:將各query的點擊向量中,點擊權重低于預設權重閾值的url及對應點擊權重過濾掉; 在所述步驟S2中對各有效query進行結構化解析,抽取出標準query,未抽取出標準query的有效query作為非標準query。
5.根據權利要求1所述的方法,其特征在于,在所述步驟S2中對query進行結構化解析具體為: 判斷query中是否同時具有實體詞詞典中的實體詞以及屬性詞詞典中的屬性詞,如果是,則抽取出該query中具有實體詞和屬性詞構成標準query ;否則該query為非標準queryο
6.根據權利要求1所述的方法,其特征在于,所述步驟S32中的過濾處理包括以下過濾處理中的至少一種: 過濾掉停用詞; 過濾掉帶有數字類信息的詞語;以及, 過濾掉表意求取資源的詞語。
7.根據權利要求1所述的方法,其特征在于,所述步驟S33中,候選同義屬性詞與當前標準query中屬性詞的共現頻度占比為co_tf與ttf的比值; 其中所述co_tf為候選同義屬性詞與當前標準query中屬性詞在大規模語料中的共現次數,所述ttf為各候選同義屬性詞與當前標準query中屬性詞在大規模語料中的共現次數之和。
8.根據權利要求1所述的方法,其特征在于,所述步驟S33中,候選同義屬性詞與當前標準query中屬性詞的點擊相似度為:當前標準query與包含該候選同義屬性詞的所有非標準query的點擊相似度的平均值。
9.根據權利要求1所述的方法,其特征在于,所述步驟S33中,候選同義屬性詞與當前標準query中屬性詞的字面相似度為:該候選同義屬性詞和當前標準query中具有相同字的數目與該候選同義屬性詞和當前標準query具有的所有字的數目的比值。
10.根據權利要求7所述的方法,其特征在于,在所述步驟S33之前還包括: 判斷當前標準query的屬性詞對應的所有候選同義屬性詞的co_tf之和與ttf之和的比例是否小于 預設的比例閾值,如果是,則不執行所述步驟S33;否則,繼續執行所述步驟S33 ;或者, 判斷標準query的屬性詞的ttf是否大于預設的ttf閾值,如果是,則不執行所述步驟S33 ;否則繼續執行所述步驟S33。
11.一種挖掘同義屬性詞的裝置,其特征在于,該裝置包括: 數據獲取單元,用于獲取query集合; 結構化解析單元,用于基于已有的實體詞詞典和屬性詞詞典對query集合中的各query進行結構化解析,抽取出標準query,未抽取出標準query的query作為非標準query,所述標準query由實體詞和屬性詞的組合構成; 數據抽取單元,用于分別將各標準query作為當前標準query執行:計算各非標準query與當前標準query的點擊相似度,確定點擊相似度滿足預設相似度要求且與當前標準query具有相同實體詞的非標準query ; 候選詞抽取單元,用于將所述數據抽取單元確定的非標準query中去除與當前標準query相同的實體詞后,對剩余的詞語進行過濾處理得到候選同義屬性詞; 同義詞抽取單元,用于基于候選同義屬性詞與當前標準query中屬性詞的共現頻度占t匕、點擊相似度以及字面相似度中的至少一種,對各候選同義屬性詞進行打分,獲取打分值滿足預設分值要求的候選同義屬性詞作為當前標注query中屬性詞的同義屬性詞。
12.根據權利要求11所述的裝置,其特征在于,該裝置還包括: 向量確定單元,用于確定所述query集合中各query的點擊向量并提供給所述數據抽取單元,所述query的點擊向量由query對應的被點擊url以及各被點擊url的點擊權重構成; 所述數據抽取單元在計算非標準query與當前標準query的點擊相似度時,計算非標準query的點擊向量與當前標準query的點擊向量的余弦相似度。
13.根據權利要求12所述的裝置,其特征在于,query,的點擊向量中的點擊權重Wij 為:
14.根據權利要求12或13所述的裝置,其特征在于,該裝置還包括: 剪枝處理單元,用于對所述query集合進行剪枝處理得到有效query,并將有效query提供給所述結構化解析單元,其中所述剪枝處理采用以下剪枝策略中的至少一種: 剪枝策略1:過濾掉搜索次數低于預設搜索次數閾值的query ; 剪枝策略2:過濾掉對應url的點擊總次數低于預設點擊次數閾值的query ;以及, 剪枝策略3:將各query的點擊向量中,點擊權重低于預設權重閾值的url及對應點擊權重過濾掉; 所述結構化解析單元對各有效query進行結構化解析,抽取出標準query,未抽取出標準query的有效query作為非標準query。
15.根據權利要求11所述`的裝置,其特征在于,所述結構化解析單元對query進行結構化解析時,具體判斷query中是否同時具有實體詞詞典中的實體詞以及屬性詞詞典中的屬性詞,如果是,則抽取出該query中具有實體詞和屬性詞構成標準query ;否則該query為非標準query。
16.根據權利要求11所述的裝置,其特征在于,所述候選詞抽取單元執行以下過濾處理中的至少一種: 過濾掉停用詞; 過濾掉帶有數字類信息的詞語;以及, 過濾掉表意求取資源的詞語。
17.根據權利要求11所述的裝置,其特征在于,該裝置還包括: 第一計算單元,用于計算co_tf與ttf的比值,將該比值確定為候選同義屬性詞與當前標準query中屬性詞的共現頻度占比; 其中所述co_tf為候選同義屬性詞與當前標準query中屬性詞在大規模語料中的共現次數,所述ttf為各候選同義屬性詞與當前標準query中屬性詞在大規模語料中的共現次數之和。
18.根據權利要求11所述的裝置,其特征在于,該裝置還包括: 第二計算單元,用于計算當前標準query與包含該候選同義屬性詞的所有非標準query的點擊相似度的平均值,將該平均值確定為候選同義屬性詞與當前標準query中屬性詞的點擊相似度。
19.根據權利要求11所述的裝置,其特征在于,該裝置還包括: 第三計算單元,用于計算候選同義屬性詞和當前標準query中具有相同字的數目與該候選同義屬性詞和當前標準query具有的所有字的數目的比值,將該比值確定為該候選同義屬性詞與當前標準query中屬性詞的字面相似度。
20.根據權利要求17所述的裝置,其特征在于,該裝置還包括第一判斷單元和第二判斷單元中的至少一種; 所述第一判斷單元,用于判斷當前標準query的屬性詞對應的所有候選同義屬性詞的co_tf之和與ttf之和的比例是否小于預設的比例閾值,如果是,禁止所述同義詞抽取單元對當前標準query執行操作;否則,觸發所述同義詞抽取單元對當前標準query執行操作;所述第二判斷單元,用于判斷標準query的屬性詞的ttf是否大于預設的ttf閾值,如果是,禁止所述同義詞抽取單元對當前標準query執行操作;否則,觸發所述同義詞抽取單元對當前標準query執 行操作。
全文摘要
本發明提供了一種挖掘同義屬性詞的方法和裝置,其中方法包括基于已有的實體詞詞典和屬性詞詞典對query集合中的各query進行結構化解析,抽取出標準query,標準query由實體詞和屬性詞的組合構成;針對每一個標準query分別計算各非標準query與當前標準query的點擊相似度,確定點擊相似度滿足預設相似度要求且與當前標準query具有相同實體詞的非標準query;將確定的非標準query中去除與當前標準query相同的實體詞后,得到候選同義屬性詞;對各候選同義屬性詞進行打分,基于打分值確定當前標注query中屬性詞的同義屬性詞。本發明能夠節約人力資源、提高效率和召回率。
文檔編號G06F17/27GK103106189SQ201110358740
公開日2013年5月15日 申請日期2011年11月11日 優先權日2011年11月11日
發明者陳慶軒, 李皛皛 申請人:北京百度網訊科技有限公司