一種標簽提取方法及裝置的制造方法
【技術領域】
[0001 ]本發明屬于信息處理技術領域,尤其涉及一種標簽提取方法及裝置。
【背景技術】
[0002] 網上商城提供了從細小的生活用品到大且貴重的家電商品,極大地節省了消費者 的購物時間。在網購時,消費者主要通過商品評價來獲取商品的整體質量及其使用信息。當 產品評價越來越多時,消費者花費在瀏覽商品評價上的時間和精力也將增大,因此,必須對 商品評價進行挖掘。
[0003] 然而,消費者對商品的評價一般都是短而簡潔的,對這些評價進行標簽化屬于短 文本挖掘范疇。現有的標簽提取算法,比如基于TF*IDF、信息增益、卡方選擇等算法,均存在 以下不足:
[0004] 1.過于依賴評價信息文本的詞頻,對短文本的稀疏性問題解決不好;
[0005] 2.較多地依賴關鍵詞,對評鑒潛在的挖掘程度不夠;
[0006] 3.過多地依賴向量空間模型,對短文本的相似度計算不夠準確。
【發明內容】
[0007] 鑒于此,本發明實施例提供了一種標簽提取方法及裝置,解決了現有的標簽提取 算法對短文本稀疏性問題解決不夠好的問題,提高了計算商品評價的相似度的準確性和對 商品評價挖掘的程度。
[0008] 第一方面,提供了一種標簽提取方法,所述標簽提取方法包括:
[0009] 獲取商品的多個評價信息;
[0010] 按照預設的標簽語法規則提取每一個評價信息中的候選標簽;
[0011]通過潛在狄利克雷分配模型LDA對每一個候選標簽進行主題分析,獲取每一個候 選標簽對應的主題概率分布,所述主題概率分布包括該候選標簽隸屬于每一個指定主題的 概率;
[0012] 根據所述主題概率分布確定每一個指定主題對應的候選標簽集,根據所述候選標 簽集中每一個候選標簽的權重值確定所述指定主題對應的代表標簽;
[0013] 其中,所述權重值是根據所述候選標簽集的所述候選標簽數量以及每一個所述候 選標簽隸屬于每個所述指定主題的概率計算得出的。
[0014] 第二方面,提供了一種標簽提取裝置,所述標簽提取裝置包括:
[0015] 獲取模塊,用于獲取商品的多個評價信息;
[0016] 提取模塊,用于按照預設的標簽語法規則提取每一個評價信息中的候選標簽;
[0017] 主題分析模塊,用于通過潛在狄利克雷分配模型LDA對每一個候選標簽進行主題 分析,獲取每一個候選標簽對應的主題概率分布,所述主題概率分布包括該候選標簽隸屬 于每一個指定主題的概率;
[0018] 代表標簽確定模塊,用于根據所述主題概率分布確定每一個指定主題對應的候選 標簽集,根據所述候選標簽集中每一個候選標簽的權重值確定所述指定主題對應的代表標 簽。
[0019] 與現有技術相比,本發明實施例通過獲取商品的多個評價信息,按照預設的標簽 語法規則提取每一個評價信息中的候選標簽;通過潛在狄利克雷分配模型LDA對每一個候 選標簽進行主題分析,獲取每一個候選標簽對應的主題概率分布,所述主題概率分布包括 該候選標簽隸屬于每一個指定主題的概率;然后根據所述主題概率分布確定每一個指定主 題對應的候選標簽集,根據所述候選標簽集中每一個候選標簽的權重值確定所述指定主題 對應的代表標簽。從而解決了現有的標簽提取算法對短文本稀疏性問題解決不夠好的問 題,避免了對文本詞頻的依賴和對向量空間模型的依賴,有效地提高了計算商品評價的相 似度的準確性和對商品評價挖掘的程度。
【附圖說明】
[0020] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的一些實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可以 根據這些附圖獲得其他附圖。
[0021 ]圖1是本發明實施例提供的標簽提取方法的實現流程圖;
[0022] 圖2是本發明實施例提供的標簽提取方法中步驟S102的實現流程圖;
[0023] 圖3是本發明實施例提供的標簽提取方法中步驟S203的實現流程圖;
[0024]圖4是本發明另一實施例提供的標簽提取方法中步驟S102的實現流程圖;
[0025] 圖5是本發明實施例提供的標簽提取方法中步驟S104的實現流程圖;
[0026] 圖6是本發明實施例提供的標簽提取裝置的組成結構圖。
【具體實施方式】
[0027] 為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對 本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并 不用于限定本發明。
[0028] 本發明實施例通過獲取商品的多個評價信息,按照預設的標簽語法規則提取每一 個評價信息中的候選標簽;通過潛在狄利克雷分配模型LDA對每一個候選標簽進行主題分 析,獲取每一個候選標簽對應的主題概率分布,所述主題概率分布包括該候選標簽隸屬于 每一個指定主題的概率;然后根據所述主題概率分布確定每一個指定主題對應的候選標簽 集,根據所述候選標簽集中每一個候選標簽的權重值確定所述指定主題對應的代表標簽, 其中,所述權重值是根據所述候選標簽集的所述候選標簽數量以及每一個所述候選標簽隸 屬于每個所述指定主題的概率計算得出的。從而解決了現有的標簽提取算法對短文本稀疏 性問題解決不夠好的問題,避免了對文本詞頻的依賴和對向量空間模型的依賴,有效地提 高了計算商品評價的相似度的準確性和對商品評價挖掘的程度。本發明實施例還提供了相 應的裝置,以下分別進行詳細的說明。
[0029] 圖1示出了本發明實施例提供的標簽提取方法的實現流程。
[0030] 參閱圖1,所述標簽提取方法包括:
[0031] 在步驟S101中,獲取商品的多個評價信息。
[0032] 在這里,所述商品為在電子商務網站上銷售且累計了大量商品評價的商品。可選 地,可以采用對京東商城、國美電器、蘇寧易購、天貓商城等大型購物網站上的商品評論集 中進行爬取,得到指定商品的多個評價信息。對得到的多個評價信息進行清洗,以剔除無效 的評價信息,比如純符號、純數字等的評價信息,將清洗后的評價信息按字段存入數據庫, 得到評價語料庫。
[0033]在步驟S102中,按照預設的標簽語法規則提取每一個評價信息中的候選標簽。
[0034] 由于每一個評價信息中可能包括對產品的多個方面的評價,比如產品的具體功 能、部件和性能的評價。本發明實施例根據對大量評價語料庫的總結分析,得到預設的標簽 語法規則,通過所述預設的標簽語法規則來提取每一個評價信息中的候選標簽。
[0035] 作為本發明的一個優選示例,圖2示出了本發明實施例提供的標簽提取方法中步 驟S102的具體實現流程。
[0036] 參閱圖2,所述步驟S102包括:
[0037] 步驟S201,對所述評價信息中的每一個評價信息進行預處理,所述預處理包括分 詞處理以及詞性標注。
[0038]在得到評價語料庫后,進一步對語料庫中的評價信息進行分詞處理以及詞性標 注,比如標注評價信息中的每一個詞語是名詞、形容詞還是助動詞等。
[0039] 可選地,分詞處理可采用IKAnalyzer中文分詞系統、庖丁中文分詞系統或者 ICTCLAS分詞系統,優選采用ICTCLAS分詞系統進行分詞處理。
[0040] 步驟S202,根據預設的標簽語法規則對預處理后的評價信息進行分析,獲取每一 個評價信息中的候選標簽。
[0041] 示例性地,所述預設的標簽語法規則包括但不限于以下兩種:
[0042] 句式1:(屬性)+ (否定詞)+ (程度副詞)+情感詞
[0043] 句式2:(屬性)+ (程度副詞)+ (否定詞)+情感詞
[0044] 根據上述標簽語法規則分析預處理后的評價信息,提取每一個評價信息中的候選 標簽,得到所述評價信息對應的候選標簽集合,即
[0045] L= {Lj | Lj = {lji,......,ljk}}
[0046] 在這里,表示第j個評價信息中所提起的候選標簽的集合,ljk表示第j個評價信 息中提取的第k個候選標簽。
[0047]為了便于理解,下述表1示出了候選標簽的提取示例。
[0048]
[0049] 表 1
[0050] 步驟S203,根據詞語的語義相似度對所述候選標簽進行語