流方 面,主題2主要涉及質量方面,主題3主要涉及服務方面,其他主題涉及價格方面、性價比方 面、分辨率方面等,此處不全部列舉。
[0093]在計算權重值時,對于每一個指定主題對應的候選標簽集,按照預設的權重計算 公式計算候選標簽集中每一個候選標簽對應的權重值。比如,對于主題1,則分別計算其所 包括的34個候選標簽對應的權重值;對于主題2,則分別計算其所包括的265個候選標簽對 應的權重值,以此類推。
[0094]在這里,W1和W2由用戶按需設置。
[0095] 示例性地,假設町取1,《2取0.5,則候選標簽"物流很快P"的權重值為:
[0096]
[0097] 候選標簽"做工比較粗糙N"的權重值為:
[0098]
[0099] 在得到每一個指定主題所包括的候選標簽對應的權重值后,對所述權重值按從大 到小進行排序,并選取權重值最大的候選標簽作為該指定主題的代表標簽。
[0100] 可選地,在步驟S104獲取到每一個指定主題的代表標簽后,對所述代表標簽統一 進行可視化展示。示例性地,表4給出了 W1 = 1,W2 = 0.5時提取所得到的代表標簽。表5給出了 wi = 1,W2 = 0.02時提取所得到的代表標簽。
[0101]
[I
[I
[0104] 表5
[0105] 綜上所述,本發明實施例通過獲取商品的多個評價信息,按照預設的標簽語法規 則提取每一個評價信息中的候選標簽;通過潛在狄利克雷分配模型LDA對每一個候選標簽 進行主題分析,獲取每一個候選標簽對應的主題概率分布,所述主題概率分布包括該候選 標簽隸屬于每一個指定主題的概率;然后根據所述主題概率分布確定每一個指定主題對應 的候選標簽集,根據所述候選標簽集中每一個候選標簽的權重值確定所述指定主題對應的 代表標簽。從而解決了現有的標簽提取算法對短文本稀疏性問題解決不夠好的問題,避免 了對文本詞頻的依賴和對向量空間模型的依賴,有效地提高了計算商品評價的相似度的準 確性和對商品評價挖掘的程度。
[0106] 圖6示出了本發明實施例提供的標簽提取裝置的組成結構,為了便于說明,僅示出 了與本發明實施例相關的部分。
[0107] 在這里,所述標簽提取裝置用于實現上述圖1至圖5任一實施例中所述的標簽提取 方法,可以是內置于終端設備的軟件單元、硬件單元或者軟硬件結合的單元。所述終端設備 優選為計算機。
[0108] 參閱圖6,所述標簽提取裝置包括:
[0109] 獲取模塊61,用于獲取商品的多個評價信息。
[0110] 提取模塊62,用于按照預設的標簽語法規則提取每一個評價信息中的候選標簽。
[0111] 主題分析模塊63,用于通過潛在狄利克雷分配模型LDA對每一個候選標簽進行主 題分析,獲取每一個候選標簽對應的主題概率分布,所述主題概率分布包括該候選標簽隸 屬于每一個指定主題的概率。
[0112] 代表標簽確定模塊64,用于根據所述主題概率分布確定每一個指定主題對應的候 選標簽集,根據所述候選標簽集中每一個候選標簽的權重值確定所述指定主題對應的代表 標簽。
[0113] 進一步地,所述提取模塊62包括:
[0114] 預處理單元621,用于對所述評價信息中的每一個評價信息進行預處理,所述預處 理包括分詞處理以及詞性標注。
[0115]第一獲取單元622,用于根據預設的標簽語法規則對預處理后的評價信息進行分 析,獲取每一個評價信息中的候選標簽。
[0116]去重處理單元623,用于根據詞語的語義相似度對所述候選標簽進行語義去重處 理。
[0117] 進一步地,所述提取模塊62還包括:
[0118] 第二獲取單元624,用于獲取每一個候選標簽對應的情感傾向信息,并將所述情感 傾向信息添加至所述候選標簽中。
[0119] 在這里,通過增加情感傾向信息,以情感傾向信息作為特征詞語來進行相似度計 算,能夠進一步提高去重處理單元623中計算候選標簽的語義的相似度的準確性,以及提高 主題分析模塊63中進行主題分析的準確性。
[0120] 進一步地,所述去重處理單元623具體用于:
[0121] 按照預設的語義詞典計算所述候選標簽中的屬性詞語的相似度和特征詞語的相 似度;
[0122] 對所述候選標簽中屬性詞語的相似度和特征詞語的相似度均大于預設閾值的候 選標簽進行去重處理。
[0123] 進一步地,所述潛在狄利克雷分配模型LDA以候選標簽作為文檔,并且是長度較短 的文檔。然而短文檔的LDA應用會產生稀疏性的問題,鑒于此,在本發明實施例中,所述潛在 狄利克雷分配模型LDA通過計算候選標簽中單個字的主題概率分布,即以候選標簽中的每 一個字作為詞語,來將該候選標簽映射到不同的指定主題,獲取該候選標簽隸屬于每一個 指定主題的概率,從而得到該候選標簽的主題概率分布,從而無需依賴文本的詞頻,有效地 解決了短文本的稀疏性問題。
[0124] 進一步地,所述代表標簽確定模塊64包括:
[0125] 隸屬主題選取單元641,用于針對每一個候選標簽,獲取該候選標簽對應的主題概 率分布中的概率最大值,以該概率最大值對應的指定主題作為所述候選標簽的隸屬主題, 并統計每一個指定主題所包括的候選標簽,得到對應的候選標簽集。
[0126] 代表標簽選取單元642,用于針對每一個指定主題對應的候選標簽集,按照預設的 權重計算公式計算所述候選標簽集中每一個候選標簽對應的權重值,并選取權重值最大的 候選標簽作為所述指定主題的代表標簽。
[0127] 在這里,所述權重計算公式為:
[0128]
[0129] 其中,U表示第i個指定主題;1#表示第j個評價信息中的第k個候選標簽;Wight (ljk-表示候選標簽1#在指定主題t下的權重值;P(ti | ljk)表示權重置信度;| Lt |表示 隸屬于主題t的候選標簽的個數;|L|表示候選標簽的總個數;奶表示置信度的權重系數,且 0仝W1< 1;W2表示支持度的權重系數,且0<W2仝1。
[0130] 通過步驟S502確定的隸屬于一個指定主題的候選標簽的權重值表示了該候選標 簽在該指定主題中的重要程度。在按照預設的權重計算公式計算指定主題所包括的每一個 候選標簽對應的權重值后,選取權重值最大的候選標簽作為所述指定主題的代表標簽,即 以重要程度最大的候選標簽作為該指定主題的代表標簽。所述代表標簽集中反應了消費者 對某一種產品的某一個方面的關注點,能夠幫助企業了解在售商品的口碑信息,進行口碑 分析,發現商品的優勢和不足,并及時作出相應的措施以改進產品,提高企業自身的競爭 力。
[0131]需要說明的是,本發明實施例中的裝置可以用于實現上述方法實施例中的全部技 術方案,其各個功能模塊的功能可以根據上述方法實施例中的方法具體實現,其具體實現 過程可參照上述實例中的相關描述,此處不再贅述。
[0132] 本發明實施例通過獲取商品的多個評價信息,按照預設的標簽語法規則提取每一 個評價信息中的候選標簽;通過潛在狄利克雷分配模型LDA對每一個候選標簽進行主題分 析,獲取每一個候選標簽對應的主題概率分布,所述主題概率分布包括該候選標簽隸屬于 每一個指定主題的概率;然后根據所述主題概率分布確定每一個指定主題對應的候選標簽 集,根據所述候選標簽集中每一個候選標簽的權重值確定所述指定主題對應的代表標簽; 從而解決了現有的標簽提取算法對短文本稀疏性問題解決不夠好的問題,避免了對文本詞 頻的依賴和對向量空間模型的依賴,有效地提高了計算商品評價的相似度的準確性和對商 品評價挖掘的程度。
[0133] 本領域普通技術人員可以意識到,結合本文中所公開的實施例描述的各示例的單 元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結合來實現。這些功能究竟 以硬件還是軟件方式來執行,取決于技術方案的特定應用和設計約束條件。專業技術人員 可以對每個特定的應用來使用不同方法來實現所描述的功能,但是這種實現不應認為超出 本發明的范圍。
[0134] 所屬領域的技術人員可以清楚地了解到,為描述的方便和簡潔,上述描述的裝置 和單元的具體工作過程,可以參考前述方法實施例中的對應過程,在此不再贅述。
[0135] 在本申請所提供的幾個實施例中,應該理解到,所揭露的標簽提取裝置和方法,可 以通過其它的方式實現。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述模塊、 單元的劃分,僅僅為一