本發明屬于自然語言處理領域,具體的說是一種面向在線社區評論文本情感分析方法。
背景技術:
1、隨著互聯網和社交媒體的快速發展,用戶在各種在線社區中發布了大量評論。這些評論蘊含了對產品、服務、事件等的情感信息,分析這些情感信息在市場調研、品牌管理和輿情監控等方面具有重要的應用價值。然而,現有的情感分析技術仍存在一些不足。盡管深度學習模型在情感分析中表現較好,但仍面臨特征提取不足和復雜情感信息捕捉困難等問題。這些問題導致現有的情感分析方法在處理在線社區評論文本時效率低下,難以準確捕捉復雜情感信息。
技術實現思路
1、本發明是為了解決上述現有技術存在的不足之處,提出一種面向在線社區評論文本的情感分析方法,以期望能夠更準確和高效地分析評論文本中的情感信息,從而提升情感分析的效果和可靠性。
2、本發明為達到上述發明目的,采用如下技術方案:
3、本發明一種面向在線社區評論文本的情感分析方法的特點在于,是按如下步驟進行:
4、步驟1、獲取在線社區文本情感的數據集,并對數據集進行預處理,得到預處理后的數據集d={(x1,y1),(x2,y2),...,(xk,yk),...,(xm,ym)},其中,xk表示預處理后的第k個文本樣本;yk表示xk對應的情感標簽,m表示數據集d中文本樣本的總數,共有r個情感分類;
5、步驟2、構建情感分類模型,并對xk進行處理,得到第k個文本樣本xk的概率分數pk;
6、步驟3、情感分類模型的訓練:
7、步驟3.1、利用式(4)構造損失函數l:
8、
9、式(4)中,r是情感標簽的類別數,yk,r是yk為第r個類別的概率;
10、步驟3.2、利用梯度下降法對情感分類模型進行訓練,并計算所述損失函數l,直到所述損失函數l收斂或者訓練達到最大迭代次數為止,從而獲得最優情感分類模型,用于對輸入的在線社區評論文本輸出其對應的情感類型。
11、本發明所述的一種面向在線社區評論文本的情感分析方法的特點也在于,所述步驟2中的情感分類模型包括:預訓練層、局部特征提取層、最大池化層、全局特征提取層、自注意力層、特征融合層、全連接和分類層;
12、步驟2.1、所述預訓練層采用預訓練后的語言模型ernie對xk進行向量化,得到第k個文本樣本xk的上下文語義向量序列sk={s1,k,s2,k...,si,k,…,sn,k},其中,si,k表示第k個文本樣本xk的第i個詞的上下語義向量;n表示第k個文本樣本xk的上下語義向量總數;
13、步驟2.2、所述局部特征提取層使用cnn模型對sk進行處理,得到第k個文本樣本xk的局部特征向量fk={f1,k,f2,k,...,fi,k,…,fn,k},其中,fi,k表示si,k的局部特征;
14、步驟2.3、所述最大池化層使用最大池化操作對fk進行處理,得到第k個池化特征向量其中,表示fi,k的池化特征;
15、步驟2.4、所述全局特征提取層使用bilstm模型對sk進行處理,得到第k個文本樣本xk的全局特征向量hk={h1,k,h2,k,...,hi,k,…,hn,k},其中,hi,k表示fi,k的全局特征;
16、步驟2.5、所述自注意力層使用多頭自注意力機制對hk進行處理,得到第k個多頭注意力特征向量zk={z1,k,z2,k,...,zi,k,…,zn,k},其中,zi,k表示fi,k的多頭注意力特征;
17、步驟2.6、所述特征融合層對zk和進行連接,得到第k個拼接特征向量ck={c1,k,c2,k,...,ci,k,…,cn,k},其中,ci,k表示fi,k的拼接特征;
18、步驟2.7、所述全連接層利用式(1)對ck進行線性變換,得到第k個線性特征向量其中,表示ci,j的線性特征;
19、
20、式(6)中,wc表示所述全連接層的權重,bc表示所述全連接層的偏置;
21、所述全連接層利用式(2)對向量進行非線性激活,得到第k個非線性激活后的特征向量uk={u1,k,u2,k,...,ui,k,…,un,k},其中,ui,k表示第i個非線性激活后的特征;
22、
23、式(7)中,relu表示非線性激活函數;
24、步驟2.8、所述分類層利用式(3)對uk進行分類,得到第k個文本樣本xk的類別分數ek={e1,k,e2,k,...,ei,k,…,en,k},其中,ei,k表示第k個文本樣本xk的第i個特征向量對應的類別概率分數;
25、ek=we·uk+be??(3)
26、式(8)中,we表示所述分類層的權重,be表示所述分類層的偏置;
27、所述分類層使用softmax函數對ek進行轉換,得到第k個文本樣本xk的概率分數pk=[pk,1,pk,2,...,pk,r,…,pk,r],其中,pk,r表示xk屬于第r個類別的概率。
28、本發明一種電子設備,包括存儲器以及處理器的特點在于,所述存儲器用于存儲支持處理器執行所述情感分析方法的程序,所述處理器被配置為用于執行所述存儲器中存儲的程序。
29、本發明一種計算機可讀存儲介質,計算機可讀存儲介質上存儲有計算機程序的特點在于,所述計算機程序被處理器運行時執行所述情感分析方法的步驟。
30、與現有技術相比,本發明的有益效果在于:
31、1、本發明采用了將ernie模型和cnn和bilstm模型結合的創新方法,以提高在線社區評論文本情感分析的效果,ernie模型能夠更準確地捕捉文本中的語義關系,特別是對多義詞和語境相關的詞匯有更好的處理能力,而引入的cnn模型能夠有效地提取局部特征,bilstm模型則能夠記憶和處理長距離依賴關系,兩者結合能夠提供更全面的特征表示。本發明通過結合這三種模型,不僅提高了情感分類的準確性,而且增強了模型的特征表達能力,從而實現了更高效和更精準的情感分析。
32、2、本發明增強了特征表達能力以實現高效情感分類,在自注意力層中引入多頭注意力機制,并將融合后的特征輸入全連接層進行線性變換和非線性激活,最終通過分類層進行情感分類通過這種綜合處理方法,增強了模型對文本情感的識別能力,提高了情感分類的準確性和精度,并提升了情感分類的效率,能夠處理復雜的情感分類任務。
1.一種面向在線社區評論文本的情感分析方法,其特征在于,是按如下步驟進行:
2.根據權利要求1所述的一種面向在線社區評論文本的情感分析方法,其特征在于,所述步驟2中的情感分類模型包括:預訓練層、局部特征提取層、最大池化層、全局特征提取層、自注意力層、特征融合層、全連接和分類層;
3.一種電子設備,包括存儲器以及處理器,其特征在于,所述存儲器用于存儲支持處理器執行權利要求1或2所述情感分析方法的程序,所述處理器被配置為用于執行所述存儲器中存儲的程序。
4.一種計算機可讀存儲介質,計算機可讀存儲介質上存儲有計算機程序,其特征在于,所述計算機程序被處理器運行時執行權利要求1或2所述情感分析方法的步驟。