本技術涉及涉及自然語言處理,具體涉及一種輿情文本新技術詞發現方法和相關設備。
背景技術:
1、隨著互聯網的發展和普及,越來越多的人通過互聯網平臺來獲取和分享相關行業或領域的信息和觀點,例如,人們可以通過論壇、社交媒體、新聞媒體、博客、微博等分享自己在相關行業或相關領域的經驗、問題、求助信息等,這會涉及到大量的技術詞匯,而這些技術詞匯往往也代表著人們的關注維度,為促進相關行業或領域的技術發展,可以通過文本挖掘以進行新技術詞發現來了解人們關注的技術維度,從而了解技術發展趨勢或為從業者提供更好、更準確的技術支持等。
2、相關技術中在進行新技術詞發現時,通常是基于統計的方法進行的,基于統計的方法是通過利用各種統計策略來提取新技術詞,其需要大規模語料進行訓練,存在數據稀疏和準確率低的問題。因此,相關技術中,亟需提供一種輿情文本新技術詞發現方法,以提高輿情文本新技術詞發現的準確性。
技術實現思路
1、有鑒于此,本說明書多個實施方式致力于提供一種輿情文本新技術詞發現方法和相關設備,以提高輿情文本新技術詞發現的準確性。
2、本說明書實施方式提供一種輿情文本新技術詞發現方法,所述方法包括:獲取待發現的輿情文本和舊技術詞詞庫;將所述輿情文本輸入至技術詞實體提取模型,得到所述輿情文本的技術詞實體提取結果;其中,所述技術詞實體提取結果包括技術詞實體;所述技術詞實體提取模型基于標注有技術詞標簽的技術詞實體標注數據對通用信息抽取模型進行模型訓練預先得到;分別對所述舊技術詞詞庫中的舊技術詞和所述技術詞實體進行向量化,得到所述舊技術詞的舊詞向量和所述技術詞實體的實體向量;在所述舊詞向量與所述實體向量之間的余弦相似度大于等于第一相似度閾值,且所述舊技術詞與所述技術詞實體之間的編輯距離相似度大于等于第二相似度閾值的情況下,確定所述技術詞實體是所述舊技術詞的近義詞;根據所述近義詞對所述技術詞實體提取結果進行語義相似度去重,以得到新技術詞提取結果。
3、在一些實施方式中,所述技術詞實體提取結果還包括所述技術詞實體的置信度,所述置信度表示所述技術詞實體的可靠程度;所述根據所述近義詞對所述技術詞實體提取結果進行語義相似度去重,包括:基于所述技術詞實體提取結果確定技術詞實體集合;其中,所述技術詞實體集合包括所述技術詞實體提取結果中置信度大于等于置信度閾值的技術詞實體;其中,所述近義詞是基于所述技術詞實體集合中的技術詞實體確定的;根據所述近義詞對所述技術詞實體集合進行語義相似度去重,以得到排除所述舊技術詞的所述新技術詞提取結果。
4、在一些實施方式中,所述方法包括:獲取詞根庫和待標注的輿情文本樣本;對所述輿情文本樣本進行分詞處理,得到所述輿情文本樣本的詞語序列;基于所述詞語序列中的詞語和所述詞根庫中的詞根進行拼接,確定候選技術詞;將基于所述候選技術詞確定的技術詞標簽,標注所述輿情文本樣本,得到所述技術詞實體標注數據;利用所述技術詞實體標注數據對通用信息抽取模型進行模型訓練,得到所述技術詞實體提取模型。
5、在一些實施方式中,所述基于所述詞語序列中的詞語和所述詞根庫中的詞根進行拼接,確定候選技術詞,包括:依次將所述詞根庫中的詞根作為當前詞根,確定所述當前詞根的信息熵;其中,信息熵反映詞根的獨立成詞可能性;將所述詞語序列中與所述當前詞根相鄰的詞語作為候選拼接詞語,確定所述當前詞根與所述候選拼接詞語之間的關聯度;其中,關聯度反映詞根與詞語之間的拼接成詞可能性;若所述信息熵和所述關聯度滿足拼接條件,根據所述當前詞根和所述候選拼接詞語進行拼接得到所述候選技術詞,并將拼接得到的所述候選技術詞作為新詞根加入所述詞根庫。
6、在一些實施方式中,所述詞根庫包括前綴詞根庫、中綴詞根庫和后綴詞根庫;所述詞語序列中與所述當前詞根相鄰的所述候選拼接詞語包括與所述當前詞根后向相鄰的候選拼接詞語,以及與所述當前詞根前向相鄰的候選拼接詞語;所述根據所述當前詞根和所述候選拼接詞語進行拼接得到所述候選技術詞,包括:在所述當前詞根為所述前綴詞根庫中的前綴詞根的情況下,在所述當前詞根之后拼接所述后向相鄰的候選拼接詞語,得到基于所述當前詞根后向拼接的所述候選技術詞;和/或,在所述當前詞根為所述后綴詞根庫中的后綴詞根的情況下,在所述當前詞根之前拼接所述前向相鄰的候選拼接詞語,得到基于所述當前詞根前向拼接的所述候選技術詞;和/或,在所述當前詞根為所述中綴詞根庫中的中綴詞根的情況下,在所述當前詞根之后拼接所述后向相鄰的候選拼接詞語,得到基于所述當前詞根后向拼接的所述候選技術詞,同時,在所述當前詞根之前拼接所述前向相鄰的候選拼接詞語,得到基于所述當前詞根前向拼接的所述候選技術詞。
7、在一些實施方式中,所述方法還包括:對所述輿情文本樣本進行詞性標注處理,得到所述輿情文本樣本的詞性序列;其中,所述詞性序列包括所述詞語序列中詞語對應的詞性;基于所述詞性序列中的詞性對所述候選技術詞進行篩選,得到所述輿情文本樣本的技術詞標簽,以標注所述輿情文本樣本。
8、本說明書實施方式提供一種輿情文本新技術詞發現裝置,所述裝置包括:第一獲取模塊,用于獲取待發現的輿情文本和舊技術詞詞庫;實體提取模塊,用于將所述輿情文本輸入至技術詞實體提取模型,得到所述輿情文本的技術詞實體提取結果;其中,所述技術詞實體提取結果包括技術詞實體;所述技術詞實體提取模型基于標注有技術詞標簽的技術詞實體標注數據對通用信息抽取模型進行模型訓練預先得到;向量化模塊,用于分別對所述舊技術詞詞庫中的舊技術詞和所述技術詞實體進行向量化,得到所述舊技術詞的舊詞向量和所述技術詞實體的實體向量;相似度確定模塊,用于在所述舊詞向量與所述實體向量之間的余弦相似度大于等于第一相似度閾值,且所述舊技術詞與所述技術詞實體之間的編輯距離相似度大于等于第二相似度閾值的情況下,確定所述技術詞實體是所述舊技術詞的近義詞;相似度去重模塊,用于根據所述近義詞對所述技術詞實體提取結果進行語義相似度去重,以得到新技術詞提取結果。
9、本說明書實施方式提供一種計算機設備,包括存儲器和處理器,所述存儲器存儲有計算機程序,所述處理器執行所述計算機程序時實現上述任一實施方式所述的輿情文本新技術詞發現方法。
10、本說明書實施方式提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時實現上述任一實施方式所述的輿情文本新技術詞發現方法。
11、本說明書實施方式提供一種計算機程序產品,所述計算機程序產品包括計算機指令,所述計算機指令被處理器執行時實現如上述任一實施方式所述的新技術詞發現方法。
12、本說明書提供的多個實施方式中,預先部署有技術詞實體提取模型,該技術詞實體提取模型是基于標注有技術詞標簽的技術詞實體標注數據對通用信息抽取模型進行模型訓練得到的,接著,獲取輿情文本和舊技術詞詞庫,將輿情文本輸入至技術詞實體提取模型,得到包括技術詞實體的技術詞實體提取結果,并分別對舊技術詞詞庫中的舊技術詞和技術詞實體進行向量化,得到舊技術詞的舊詞向量和技術詞實體的實體向量;再接著,計算舊詞向量與實體向量之間的余弦相似度,以及計算舊技術詞與技術詞實體之間的編輯距離相似度,在余弦相似度大于等于第一相似度閾值,且編輯距離相似度大于等于第二相似度閾值的情況下,確定技術詞實體是舊技術詞的近義詞,根據近義詞對技術詞實體提取結果進行語義相似度去重,得到新技術詞提取結果,如此,可以有效挖掘輿情文本中的新技術詞,提高輿情文本新技術詞發現的準確性。