本發(fā)明屬于自然語言處理,尤其涉及基于級聯(lián)式二階篩選的關系抽取方法、系統(tǒng)、介質及設備。
背景技術:
1、本部分的陳述僅僅是提供了與本發(fā)明相關的背景技術信息,不必然構成在先技術。
2、關系抽取在自然語言處理中是一個很重要的工作,特別在當今信息愈來愈多,呈現爆炸式增長的背景下,顯得格外重要。
3、全監(jiān)督的關系抽取是給定標注正確的實體,判斷每個實體對之間的關系類別。對于全監(jiān)督的關系抽取,目前主要分為管道式和聯(lián)合式兩種方法。
4、遠程監(jiān)督的方法使用啟發(fā)式的規(guī)則大批量標注的數據來訓練,因此它不像全監(jiān)督那樣需要高質量的標注數據。但是,通過啟發(fā)式規(guī)則標注的數據往往包含大量噪聲,所以遠程監(jiān)督的關系抽取方法的貢獻點主要是在于怎么降低噪聲對模型的影響。
5、當前,關系抽取主要依賴傳統(tǒng)訓練策略,即通過特征提取獲得實體和關系語義表示,然后預測關系類別。模型通過梯度下降和反向傳播不斷優(yōu)化,直至收斂。這種方法屬于一階分類,模型僅通過一次預測得出結果。無論是全監(jiān)督還是遠程監(jiān)督關系抽取,都是在一階分類基礎上進行特征工程,以提升訓練效果。這種模式限制了算法的泛化能力,因為它們通常只能在特定的監(jiān)督學習框架下優(yōu)化特征工程,難以適應其他監(jiān)督學習方法。
技術實現思路
1、為了解決上述背景技術中存在的技術問題,本發(fā)明提供基于級聯(lián)式二階篩選的關系抽取方法、系統(tǒng)、介質及設備,通過兩次級聯(lián)篩選,將第一次篩選的結果(濾網類型)作為提示,使用第二次篩選的結果作為最終的預測值,以充分利用不同關系之間存在等價或包含等聯(lián)系,提高關系抽取的準確度。
2、為了實現上述目的,本發(fā)明采用如下技術方案:
3、本發(fā)明的第一個方面提供基于級聯(lián)式二階篩選的關系抽取方法,其包括:
4、獲取句子,并在句子中每個實體的前后插入實體標記,得到句子序列;
5、基于句子序列,通過關系抽取模型,預測句子的關系類型;
6、其中,關系抽取模型對句子序列提取實體特征和全句表征特征后,進行向量拼接,得到一階分類特征;基于一階分類特征,通過激活函數和求自變量最大函數,得到濾網類型;通過若干層編碼器,對句子序列提取若干特征矩陣,并進行堆疊,得到特征方塊;基于特征方塊,通過單詞級層注意力機制,得到細粒度特征,并將細粒度特征和所述實體特征進行拼接,得到二階分類特征;基于二階分類特征和濾網類型,預測句子的關系類型。
7、進一步地,每個實體的前后插入的實體標記分別為和,其中,表示第k個實體,,代表一組預定義的實體類型。
8、進一步地,所述單詞級層注意力機制表示為:;其中,表示特征方塊,代表 tanh激活函數,代表 sigmoid激活函數,代表平均池化,m代表最大池化,和表示權重,和代表卷積操作,表示細粒度特征。
9、進一步地,所述句子的關系類型的預測采用激活函數和求自變量最大函數。
10、進一步地,所述關系抽取模型的訓練采用的損失函數為:,其中,,=---,其中,和代表噪聲參數,n代表濾網類型個數,是樣本x的濾網類型真實標簽,代表softmax激活函數,代表 sigmoid函數,和代表濾網中的關系類型個數,是各關系類型的得分數,是各濾網類型的得分數,表示樣本的關系類型真實標簽,表示樣本的關系類型真實標簽,表示樣本的關系類型真實標簽。
11、本發(fā)明的第二個方面提供基于級聯(lián)式二階篩選的關系抽取系統(tǒng),其包括:
12、數據獲取模塊,其被配置為:獲取句子,并在句子中每個實體的前后插入實體標記,得到句子序列;
13、關系抽取模塊,其被配置為:基于句子序列,通過關系抽取模型,預測句子的關系類型;
14、其中,關系抽取模型對句子序列提取實體特征和全句表征特征后,進行向量拼接,得到一階分類特征;基于一階分類特征,通過激活函數和求自變量最大函數,得到濾網類型;通過若干層編碼器,對句子序列提取若干特征矩陣,并進行堆疊,得到特征方塊;基于特征方塊,通過單詞級層注意力機制,得到細粒度特征,并將細粒度特征和所述實體特征進行拼接,得到二階分類特征;基于二階分類特征和濾網類型,預測句子的關系類型。
15、進一步地,每個實體的前后插入的實體標記分別為和,其中,表示第k個實體,,代表一組預定義的實體類型。
16、進一步地,所述單詞級層注意力機制表示為:;其中,表示特征方塊,代表 tanh激活函數,代表 sigmoid激活函數,代表平均池化,m代表最大池化,和表示權重,和代表卷積操作,表示細粒度特征。
17、本發(fā)明的第三個方面提供一種計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執(zhí)行時實現如上述所述的基于級聯(lián)式二階篩選的關系抽取方法中的步驟。
18、本發(fā)明的第四個方面提供一種計算機設備,包括計算機可讀存儲介質、處理器及存儲在計算機可讀存儲介質上并可在處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現如上述所述的基于級聯(lián)式二階篩選的關系抽取方法中的步驟。
19、與現有技術相比,本發(fā)明的有益效果是:
20、本發(fā)明通過兩次級聯(lián)篩選,將第一次篩選的結果作為提示,使用第二次篩選的結果作為最終的預測值,以充分利用不同關系之間存在等價或包含等聯(lián)系,提高關系抽取的準確度。
21、本發(fā)明將兩個粒度的篩選任務聯(lián)合訓練,希望細粒度篩選任務在訓練過程中產生的損失偏移量可以促進粗粒度篩選任務的學習,提高關系抽取模型的精度。
22、本發(fā)明提出一個單詞級的層注意力機制,來捕獲句子中全局和局部的豐富上下文語義,提高關系抽取的準確度。
1.基于級聯(lián)式二階篩選的關系抽取方法,其特征在于,包括:
2.如權利要求1所述的基于級聯(lián)式二階篩選的關系抽取方法,其特征在于,每個實體的前后插入的實體標記分別為和,其中,表示第k個實體,,代表一組預定義的實體類型。
3.如權利要求1所述的基于級聯(lián)式二階篩選的關系抽取方法,其特征在于,所述單詞級層注意力機制表示為:;其中,表示特征方塊,代表tanh激活函數,代表sigmoid激活函數,代表平均池化,m代表最大池化,和表示權重,和代表卷積操作,表示細粒度特征。
4.如權利要求1所述的基于級聯(lián)式二階篩選的關系抽取方法,其特征在于,所述句子的關系類型的預測采用激活函數和求自變量最大函數。
5.如權利要求1所述的基于級聯(lián)式二階篩選的關系抽取方法,其特征在于,所述關系抽取模型的訓練采用的損失函數為:,其中,,=---,其中,和代表噪聲參數,n代表濾網類型個數,是樣本x的濾網類型真實標簽,代表softmax激活函數,代表sigmoid型函數,和代表濾網中的關系類型個數,是各關系類型的得分數,是各濾網類型的得分數,表示樣本的關系類型真實標簽,表示樣本的關系類型真實標簽,表示樣本的關系類型真實標簽。
6.基于級聯(lián)式二階篩選的關系抽取系統(tǒng),其特征在于,包括:
7.如權利要求6所述的基于級聯(lián)式二階篩選的關系抽取系統(tǒng),其特征在于,每個實體的前后插入的實體標記分別為和,其中,表示第k個實體,,代表一組預定義的實體類型。
8.如權利要求6所述的基于級聯(lián)式二階篩選的關系抽取系統(tǒng),其特征在于,所述單詞級層注意力機制表示為:;其中,表示特征方塊,代表tanh激活函數,代表sigmoid激活函數,代表平均池化,m代表最大池化,和表示權重,和代表卷積操作,表示細粒度特征。
9.一種計算機可讀存儲介質,其上存儲有計算機程序,其特征在于,該程序被處理器執(zhí)行時實現如權利要求1-5中任一項所述的基于級聯(lián)式二階篩選的關系抽取方法中的步驟。
10.一種計算機設備,包括計算機可讀存儲介質、處理器及存儲在計算機可讀存儲介質上并可在處理器上運行的計算機程序,其特征在于,所述處理器執(zhí)行所述程序時實現如權利要求1-5中任一項所述的基于級聯(lián)式二階篩選的關系抽取方法中的步驟。