本公開涉及知識圖譜領域,更具體地說,涉及一種基于知識超圖的解耦表示學習方法及裝置。
背景技術:
1、知識圖譜是存儲知識的大規模圖結構,已經在推薦系統、知識問答等多個領域得到了廣泛的應用。知識圖譜由節點和邊構成,其中每個節點對應一個實體,每條邊對應一種關系,連接兩個實體的邊代表這兩個實體之間具有相應的關系。例如,知識圖譜中的邊(xxx,畢業于,上海xx大學)表示知識“xxx畢業于上海xx大學”。
2、知識超圖是對傳統知識圖譜的擴展,由節點和超邊構成,其中每個節點對應一個實體,與傳統知識圖譜中的邊不同,每條超邊不僅對應一種關系,還具有相應的“屬性-值”對,對實體之間的關系進行更豐富、更具體的描述。例如,對于知識圖譜中的邊(xxx,畢業于,上海xx大學),在知識超圖中可具有相應的“屬性-值”對:時間-1934年、院系-機械工程系,表示知識“xxx于19xx年畢業于上海xx大學機械工程系”。知識超圖能夠表征更復雜的語義,描述屬性信息,更符合人類的表達習慣。通過學習知識超圖中實體和關系的表示,可以為知識超圖的應用提供基礎。
技術實現思路
1、本公開提出一種基于知識超圖的解耦表示學習方法及裝置、計算系統及計算機可讀存儲介質,能夠通過對實體的不同語義進行解耦,學習實體和關系的高質量向量表示。
2、根據本公開的一方面,提供一種基于知識超圖的解耦表示學習方法,所述基于知識超圖的解耦表示學習方法包括:對知識超圖中的實體、關系、屬性和值的表示向量進行隨機初始化,其中,實體的表示向量包括多個子表示向量,所述多個子表示向量的數量基于實體所具有的語義的數量而確定,并且關系、屬性和值的表示向量的維度與實體的子表示向量的維度相同;基于從每個實體的鄰居實體傳遞的信息,對每個實體所包括的多個子表示向量進行更新;利用知識超圖補全任務訓練模型,基于更新的實體和關系的向量表示,確定超邊中缺失的實體。
3、可選地,基于從每個實體的鄰居實體傳遞的信息,對每個實體所包括的多個子表示向量進行更新的步驟包括:針對任意一個實體的子表示向量,確定由每個鄰居實體的相同序數的子表示向量傳遞的信息;基于由每個鄰居實體的相同序數的子表示向量傳遞的信息,利用激活函數對所述任意一個實體的子表示向量進行更新。
4、可選地,所述激活函數包括relu函數。
5、可選地,針對任意一個實體的子表示向量,確定由每個鄰居實體的相同序數的子表示向量傳遞的信息的步驟包括:基于預定參數矩陣以及屬性和值的表示向量,確定語義聚合成的向量;基于語義聚合成的向量、預定權重參數和關系的表示向量,確定結合向量;基于結合向量和鄰居實體的相同序數的子表示向量,利用激活函數確定由鄰居實體的相同序數的子表示向量傳遞的信息。
6、可選地,所述激活函數包括relu函數。
7、可選地,利用知識超圖補全任務訓練模型,基于更新的實體和關系的向量表示,確定超邊中缺失的實體的步驟包括:基于更新的實體和關系的向量表示,對超邊中的已知部分的子表示向量進行初始化和向量拼接;將拼接得到的向量輸入神經網絡模型,以得到語義表示向量;對語義表示向量進行線性變換,并將線性變換后的結果與候選實體的相同序數的子表示向量相乘,以得到每個候選實體對于相同序數的語義的可能性分數;基于所述可能性分數以及基于關系而賦予的權重,利用歸一化函數確定每個候選實體的加權總分數;將加權總分數最大的候選實體確定為超邊中缺失的實體。
8、可選地,所述基于知識超圖的解耦表示學習方法還包括:基于每個候選實體的加權總分數、標識每個候選實體是否為正確的未知實體的變量以及知識超圖補全任務訓練模型的訓練集的大小,確定交叉熵;通過使確定的交叉熵最小化,對知識超圖補全任務訓練模型進行優化。
9、根據本公開的另一方面,提供一種基于知識超圖的解耦表示學習裝置,所述基于知識超圖的解耦表示學習裝置包括:初始化單元,被配置為對知識超圖中的實體、關系、屬性和值的表示向量進行隨機初始化,其中,實體的表示向量包括多個子表示向量,所述多個子表示向量的數量基于實體所具有的語義的數量而確定,并且關系、屬性和值的表示向量的維度與實體的子表示向量的維度相同;更新單元,被配置為基于從每個實體的鄰居實體傳遞的信息,對每個實體所包括的多個子表示向量進行更新;補全單元,被配置為利用知識超圖補全任務訓練模型,基于更新的實體和關系的向量表示,確定超邊中缺失的實體。
10、可選地,所述更新單元進一步被配置為:針對任意一個實體的子表示向量,確定由每個鄰居實體的相同序數的子表示向量傳遞的信息;基于由每個鄰居實體的相同序數的子表示向量傳遞的信息,利用激活函數對所述任意一個實體的子表示向量進行更新。
11、可選地,所述激活函數包括relu函數。
12、可選地,所述補全單元進一步被配置為:基于預定參數矩陣以及屬性和值的表示向量,確定語義聚合成的向量;基于語義聚合成的向量、預定權重參數和關系的表示向量,確定結合向量;基于結合向量和鄰居實體的相同序數的子表示向量,利用激活函數確定由鄰居實體的相同序數的子表示向量傳遞的信息。
13、可選地,所述激活函數包括relu函數。
14、可選地,所述補全單元進一步被配置為:基于更新的實體和關系的向量表示,對超邊中的已知部分的子表示向量進行初始化和向量拼接;將拼接得到的向量輸入神經網絡模型,以得到語義表示向量;對語義表示向量進行線性變換,并將線性變換后的結果與候選實體的相同序數的子表示向量相乘,以得到每個候選實體對于相同序數的語義的可能性分數;基于所述可能性分數以及基于關系而賦予的權重,利用歸一化函數確定每個候選實體的加權總分數;將加權總分數最大的候選實體確定為超邊中缺失的實體。
15、可選地,所述基于知識超圖的解耦表示學習裝置還包括模型優化單元,所述模型優化單元被配置為:基于每個候選實體的加權總分數、標識每個候選實體是否為正確的未知實體的變量以及知識超圖補全任務訓練模型的訓練集的大小,確定交叉熵;通過使確定的交叉熵最小化,對知識超圖補全任務訓練模型進行優化。
16、根據本公開的另一方面,提供一種包括至少一個計算裝置和至少一個存儲指令的存儲裝置的計算系統,其中,所述指令在被所述至少一個計算裝置運行時,促使所述至少一個計算裝置執行如上所述的基于知識超圖的解耦表示學習方法。
17、根據本公開的再一方面,提供一種存儲指令的計算機可讀存儲介質,其中,當所述指令被至少一個計算裝置運行時,促使所述至少一個計算裝置執行如上所述的基于知識超圖的解耦表示學習方法。
18、通過采用本公開,能夠處理結構復雜的知識超圖、建模實體多方面語義,通過對實體的不同語義進行解耦,學習實體和關系的高質量向量表示。
1.一種基于知識超圖的解耦表示學習方法,其特征在于,所述基于知識超圖的解耦表示學習方法包括:
2.根據權利要求1所述的基于知識超圖的解耦表示學習方法,其特征在于,基于從每個實體的鄰居實體傳遞的信息,對每個實體所包括的多個子表示向量進行更新的步驟包括:
3.根據權利要求2所述的基于知識超圖的解耦表示學習方法,其特征在于,所述激活函數包括relu函數。
4.根據權利要求2所述的基于知識超圖的解耦表示學習方法,其特征在于,針對任意一個實體的子表示向量,確定由每個鄰居實體的相同序數的子表示向量傳遞的信息的步驟包括:
5.根據權利要求4所述的基于知識超圖的解耦表示學習方法,其特征在于,所述激活函數包括relu函數。
6.根據權利要求1所述的基于知識超圖的解耦表示學習方法,其特征在于,利用知識超圖補全任務訓練模型,基于更新的實體和關系的向量表示,確定超邊中缺失的實體的步驟包括:
7.根據權利要求6所述的基于知識超圖的解耦表示學習方法,其特征在于,所述基于知識超圖的解耦表示學習方法還包括:
8.一種基于知識超圖的解耦表示學習裝置,其特征在于,所述基于知識超圖的解耦表示學習裝置包括:
9.一種包括至少一個計算裝置和至少一個存儲指令的存儲裝置的計算系統,其特征在于,所述指令在被所述至少一個計算裝置運行時,促使所述至少一個計算裝置執行根據權利要求1-7中任一項所述的基于知識超圖的解耦表示學習方法。
10.一種存儲指令的計算機可讀存儲介質,其特征在于,當所述指令被至少一個計算裝置運行時,促使所述至少一個計算裝置執行根據權利要求1-7中任一項所述的基于知識超圖的解耦表示學習方法。