本技術涉及信息處理領域,具體而言,涉及一種預測模型的訓練方法、信息傳播路徑的預測方法。
背景技術:
1、隨著互聯網的廣泛使用,諸如網絡暴力信息、網絡謠言等有害信息的傳播常常會引發諸多問題。為了減少引發的問題,可以預先對有害信息的傳播路徑進行預測。
2、在相關技術中,存在通過構建有突破口信息的知識圖譜進行預測的方案,但其構建過程沒有考慮傳播信息的內容本身及其上下文信息,從而不能較為全面地構建知識圖譜,導致預測的準確性較低。另外,還存在通過同構圖進行預測的方案,但同構圖只考慮了一種節點類型,從而也會導致預測的準確性較低。
技術實現思路
1、本技術實施例的目的在于提供一種預測模型的訓練方法、信息傳播路徑的預測方法,用以提高預測的信息傳播路徑的準確性。
2、第一方面,本技術實施例提供了一種預測模型的訓練方法,該方法包括:根據樣本信息構建樣本異構圖;所述樣本信息至少包括賬號實體信息、內容載體實體信息以及關鍵詞實體信息,所述樣本異構圖的節點表征賬號實體、內容載體實體或者關鍵詞實體,所述樣本異構圖的邊表征實體之間的連接關系;從所述樣本異構圖中提取傳播所述樣本信息的多個元路徑,并確定各個元路徑中各個節點的目標特征;將所述樣本異構圖以及各個節點的目標特征輸入初始預測模型中,將所述樣本異構圖的真實標簽作為所述初始預測模型的期望輸出訓練所述初始預測模型,得到預測模型;所述真實標簽表征所述樣本異構圖中各個節點之間存在連接關系的概率。這樣,可以通過樣本信息,建立用于表征賬號實體、內容載體實體以及關鍵詞實體之間的關聯關系的樣本異構圖,從而可以根據該樣本異構圖以及節點特征訓練得到預測模型。這樣,既考慮了傳播信息的內容本身及其上下文信息,又考慮了多種節點的類型情況,從而能夠提高預測模型的準確性。
3、可選地,所述確定各個元路徑中各個節點的目標特征,包括:確定各個元路徑中各個節點的類型權重;所述類型權重表征節點受其鄰居節點所屬類型的影響程度;針對一個元路徑中的一個節點,根據該節點的鄰居節點的類型權重以及鄰居節點的特征,確定該節點的聚合特征;針對所述多個元路徑中的一個元路徑,根據該元路徑中各個節點的聚合特征以及元路徑總數,確定該元路徑的傳播權重;所述傳播權重表征所述樣本信息在按照該元路徑傳播的過程中受不同類型的節點的影響程度;針對所述樣本異構圖中的任一節點,根據該節點所在的元路徑的傳播權重以及元路徑中各個節點的聚合特征,確定該節點的目標特征。這樣,每個節點聚合了其所在元路徑中相連接的所有節點的特征以及元路徑的傳播權重,這樣有效利用了樣本異構圖的結構信息以及節點間的多種類型關系,從而有助于提高預測模型的準確性。
4、可選地,在所述針對一個元路徑中的一個節點,根據該節點的鄰居節點的類型權重以及鄰居節點的特征,確定該節點的聚合特征之前,所述確定各個元路徑中各個節點的目標特征,還包括:構建各個實體分別對應的嵌入特征;其中,各個嵌入特征的維度大于所述賬號實體的總數,且大于所述關鍵詞實體的總數;所述針對一個元路徑中的一個節點,根據該節點的鄰居節點的類型權重以及鄰居節點的特征,確定該節點的聚合特征,包括:針對一個元路徑中的一個節點,根據該節點的鄰居節點的類型權重以及鄰居節點的嵌入特征,確定該節點的聚合特征。這樣,通過構建各個實體分別對應的嵌入特征,可以豐富節點特征,在一定程度上能夠有助于提高預測模型的準確性。
5、可選地,所述初始預測模型包括解碼器,以及所述方法還包括:在包括正樣本邊的所述樣本異構圖中引入負樣本邊,得到訓練異構圖;所述正樣本邊表征節點之間真實存在連接關系,所述負樣本邊表征節點之間真實不存在連接關系;這樣,所述將所述樣本異構圖以及各個節點的目標特征輸入初始預測模型中,將所述樣本異構圖的真實標簽作為所述初始預測模型的期望輸出訓練所述初始預測模型,得到預測模型,包括:將所述訓練異構圖以及各個節點的目標特征輸入解碼器中,通過所述解碼器得到所述訓練異構圖中各條邊存在的概率;針對于所述訓練異構圖中的任意一條邊,若該條邊存在的概率大于概率閾值,則確定存在該條邊;若該條邊存在的概率小于概率閾值,則確定不存在該條邊;統計存在的邊的第一數量以及不存在的邊的第二數量;根據所述第一數量、所述第二數量以及所述訓練異構圖中各條邊的真實標簽,確定訓練誤差;若所述訓練誤差小于誤差閾值,將當前的解碼器確定為所述預測模型。這樣,可以通過構建訓練異構圖,豐富訓練數據,將訓練過程轉換為二分類問題,使預測模型學習到如何識別正樣本邊以及如何識別出負樣本邊的能力,在一定程度上提高了預測模型的泛化能力以及準確性。
6、可選地,在所述根據樣本信息構建樣本異構圖之前,所述方法還包括:根據謠言類型,構建關鍵詞列表;這樣,所述根據樣本信息構建樣本異構圖,包括:若所述樣本信息中存在與所述關鍵詞列表中的任一關鍵詞匹配的關鍵詞實體信息,則根據該關鍵詞實體信息、所述樣本信息中的賬號實體信息以及內容載體實體信息構建所述樣本異構圖。這樣,可以將關鍵詞進行分類,以便于處理不同類型的謠言,提高了預測模型的泛化能力。
7、可選地,所述根據樣本信息構建樣本異構圖,包括:若所述賬號實體信息與所述內容載體實體信息之間存在發布關系,則連接表征所述賬號實體的節點與表征所述內容載體實體的節點;若所述內容載體實體信息與所述關鍵詞實體信息之間存在包含關系,則連接表征所述內容載體實體的節點與表征所述關鍵詞實體的節點;若任意兩個賬號實體信息之間存在關注關系,則連接表征所述任意兩個賬號實體信息所對應的賬號實體的節點。這樣,通過不同實體之間的關系,能夠構建出較為全面的樣本異構圖,在一定程度上提高了預測模型的準確性。
8、第二方面,本技術實施例提供了一種信息傳播路徑的預測方法,該方法包括:根據待處理信息構建異構圖;所述待處理信息至少包括賬號實體信息、內容載體實體信息以及關鍵詞實體信息,所述異構圖的節點表征賬號實體、內容載體實體或者關鍵詞實體,所述異構圖的邊表征實體之間存在的連接關系;從所述異構圖中提取傳播所述待處理信息的多個元路徑,并確定各個元路徑中各個節點的目標特征;將所述異構圖以及各個節點的目標特征輸入預測模型,通過所述預測模型得到節點之間存在邊的概率;所述預測模型通過如第一方面所述的訓練方法得到;通過節點之間存在邊的概率,預測所述待處理信息的傳播路徑。這樣,可以通過預測模型預測出不同類型的實體之間是否存在連接關系,由于預測模型的預測準確性較高,從而可以得到較為準確的預測結果。相較于現有技術中存在的諸如使用同構圖或者構建有突破口信息的知識圖譜進行預測的方案,本實現方式的預測方法既考慮了待處理信息的內容本身及其上下文信息,又考慮了多種節點的類型情況,從而能夠預測出較為準確的傳播路徑。進一步的,由于預測出了較為準確的傳播路徑,因此可以確定出傳播路徑的起始實體,從而達到了溯源目的。
9、第三方面,本技術實施例提供了一種預測模型的訓練裝置,該裝置包括:樣本異構圖構建模塊,用于根據樣本信息構建樣本異構圖;所述樣本信息至少包括賬號實體信息、內容載體實體信息以及關鍵詞實體信息,所述樣本異構圖的節點表征賬號實體、內容載體實體或者關鍵詞實體,所述樣本異構圖的邊表征實體之間的連接關系;第一確定模塊,用于從所述樣本異構圖中提取傳播所述樣本信息的多個元路徑,并確定各個元路徑中各個節點的目標特征;訓練模塊,用于將所述樣本異構圖以及各個節點的目標特征輸入初始預測模型中,將所述樣本異構圖的真實標簽作為所述初始預測模型的期望輸出訓練所述初始預測模型,得到預測模型;所述真實標簽表征所述樣本異構圖中各個節點之間存在連接關系的概率。這樣,能夠提高預測模型的準確性。
10、第四方面,本技術實施例提供了一種信息傳播路徑的預測裝置,該裝置包括:異構圖構建模塊,用于根據待處理信息構建異構圖;所述待處理信息至少包括賬號實體信息、內容載體實體信息以及關鍵詞實體信息,所述異構圖的節點表征賬號實體、內容載體實體或者關鍵詞實體,所述異構圖的邊表征實體之間存在的連接關系;第二確定模塊,用于從所述異構圖中提取傳播所述待處理信息的多個元路徑,并確定各個元路徑中各個節點的目標特征;輸入模塊,用于將所述異構圖以及各個節點的目標特征輸入預測模型,通過所述預測模型得到節點之間存在邊的概率;所述預測模型通過如第一方面所述的訓練方法得到;預測模塊,用于通過節點之間存在邊的概率,預測所述待處理信息的傳播路徑。這樣,可以得到較為準確的預測結果,從而能夠預測出較為準確的傳播路徑,并且能夠達到溯源目的。
11、第五方面,本技術實施例提供一種電子設備,包括處理器以及存儲器,所述存儲器存儲有計算機可讀取指令,當所述計算機可讀取指令由所述處理器執行時,運行如上述第一方面或者第二方面提供的所述方法中的步驟。
12、第六方面,本技術實施例提供一種計算機可讀存儲介質,其上存儲有計算機程序,所述計算機程序被處理器執行時運行如上述第一方面或者第二方面提供的所述方法中的步驟。
13、第七方面,本技術實施例提供一種計算機程序產品,其包括計算機程序或指令,該計算機程序或指令被處理器執行時運行如第一方面或者第二方面所述的方法。
14、本技術的其他特征和優點將在隨后的說明書闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本技術實施例了解。本技術的目的和其他優點可通過在所寫的說明書、權利要求書、以及附圖中所特別指出的結構來實現和獲得。