本發明涉及數據處理,尤其涉及一種基于大語言模型的社交媒體用戶真偽預測方法、裝置及電子設備。
背景技術:
1、社交媒體用戶真偽預測是指判斷社交媒體平臺上用戶的賬號是否真實有效,即該賬號是否由真實的個人或實體擁有和操作。在社交媒體環境中,存在各種類型的虛假或可疑賬戶,這些賬戶可能由機器人程序控制,或是由個人或團體為了特定目的而創建的假賬戶。因此,判斷一個社交媒體用戶是否真實具有重要意義,可以幫助防止網絡欺詐、垃圾信息傳播、虛假宣傳等問題。
2、現有技術在社交媒體用戶真偽預測的過程中,存在如下問題:
3、1.依賴簡單的規則和人工審核:目前的技術大多依賴于手動審核和簡單的規則引擎來判定用戶的真偽。這種方法不僅效率低下,還極易受到人為因素的影響,導致結果的不一致和錯誤判斷。
4、2.缺乏深入的語義理解:傳統方法往往無法深入理解用戶在社交媒體上發布內容的語義復雜性。例如,現有技術難以區分精心設計的虛假賬戶與真實用戶的細微差別,這些虛假賬戶可能使用自然語言生成技術來模仿真實用戶的行為。
5、3.數據利用不足:盡管社交媒體平臺上存在大量數據,但現有技術往往未能充分利用這些數據進行有效的真偽判斷。例如,用戶的互動模式、發布內容的時間線等潛在信息常被忽視,這些信息對于判斷賬戶的真實性極為重要。
6、4.對新興欺詐手段的適應性不足:隨著欺詐手段的不斷進化,傳統的用戶驗證方法往往難以及時適應新的欺詐策略。例如,一些高級的欺詐賬戶可能會利用ai技術生成看似真實的用戶互動,傳統方法難以識別這些行為的人工性。
7、5.處理大規模數據的能力有限:在用戶基數龐大的社交平臺上,傳統方法在處理和分析大規模數據時面臨性能瓶頸。這種限制影響了技術的擴展性和實時處理能力,降低了在實際操作中的應用效率。
8、6.計算資源和成本問題:高效地處理和分析大量社交媒體數據需要大量的計算資源。現有的技術在資源消耗和成本控制方面常常面臨挑戰,尤其是在需要實時分析和響應的場景中。
9、上述問題成為需要解決的技術問題。
技術實現思路
1、有鑒于此,本發明實施例提供一種基于大語言模型的社交媒體用戶真偽預測方法、裝置及電子設備,至少部分解決現有技術中存在的問題。
2、第一方面,本發明實施例提供了一種基于大語言模型的社交媒體用戶真偽預測方法,包括:
3、對從多個社交媒體平臺采集的原始數據進行用戶提取,得到第一用戶集合du={du1,du2,…dun};
4、基于第一用戶集合du,對所述原始數據進行數據拆分,得到包含n個用戶數據的拆分數據集合df={df1,df2,…dfn};
5、利用大語言模型對所述拆分數據集合df={df1,df2,…dfn}進行用戶行為特征提取,得到第一特征集合dt={dt1,dt2,…dtn};
6、對所述拆分數據集合df={df1,df2,…dfn}進行用戶地理特征提取,得到第二特征集合dg={dg1,dg2,…dgn};
7、基于所述第一特征集合dt={dt1,dt2,…dtn}和所述第二特征集合dg={dg1,dg2,…dgn},對所述第一用戶集合du={du1,du2,…dun}中的用戶真偽進行預測。
8、根據本公開實施例的一種具體實現方式,所述對從多個社交媒體平臺采集的原始數據進行用戶提取,得到第一用戶集合du={du1,du2,…dun},包括:
9、對所述原始數據進行數據清洗,在清洗后的數據中找到唯一標識用戶的信息;
10、創建索引結構,用于存儲每個用戶的id和相關信息;
11、遍歷所有清洗后的數據記錄,根據用戶id將其添加到用戶索引中;
12、如果同一個用戶在不同平臺上有活動,則合并同一用戶在不同平臺的用戶信息,構建完整的用戶視圖。
13、根據本公開實施例的一種具體實現方式,所述基于第一用戶集合du,對所述原始數據進行數據拆分,得到包含n個用戶數據的拆分數據集合df={df1,df2,…dfn},包括:
14、創建一個空的集合df,用于存放每個用戶的拆分數據;
15、遍歷用戶集合du中的每個用戶,對于每個用戶dui,從原始數據中提取與該用戶相關的所有數據;
16、將與用戶dui相關的數據組成一個新的數據子集dfi后,將數據子集dfi加入拆分數據集合df。
17、根據本公開實施例的一種具體實現方式,所述利用大語言模型對所述拆分數據集合df={df1,df2,…dfn}進行用戶行為特征提取,得到第一特征集合dt={dt1,dt2,…dtn},包括:
18、從dfi中提取每個事件的時間戳,識別用戶的活躍時間段,得到用戶的活動時間特征kt;
19、使用自然語言處理技術分析用戶發布的社交媒體內容,得到用戶的內容風格特征kf。
20、根據本公開實施例的一種具體實現方式,所述利用大語言模型對所述拆分數據集合df={df1,df2,…dfn}進行用戶行為特征提取,得到第一特征集合dt={dt1,dt2,…dtn},還包括:
21、通過用戶與其他用戶的互動頻率和類型,確定用戶的互動特征kh;
22、分析用戶在社交網絡中的位置和連接模式,得到用戶的網絡結構特征kn;
23、基于活動時間特征kt、內容風格特征kf、互動特征kh以及網絡結構特征kn,構建用戶行為特征向量k=[kt,kf,kh,kn];
24、基于n個用戶的用戶行為特征向量k進行匯聚,形成第一特征集合dt。
25、根據本公開實施例的一種具體實現方式,所述對所述拆分數據集合df={df1,df2,…dfn}進行用戶地理特征提取,得到第二特征集合dg={dg1,dg2,…dgn},包括:
26、從df中的數據中解析出用戶所有出現的地理位置;
27、統計用戶出現在不同地理位置的次數,生成用戶地理偏好列表;
28、基于用戶地理偏好列表,生成第二特征集合dg={dg1,dg2,…dgn}。
29、根據本公開實施例的一種具體實現方式,所述基于所述第一特征集合dt={dt1,dt2,…dtn}和所述第二特征集合dg={dg1,dg2,…dgn},對所述第一用戶集合du={du1,du2,…dun}中的用戶真偽進行預測,包括:
30、設置表示第i個用戶的預測特征向量,由和組成,表示第i個用戶的真偽標簽,,其中0表示虛假用戶,1表示真實用戶,m表示使用的模型集合,每個模型輸出一個預測值,和分別包含d和g個特征,則第i個用戶的特征向量表示為:
31、。
32、根據本公開實施例的一種具體實現方式,所述基于所述第一特征集合dt={dt1,dt2,…dtn}和所述第二特征集合dg={dg1,dg2,…dgn},對所述第一用戶集合du={du1,du2,…dun}中的用戶真偽進行預測,還包括:
33、對于每個模型在訓練集上進行訓練,得到訓練后的模型:
34、
35、tn為訓練函數,通過加權平均的方式結合所有模型的預測結果:
36、
37、其中是第j個模型對第i個用戶的預測值,是第j個模型的權重;
38、設定閾值t0,如果,則預測用戶為真實用戶,否則,預測為虛假用戶;
39、權重根據每個模型的準確率確定,第j個模型的準確率為,則第j個模型的權重定義為:
40、。
41、第二方面,本發明實施例提供了一種基于大語言模型的社交媒體用戶真偽預測裝置,包括:
42、采集模塊,對從多個社交媒體平臺采集的原始數據進行用戶提取,得到第一用戶集合du={du1,du2,…dun};
43、拆分模塊,基于第一用戶集合du,對所述原始數據進行數據拆分,得到包含n個用戶數據的拆分數據集合df={df1,df2,…dfn};
44、第一提取模塊,利用大語言模型對所述拆分數據集合df={df1,df2,…dfn}進行用戶行為特征提取,得到第一特征集合dt={dt1,dt2,…dtn};
45、第二提取模塊,對所述拆分數據集合df={df1,df2,…dfn}進行用戶地理特征提取,得到第二特征集合dg={dg1,dg2,…dgn};
46、預測模塊,基于所述第一特征集合dt={dt1,dt2,…dtn}和所述第二特征集合dg={dg1,dg2,…dgn},對所述第一用戶集合du={du1,du2,…dun}中的用戶真偽進行預測。
47、第三方面,本發明實施例還提供了一種電子設備,該電子設備包括:
48、至少一個處理器;以及,
49、與該至少一個處理器通信連接的存儲器;其中,
50、該存儲器存儲有可被該至少一個處理器執行的指令,該指令被該至少一個處理器執行,以使該至少一個處理器能夠執行前述任第一方面或第一方面的任一實現方式中的基于大語言模型的社交媒體用戶真偽預測方法。
51、第四方面,本發明實施例還提供了一種非暫態計算機可讀存儲介質,該非暫態計算機可讀存儲介質存儲計算機指令,該計算機指令用于使該計算機執行前述第一方面或第一方面的任一實現方式中的基于大語言模型的社交媒體用戶真偽預測方法。
52、第五方面,本發明實施例還提供了一種計算機程序產品,該計算機程序產品包括存儲在非暫態計算機可讀存儲介質上的計算程序,該計算機程序包括程序指令,當該程序指令被計算機執行時,使該計算機執行前述第一方面或第一方面的任一實現方式中的基于大語言模型的社交媒體用戶真偽預測方法。
53、本發明實施例中的基于大語言模型的社交媒體用戶真偽預測方案,包括:對從多個社交媒體平臺采集的原始數據進行用戶提取,得到第一用戶集合du={du1,du2,…dun};基于第一用戶集合du,對所述原始數據進行數據拆分,得到包含n個用戶數據的拆分數據集合df={df1,df2,…dfn};利用大語言模型對所述拆分數據集合df={df1,df2,…dfn}進行用戶行為特征提取,得到第一特征集合dt={dt1,dt2,…dtn};對所述拆分數據集合df={df1,df2,…dfn}進行用戶地理特征提取,得到第二特征集合dg={dg1,dg2,…dgn};基于所述第一特征集合dt={dt1,dt2,…dtn}和所述第二特征集合dg={dg1,dg2,…dgn},對所述第一用戶集合du={du1,du2,…dun}中的用戶真偽進行預測。
54、本技術的方案,具有如下有益效果:
55、高精度預測:
56、利用先進的機器學習和深度學習技術,特別是大語言模型,可以深入理解用戶行為和文本內容,從而提高識別真偽用戶的準確性。
57、實時分析能力:
58、算法能夠在用戶活動時實時進行分析和預測,快速識別并響應虛假用戶行為,有助于即時阻止潛在的欺詐和濫用行為。
59、自動化處理:
60、大幅減少人工審核的需求,通過自動化處理來提高效率,降低運營成本。
61、廣泛的適應性:
62、算法可以輕松適配不同的社交媒體平臺,處理各種類型的數據和用戶行為,具有很高的靈活性和可擴展性。
63、改善用戶體驗:
64、減少虛假信息和欺詐行為的影響,提升平臺的安全性和用戶的信任度,從而改善用戶的整體體驗。