本發明涉及人工智能,具體涉及一種基于大模型新命題糾錯方法及系統。
背景技術:
1、在現有技術中,基于自然語言處理(nlp)和機器學習算法的自動糾錯技術已經得到了廣泛的應用,這些技術通常通過訓練模型來識別和修正文本中的語法、拼寫和邏輯錯誤,尤其在語法糾錯和拼寫檢查方面取得了顯著進展。現有的糾錯系統往往依賴于預先定義的規則或詞典,結合統計模型或深度學習模型來檢測和修正錯誤,這些技術在處理標準化文本時表現出較高的準確性和效率,隨著自然語言處理技術的發展,特別是大語言模型(llm)的應用,出現了更加復雜和創新性的文本生成任務。大語言模型能夠生成包含新命題或非標準表達的文本,這為現有的糾錯方法帶來了新的挑戰。
2、現有的糾錯技術通常依賴于預定義的規則或標準的語言結構,但在面對大模型生成的創新性表述時,這些技術往往難以適應,無法有效識別和修正其中的錯誤。尤其是在處理新命題時,由于這些表述可能不符合已有的語言規范或包含創新性的邏輯推導,現有的糾錯技術往往會出現較高的誤判率。此外,新命題的獨特性和多樣性使得現有技術難以覆蓋所有可能的錯誤類型,這進一步增加了糾錯的難度。因此,如何開發更加智能和靈活的糾錯方法,以提高在處理新命題時的準確性和效率,成為當前研究中的一個關鍵問題,目前,雖然已經有一些研究嘗試通過增強模型的適應性或結合多種技術手段來提升糾錯效果,但仍然存在識別準確性不足、對新類型錯誤處理能力有限等問題。
技術實現思路
1、本發明的目的在于提供一種基于大模型新命題糾錯方法及系統,解決在如何開發更加智能和靈活的糾錯方法,以提高在處理新命題時的準確性和效率問題上,現有技術雖然已經有一些研究嘗試通過增強模型的適應性或結合多種技術手段來提升糾錯效果,但仍然存在識別準確性不足、對新類型錯誤處理能力有限等問題。
2、為實現上述目的,本發明提供如下技術方案:一種基于大模型新命題糾錯方法,所述方法包括:
3、s1:獲取生成的新命題及其對應的語境信息;
4、s2:基于預訓練的語言大模型對新命題進行語義分析,識別其中的潛在錯誤;
5、s3:利用領域特定知識庫驗證所述新命題的準確性;
6、s4:根據分析結果和驗證反饋自動修正新命題中的錯誤。
7、優選的,所述步驟s1獲取生成的新命題及其對應的語境信息具體包括:
8、通過api接口接收輸出的新命題文本;
9、提取新命題文本中的關鍵詞匯;
10、基于關鍵詞匯構建語境上下文環境;
11、利用自然語言處理技術識別新命題中的實體和關系。
12、優選的,所述步驟s2中基于預訓練的語言大模型對所述新命題進行語義分析這一步驟具體包括:
13、將新命題輸入至預訓練語言大模型以獲得語義向量表示;
14、基于語義向量表示計算新命題與領域內標準表述之間的相似度s;
15、如果相似度s低于預設閾值t,則判定新命題可能存在語義錯誤;
16、對比新命題與領域內標準表述的關鍵差異點。
17、優選的,所述基于語義向量表示計算新命題與領域內標準表述之間的相似度s具體包括:
18、對新命題的語義向量表示進行歸一化處理;
19、計算歸一化后的語義向量表示與領域內標準表述向量表示之間的余弦相似度c;
20、如果余弦相似度c小于7,則認為新命題與標準表述不匹配,即當c<0.7時,判定新命題與標準表述存在較大差異;
21、基于不匹配情況調整相似度s的計算方式;
22、其中,所述計算歸一化后的語義向量表示與領域內標準表述向量表示之間的余弦相似度c具體步驟包括:
23、確定新命題語義向量,表示v1和標準表述向量,表示v2;
24、計算v1與v2的點積p;
25、計算v1和v2的模長m1和m2;
26、根據公式余弦相似度c=p/(m1×m2)計算余弦相似度。
27、優選的,所述步驟s2中基于預訓練的語言大模型對所述新命題進行語義分析,識別其中的潛在錯誤的識別過程具體步驟包括:
28、獲取新命題的詞法結構信息;
29、基于語言模型計算所述新命題的語法概率得分p(語法);
30、判斷語法概率得分p(語法)是否低于第一預設閾值θ1;
31、如果p(語法)<θ1,則識別新命題可能存在語法錯誤;
32、其中,所述基于語言模型計算所述新命題的語法概率得分p(語法)的具體步驟包括:
33、對新命題進行分詞處理得到詞匯序列;
34、基于語言模型計算所述詞匯序列的概率得分p(詞匯);
35、計算新命題的上下文相關性得分p(上下文);
36、根據公式p(語法)=p(詞匯)×p(上下文)計算語法概率得分p(語法)。
37、優選的,所述計算新命題的上下文相關性得分p(上下文)的具體步驟包括:
38、獲取所述新命題的前后文信息;
39、基于語言模型計算前后文信息的相關性得分p(前)和p(后);
40、判斷所述相關性得分p(前)和p(后)是否均高于第二預設閾值θ2;
41、如果p(前)>θ2且p(后)>θ2,則p(上下文)=?(p(前)+?p(后))/2;
42、其中,所述基于語言模型計算前后文信息的相關性得分p(前)和p(后)的具體步驟包括:
43、提取新命題的前后文關鍵詞;
44、基于語言模型計算所述關鍵詞在前后文中出現的概率p(關鍵詞);
45、計算關鍵詞與新命題之間的語義相似度s(語義);
46、根據公式p(前)/p(后)=?p(關鍵詞)×s(語義)計算相關性得分p(前)和p(后)。
47、優選的,所述計算關鍵詞與新命題之間的語義相似度s(語義)的具體步驟包括:
48、將關鍵詞和新命題分別向量化表示為向量v關鍵詞和v新命題;
49、計算向量v關鍵詞和v新命題之間的余弦相似度cos;
50、如果cos>第三預設閾值θ3,則s(語義)=cos。
51、優選的,所述步驟s3具體包括:
52、從預定義的領域特定知識庫中提取相關數據,該知識庫包含了廣泛的事實、規則、邏輯關系以及領域特定的概念。
53、設知識庫為k,新命題為p,
54、對于p中的每個子命題pi,從k中尋找與pi語義最接近的命題集合?{k1,k2,…,kn},
55、計算命題pi與k中對應命題kj的相似度,使用余弦相似度公式:,
56、其中,和是對應命題的語義向量表示;
57、根據知識庫中的規則和邏輯,驗證新命題與已知知識的邏輯一致性,對新命題ppp?的整體準確性進行評估,綜合考慮各個子命題的相似度和邏輯一致性,得出新命題的置信度分數?c(p):
58、,
59、其中,是邏輯一致性得分。
60、優選的,所述步驟s4具體包括:
61、基于步驟s3中的相似度和邏輯一致性結果,確定命題中錯誤的位置,定位每個子命題pi的錯誤點,如果小于預設閾值,則認為該子命題存在錯誤;
62、利用領域特定知識庫中的正確命題集合{k1,k2,…,kn}進行錯誤修正,使用替換策略,選擇與pi相似度最高且邏輯一致性最佳的命題kj替換pi中的錯誤部分,修正后的命題為:
63、;
64、將修正后的新命題再次通過知識庫驗證,確保其語義和邏輯的一致,如果修正后的命題仍不滿足條件,則進一步調整,直至命題的置信度達到設定的門檻值。
65、一種基于大模型新命題糾錯系統,采用所述的基于大模型新命題糾錯方法,所述系統包括:
66、語境信息獲取模塊,該語境信息獲取模塊用于獲取大模型生成的新命題及其對應的語境信息;
67、語義分析模塊,該語義分析模塊基于預訓練的語言模型,對新命題進行語義分析,識別新命題中的潛在錯誤;
68、驗證模塊,該驗證模塊利用領域特定知識庫驗證新命題的準確性;
69、修正模塊,該修正模塊根據語義分析結果和驗證反饋,自動修正新命題中的錯誤。
70、由上述技術方案可知,本發明具有如下有益效果:
71、該基于大模型新命題糾錯方法及系統,通過獲取生成的新命題及其對應的語境信息,基于預訓練的語言大模型對新命題進行語義分析,識別其中的潛在錯誤,利用領域特定知識庫驗證所述新命題的準確性,根據分析結果和驗證反饋自動修正新命題中的錯誤,使得新命題糾錯,尤其是在處理那些沒有明確規則可循的新類型錯誤時,更加智能和靈活,提高了準確性和效率,解決了在如何開發更加智能和靈活的糾錯方法,以提高在處理新命題時的準確性和效率問題上,現有技術雖然已經有一些研究嘗試通過增強模型的適應性或結合多種技術手段來提升糾錯效果,但仍然存在識別準確性不足、對新類型錯誤處理能力有限等問題。