本申請涉及計算機,尤其涉及一種基于大模型的電子憑證混合解析方法、設備及介質。
背景技術:
1、隨著信息技術的飛速發展,財務管理的數字化轉型已成為企業運營的必然趨勢。電子憑證,作為財務管理的重要組成部分,其準確性和效率對于企業的財務健康至關重要。然而,現有的財務電子憑證解析和驗證技術面臨著一系列挑戰,這些挑戰在很大程度上限制了財務管理的自動化和智能化水平。目前,財務電子憑證的處理主要依賴于傳統的文本識別技術和基于規則的解析方法。傳統的文本識別技術在處理格式復雜的電子憑證時,識別準確率較低,且容易受到圖像質量的影響,需人工干預以糾正錯誤和校驗信息;而基于規則的解析方法對憑證格式的微小變化敏感,難以適應多樣化的憑證信息識別。
技術實現思路
1、為了解決上述問題,本申請提出了一種基于大模型的電子憑證混合解析方法,包括:收集歷史數據,根據預先設置的數據形式對所述歷史數據進行標注,并對標注后的所述歷史數據進行向量化處理;將向量化處理后的所述歷史數據輸入至預先確定的數據模型中,以對所述數據模型進行訓練,并確定預先設置的特定任務,根據所述特定任務對訓練后的所述數據模型進行調整,以得到垂直領域模型;確定電子憑證信息,對所述電子憑證信息進行分區識別,以確定所述電子憑證信息對應憑證文本內容,并根據所述文本內容確定文本信息;將所述文本信息輸入至所述垂直領域模型,以確定提示詞工程,根據所述提示詞工程對所述電子憑證信息進行糾錯和校正,并對校正后的所述電子憑證信息進行格式化輸出。
2、在一個示例中,所述方法還包括:對所述歷史數據進行預處理,所述預處理包括清洗、標準化;確定所述歷史數據的來源信息,根據所述來源信息對所述歷史數據進行分類;確定預先設置的數據問答對,根據所述數據問答對將分類后的所述歷史數據進行標注。
3、在一個示例中,所述方法還包括:確定向量化后的數據問答對,將所述數據問答對輸入至所述數據模型中;對所述數據模型進行參數調整,以確定所述模型權重,從而根據所述模型權重完成模型訓練。
4、在一個示例中,所述方法還包括:確定預先設置的數據比例,根據所述數據比例對所述歷史數據進行劃分,以得到領域數據和通用數據;根據所述領域數據和所述通用數據確定訓練集和測試集,通過所述訓練集和所述測試集對所述數據模型進行調整。
5、在一個示例中,對所述電子憑證信息進行分區識別,具體包括:確定預先設置的區域類別,并確定所述區域類別的格式要求,根據所述格式要求確定所述區域類別的識別權重;根據所述識別權重對所述電子憑證信息進行分區識別,以確定所述電子憑證信息對應的區域類別。
6、在一個示例中,所述方法還包括:確定預先設置的區域要求,根據所述區域要求對分區識別后的所述電子憑證信息進行驗證;若驗證錯誤,則對所述電子憑證信息進行重新識別,并確定錯誤信息,根據所述錯誤信息對分區識別算法進行更新。
7、在一個示例中,所述方法還包括:確定預先設置的關鍵數據,根據所述關鍵數據對所述文本信息進行檢測,以確定所述文本信息是否完整;若所述文本信息是完整的,則對所述文本信息進行預處理,所述預處理包括去除噪聲、調整文字間距,將預處理后的所述文本信息輸入至所述垂直領域模型。
8、在一個示例中,所述方法還包括:根據所述提示詞工程對所述電子憑證信息進行分類和排序,并對分類和排序后的所述電子憑證信息進行格式化輸出。
9、另一方面,本申請還提出了一種基于大模型的電子憑證混合解析設備,包括:至少一個處理器;以及,與所述至少一個處理器通信連接的存儲器;其中,所述存儲器存儲有可被所述至少一個處理器執行的指令,所述指令被所述至少一個處理器執行,以使所述一種基于大模型的電子憑證混合解析設備能夠執行:收集歷史數據,根據預先設置的數據形式對所述歷史數據進行標注,并對標注后的所述歷史數據進行向量化處理;將向量化處理后的所述歷史數據輸入至預先確定的數據模型中,以對所述數據模型進行訓練,并確定預先設置的特定任務,根據所述特定任務對訓練后的所述數據模型進行調整,以得到垂直領域模型;確定電子憑證信息,對所述電子憑證信息進行分區識別,以確定所述電子憑證信息對應憑證文本內容,并根據所述文本內容確定文本信息;將所述文本信息輸入至所述垂直領域模型,以確定提示詞工程,根據所述提示詞工程對所述電子憑證信息進行糾錯和校正,并對校正后的所述電子憑證信息進行格式化輸出。
10、另一方面,本申請還提出了一種非易失性計算機存儲介質,存儲有計算機可執行指令,所述計算機可執行指令設置為:收集歷史數據,根據預先設置的數據形式對所述歷史數據進行標注,并對標注后的所述歷史數據進行向量化處理;將向量化處理后的所述歷史數據輸入至預先確定的數據模型中,以對所述數據模型進行訓練,并確定預先設置的特定任務,根據所述特定任務對訓練后的所述數據模型進行調整,以得到垂直領域模型;確定電子憑證信息,對所述電子憑證信息進行分區識別,以確定所述電子憑證信息對應憑證文本內容,并根據所述文本內容確定文本信息;將所述文本信息輸入至所述垂直領域模型,以確定提示詞工程,根據所述提示詞工程對所述電子憑證信息進行糾錯和校正,并對校正后的所述電子憑證信息進行格式化輸出。
11、本申請結合文本識別、自然語言處理、大模型等技術,僅需少量人工干預,提高了憑證解析的準確性、適應性和智能化水平,提升了電子憑證信息識別的準確性,增強了業務流程的自動化水平。本申請增強了復雜場景的文本識別數據準確性,提升了數據標簽生成的高效性,增加了文字位置識別框的穩定性,在源頭上改善原始憑證文本識別效果。同時,引入大模型對識別內容進行語義理解,與憑證實體建立實時關聯,實現財務電子憑證的完整信息抽取。
1.一種基于大模型的電子憑證混合解析方法,其特征在于,包括:
2.根據權利要求1所述的方法,其特征在于,所述方法還包括:
3.根據權利要求1所述的方法,其特征在于,所述方法還包括:
4.根據權利要求1所述的方法,其特征在于,所述方法還包括:
5.根據權利要求1所述的方法,其特征在于,對所述電子憑證信息進行分區識別,具體包括:
6.根據權利要求1所述的方法,其特征在于,所述方法還包括:
7.根據權利要求1所述的方法,其特征在于,所述方法還包括:
8.根據權利要求1所述的方法,其特征在于,所述方法還包括:
9.一種基于大模型的電子憑證混合解析設備,其特征在于,包括:
10.一種非易失性計算機存儲介質,存儲有計算機可執行指令,其特征在于,所述計算機可執行指令設置為: