本發明屬于文檔內容提取,尤其涉及一種表單內容提取方法及系統。
背景技術:
1、本部分的陳述僅僅是提供了與本發明相關的背景技術信息,不必然構成在先技術。
2、傳統的文檔內容提取通常以人為干預為主,smartfix被設計處理固定格式表格以及任何格式的非結構化信件等各種文件;schuster等人采用基于規則過濾的方法從財經新聞中自動提取公司名稱,基于模板匹配的方法被廣泛用于提取一個或多個目標;但是,這些方法往往需要預先設計大量的規則或者基于位置坐標設計模板,遷移成本較高。
3、基于上述問題,ch?iu等人提出了一種創新的混合模型,該模型結合bilstm和cnn自動檢測并提取單詞和字符級特征,無需繁瑣的特征工程和深厚詞匯知識,簡化了流程且滿足高性能需求;huang等人提出應用于序列標注任務的bi-lstm-crf模型,該模型能同時結合bilstm與crf(條件隨機場),不僅利用了過去和未來的輸入特征,還考慮了句子級別的標簽信息,使其在處理自然語言處理任務時更為強大和靈活;post-ocr解析方案通過ocr提取文本段落和坐標,序列化并進行bio(生物化標記)標記,最后分組合并生成解析結果。jiang等人提出將文本塊坐標嵌入特征直接加到bilstm-crf模型中;但是這些方法僅依賴于文本自身及其對應的位置信息來進行內容抽取,對于多模態文檔(例如表單,其內部文本數據之間存在一定的關聯關系)內容提取,此類方法無法有效獲取文本之間的關聯關系,導致提取的內容信息不完整。
技術實現思路
1、本發明實施例提供了一種表單內容提取方法及系統,以解決現有技術僅依賴文本自身及其對應的位置信息來進行內容抽取,而忽略了表單中文本實體之間的關聯關系,導致提取內容信息不完整的問題。
2、根據本發明實施例的第一個方面,提供了一種表單內容提取方法,包括:
3、獲取待內容提取的表單圖像;
4、基于獲得的表單圖像,進行文本及其對應的文本位置信息的提取;
5、基于提取的文本及其對應的文本位置信息,利用預先訓練的文本標簽識別模型,實現對表單內文本的標簽識別;
6、其中,所述文本標簽識別模型具體執行如下處理過程:基于提取的文本及其對應的文本位置信息,分別構建文本嵌入表示、位置信息嵌入表示以及布局嵌入表示;基于文本嵌入表示、位置信息嵌入表示以及布局嵌入表示,利用引入注意力精煉模塊的多模態編碼器,獲得多模態特征表示;基于所述多模態特征表示,利用引入注意力精煉模塊的解碼器,獲得文本標簽的識別結果;其中,所述注意力精煉模塊用于利用基于注意力機制得到的輸入數據的注意力得分,構建初始相似度矩陣;基于所述初始相似度矩陣構建精細矩陣;基于所述初始相似度矩陣和精細矩陣,結合注意力機制得到的內容向量,獲得注意力精煉模塊的輸出結果;
7、基于獲得的文本以及文本標簽,實現表單內容的提取。
8、進一步的,所述文本嵌入表示、位置信息嵌入表示以及布局嵌入表示的構建,具體為:對提取的文本進行分詞,并將每個詞轉換為詞表中的索引,以所述索引作為一維位置信息嵌入表示;將文本中每個分詞的詞向量和一維位置信息嵌入表示相加,獲得文本嵌入表示;基于文本提取時所對應文本框的寬度、高度以及邊界坐標值,構建文本所對應的布局嵌入表示。
9、進一步的,所述引入注意力精煉模塊的多模態編碼器,具體包括一個多頭注意力精煉模塊以及兩層前饋神經網絡,其中,所述多頭注意力精煉模塊由若干注意力精煉模塊構成,將文本嵌入表示、位置信息嵌入表示以及布局嵌入分別作為多頭注意力精煉模塊中各個注意力精煉模塊的輸入,以及,將各個注意力精煉模塊的輸出進行拼接后進行線性變換,獲得拼接特征;將所述拼接特征順序經殘差連接、歸一化處理以及全連接網絡處理后獲得多模態特征表示。
10、進一步的,所述引入注意力精煉模塊的解碼器,具體包括第一解碼器和第二解碼器,基于獲得的多模態特征表示,通過所述第一解碼器獲得文本對應的類別標簽,同時,基于獲得的類別標簽,通過第二解碼器獲得文本之間的關系。
11、進一步的,所述注意力精煉模塊,具體表示如下:
12、
13、r=reshape(norm(max(0,conv(reshape(αt)))wr))
14、其中,a表示注意力得分矩陣,t∈[0,l),t表示位置,αt表示位置t的注意力分數,r表示批量歸一化以及維度調整后得到精細矩陣,wr∈dc×n是可訓練參數矩陣,dc為卷積層的中間維度,n表示注意力頭的個數。
15、進一步的,所述文本及其對應的文本位置信息的提取,具體采用光學字符識別方法得到。
16、根據本發明實施例的第二個方面,提供了一種表單內容提取系統,包括:
17、數據獲取單元,其用于獲取待內容提取的表單圖像;
18、基本信息提取單元,其用于基于獲得的表單圖像,進行文本及其對應的文本位置信息的提取;
19、文本標簽識別單元,其用于基于提取的文本及其對應的文本位置信息,利用預先訓練的文本標簽識別模型,實現對表單內文本的標簽識別;其中,所述文本標簽識別模型具體執行如下處理過程:基于提取的文本及其對應的文本位置信息,分別構建文本嵌入表示、位置信息嵌入表示以及布局嵌入表示;基于文本嵌入表示、位置信息嵌入表示以及布局嵌入表示,利用引入注意力精煉模塊的多模態編碼器,獲得多模態特征表示;基于所述多模態特征表示,利用引入注意力精煉模塊的解碼器,獲得文本標簽的識別結果;其中,所述注意力精煉模塊用于利用基于注意力機制得到的輸入數據的注意力得分,構建初始相似度矩陣;基于所述初始相似度矩陣構建精細矩陣;基于所述初始相似度矩陣和精細矩陣,結合注意力機制得到的內容向量,獲得注意力精煉模塊的輸出結果;
20、表單內容提取單元,其用于基于獲得的文本以及文本標簽,實現表單內容的提取。
21、根據本發明實施例的第三個方面,提供了一種電子設備,包括存儲器、處理器及存儲在存儲器上運行的計算機程序,所述處理器執行所述程序時實現所述的表單內容提取方法。
22、根據本發明實施例的第四個方面,提供了一種非暫態計算機可讀存儲介質,其上存儲有計算機程序,該程序被處理器執行時實現所述的表單內容提取方法。
23、根據本發明實施例的第五個方面,提供了一種計算機程序產品,所述計算機程序產品包括計算機程序,所述計算機程序被處理器執行時實現所述的表單提取方法。
24、以上一個或多個技術方案存在以下有益效果:
25、(1)本發明提供了一種表單內容提取方法及系統,所述方案在表單內容提取過程中通過引入表單文檔整體的布局嵌入表示,結合文本及其對應的文本位置信息,基于多模態特征對表單中的文本進行標簽識別,通過標簽識別獲取表單中文本之間的關聯關系;并以文本的標簽和文本自身的結合作為表單內容提取的結果,有效豐富了表單內容提取的完整性。
26、(2)本發明提供了一種注意力精煉模塊,通過該模塊能夠對注意力分數進行加權、提高,可以更精確地進行文本識別。
27、本發明附加方面的優點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發明的實踐了解到。