用于將表格信息植入信息庫的方法和裝置的制造方法
【技術領域】
[0001]本發明涉及信息技術領域,尤其涉及一種用于將表格信息植入信息庫的方法和裝置。
【背景技術】
[0002]目前,大多數企業都有其內部的信息庫,其幫助企業內部的員工共享信息。隨著商業的發展,越來越多的企業需要與它們的合作伙伴共享信息,而不僅是在企業內部共享信肩、O
[0003]目前在企業間共享信息主要通過以下三種方式。
[0004]第一種方式是電子數據交換(EDI),它是多個計算機應用之間在理解傳輸的文檔方面的通用接口。目前它被很多大公司用于例如發送訂單等信息交換。這種方式的問題是:第一,它的成本高,因而許多小公司不愿意采用;第二,它要求信息交換的對方,即合作伙伴,也連接到EDI系統,而企業的合作伙伴是經常變化的;第三,它通過第三方系統交換信息,因而安全性差。
[0005]第二種方式是人工輸入的方式。例如,企業的員工接收到從合作伙伴通過電子郵件發來的文檔表格(例如訂單)時,將文檔表格中的信息一項一項以人工的方式輸入到企業的信息庫中。這種方式低效且容易出錯。
[0006]第三種方式是專用程序的方式。對于特定的合作伙伴,分析它歷史上發送過來的文檔表格的數據結構。針對該合作伙伴,編寫專用程序,用于解釋該合作伙伴的文檔表格的內容并將其轉換為企業的信息庫可以理解的結構,并合并到企業的信息庫中。它的缺點是每個專用程序只針對特定的合作伙伴,因此需要大量的專用程序。而且,企業的合作伙伴經常發生變化,且特定合作伙伴的文檔表格的數據結構也可能發生調整,在這些情況下都需要重新編寫專用程序。
【發明內容】
[0007]本發明的一個實施例旨在提高將文檔表格信息植入企業的信息庫的效率。
[0008]根據本發明的一個實施例,提供了一種用于將表格信息植入信息庫的方法,包括:響應于接收到表格,參照結構化模板從表格中至少識別出頭部和值;響應于對識別結果的反饋,調整識別結果,并按調整后的識別結果修正結構化模板;將調整后的識別結果中的頭部與信息庫中已有的頭部進行匹配,從而按照頭部的匹配結果將所述表格中的值合并到信息庫中。
[0009]在一種具體實現中,所述結構化模板初始包括預先定義的頭部的集合,且響應于所述結構化模板是初始的,從表格中至少識別出頭部和值的步驟參照以下項中的一項或多項進行識別:表格中的元素與結構化模板中的預先定義的頭部及其同義詞的匹配,所述同義詞包括預先為所述預先定義的頭部指定的同義詞和通過檢索資源獲得的同義詞中的至少一個;表格中的元素的顯示屬性;表格中元素的數據類型。
[0010]在一種具體實現中,所述結構化模板初始為空模板,且響應于所述結構化模板是初始的,從表格中至少識別出頭部和值的步驟參照以下項中的一項或多項進行識別:表格中的元素的顯示屬性;表格中元素的數據類型。
[0011]在一種具體實現中,從表格中至少識別出頭部和值的步驟還包括從表格中還識別出關鍵注解及其代表的含義;將調整后的識別結果中的頭部與信息庫中已有的頭部進行匹配的步驟還包括以關鍵注解代表的含義作為新的頭部,關鍵注解作為該新的頭部對應的新的值,擴充該表格,以便與信息庫中已有的頭部進行匹配。
[0012]在一種具體實現中,根據表格中的頭部和值之外的部分的顯示屬性和數據類型中的至少一個,識別出關鍵注解及其代表的含義。
[0013]在一種具體實現中,從表格中至少識別出頭部和值的步驟包括:響應于多個表格被識別出具有相同的頭部,將所述多個表格按照所述相同的頭部整合。
[0014]在一種具體實現中,從表格中至少識別出頭部和值的步驟包括:響應于多個表格被識別出具有相同的某一頭部的元組,將所述多個表格按照該元組整合,所述元組是與該頭部對應的值的集合。
[0015]在一種具體實現中,從表格中至少識別出頭部和值的步驟包括:響應于從表格中識別出多個層級的頭部,將所述多個層級的頭部轉換成單個層級的頭部,所述單個層級的頭部以轉換前的所述多個層級的頭部名稱級聯命名。
[0016]在一種具體實現中,將調整后的識別結果中的頭部與信息庫中已有的頭部進行匹配的步驟包括:響應于為調整后的識別結果中的頭部輸入的別名,將調整后的識別結果中的頭部及其別名與信息庫中已有的頭部進行匹配。
[0017]在一種具體實現中,所述結構化模板是與所述表格的類別相關聯的。
[0018]根據本發明的一個實施例,提供了一種用于將表格信息植入信息庫的裝置,包括:識別單元,被配置為響應于接收到表格,參照結構化模板從表格中至少識別出頭部和值;調整單元,被配置為響應于對識別結果的反饋,調整識別結果,并按調整后的識別結果修正結構化模板;匹配單元,被配置為將調整后的識別結果中的頭部與信息庫中已有的頭部進行匹配,從而按照頭部的匹配結果將所述表格中的值合并到信息庫中。
[0019]在一種具體實現中,所述結構化模板初始包括預先定義的頭部的集合,且識別單元被配置為響應于所述結構化模板是初始的,參照以下項中的一項或多項從表格中至少識別出頭部和值:表格中的元素與結構化模板中的預先定義的頭部及其同義詞的匹配,所述同義詞包括預先為所述預先定義的頭部指定的同義詞和通過檢索資源獲得的同義詞中的至少一個;表格中的元素的顯示屬性;表格中元素的數據類型。
[0020]在一種具體實現中,所述結構化模板初始為空模板,且識別單元被配置為響應于所述結構化模板是初始的,參照以下項中的一項或多項從表格中至少識別出頭部和值:表格中的元素的顯示屬性;表格中元素的數據類型。
[0021]在一種具體實現中,識別單元還被配置為從表格中還識別出關鍵注解及其代表的含義;匹配單元還被配置為以關鍵注解代表的含義作為新的頭部,關鍵注解作為該新的頭部對應的新的值,擴充該表格。
[0022]在一種具體實現中,識別單元被配置為根據表格中的頭部和值之外的部分的顯示屬性和數據類型中的至少一個,識別出關鍵注解及其代表的含義。
[0023]在一種具體實現中,識別單元還被配置為響應于多個表格被識別出具有相同的頭部,將所述多個表格按照所述相同的頭部整合。
[0024]在一種具體實現中,識別單元還被配置為:響應于多個表格被識別出具有相同的某一頭部的元組,將所述多個表格按照該元組整合,所述元組是與該頭部對應的值的集合。
[0025]在一種具體實現中,識別單元還被配置為:響應于從表格中識別出多個層級的頭部,將所述多個層級的頭部轉換成單個層級的頭部,所述單個層級的頭部以轉換前的所述多個層級的頭部名稱級聯命名。
[0026]在一種具體實現中,匹配單元被配置為:響應于為調整后的識別結果中的頭部輸入的別名,將調整后的識別結果中的頭部及其別名與信息庫中已有的頭部進行匹配。
[0027]在一種具體實現中,所述結構化模板是與所述表格的類別相關聯的。
[0028]根據本發明的一個實施例,還提供了一種信息管理系統,包括信息庫和如上所述的用于將表格信息植入信息庫的裝置。
[0029]由于根據本發明的一個實施例的方案參照結構化模板從文檔表格中至少識別出頭部和值,用于隨后的與信息庫的匹配和合并,而這個結構化模板是根據實際運行中用戶對識別結果的反饋不斷調整的(即自學習的方式),這樣就能夠不用人工輸入而自動地將文檔表格中的數據結構識別出來,從而自動將文檔表格中的信息植入企業的信息庫。根據本發明的一個實施例,提高了將文檔表格信息植入企業的信息庫的效率。
[0030]另外,由于根據本發明的一個實施例的方案采用自學習的方式,因而無需針對每個合作伙伴編寫專用程序,具有通用性。
【附圖說明】
[0031]本發明的這些和其它的特征和優點通過以下結合附圖的詳細描述將變得更加顯而易見。
[0032]圖1示出了根據本發明的一個實施例的用于將表格信息植入信息庫的方法的流程圖。
[0033]圖2示出了根據本發明的一個實施例的企業A從合作伙伴B接收到的一個表格。
[0034]圖3示出了根據本發明的一個實施例的企業A的信息庫中的數據結構。
[0035]圖4示出了根據本發明的一個實施例的初始的結構化模板。
[0036]圖5示出了根據本發明的一個實施例的從來自合作伙伴B的表格中識別出頭部、值、關鍵注解和一般注解的識別結果。
[003