表格重構裝置和方法
【技術領域】
[0001]本發明涉及信息處理領域,更具體地涉及一種表格重構裝置和方法。
【背景技術】
[0002]隨著互聯網的飛速發展,互聯網中出現了大量的表格數據,表格數據中含有豐富的結構化信息。挖掘表格數據可以獲取大量的人類知識。但是表格數據往往結構復雜,字段重疊,一張表格中包括多個描述對象及其屬性。有些屬性可以描述多個描述對象,因此要從表格中抽取知識,首先應該將表格重構成結構簡單,描述對象單一的形式,然后才能進行有效的知識獲取。例如,圖1A中的表格包括兩個描述對象“人”和“公司”,其中描述人的屬性有“姓名、國籍、學位、畢業院校、創辦企業、聯系方式、e-mail ”,描述公司的屬性有“成立日期、地址、服務、領域、聯系方式”,其中“聯系方式”列既可以是描述人的屬性,又可以是描述公司的屬性。
[0003]因此,需要一種將表格重構成結構簡單、描述對象單一的形式的單一描述對象表格的裝置和方法。
【發明內容】
[0004]在下文中給出關于本發明的簡要概述,以便提供關于本發明的某些方面的基本理解。應當理解,這個概述并不是關于本發明的窮舉性概述。它并不是意圖確定本發明的關鍵或重要部分,也不是意圖限定本發明的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
[0005]本發明的一個主要目的在于,提供一種表格重構裝置,包括:列屬性確定單元,被配置成確定表格中每一列的屬性;描述對象確定單兀,被配置成通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格中的描述對象;描述對象相關屬性確定單元,被配置成在語義知識庫中確定每個描述對象的屬性集合,計算表格中每一列的屬性與屬性集合中的每個屬性的第一相似度來確定表格中與描述對象相關的屬性;以及表格重構單元,被配置成使用描述對象和與描述對象相關的屬性對表格進行重構。
[0006]根據本發明的一個方面,提供了一種表格重構方法,包括:確定表格中每一列的屬性;通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格的描述對象;在語義知識庫中確定每個描述對象的屬性集合,計算表格中每一列的屬性與屬性集合中的每個屬性的第一相似度來確定表格中與描述對象相關的屬性;以及使用描述對象和與描述對象相關的屬性重構表格。
[0007]另外,本發明的實施例還提供了用于實現上述方法的計算機程序。
[0008]此外,本發明的實施例還提供了至少計算機可讀介質形式的計算機程序產品,其上記錄有用于實現上述方法的計算機程序代碼。
[0009]通過以下結合附圖對本發明的最佳實施例的詳細說明,本發明的這些以及其他優點將更加明顯。
【附圖說明】
[0010]參照下面結合附圖對本發明實施例的說明,會更加容易地理解本發明的以上和其它目的、特點和優點。附圖中的部件只是為了示出本發明的原理。在附圖中,相同的或類似的技術特征或部件將采用相同或類似的附圖標記來表示。
[0011]圖1A示出了包含多個描述對象的示例性表格;
[0012]圖1B和圖1C是由圖1A中的表格重構的兩個單一描述對象的表格的圖;
[0013]圖2示出了根據本發明的一個實施例的對表格進行重構的裝置200的示例性配置的框圖;
[0014]圖3是示出圖2中的描述對象確定單元204的一種示例性配置的框圖;
[0015]圖4示出了根據本發明的一個實施例的對表格進行重構的方法400的流程圖;
[0016]圖5是示出圖4中的步驟S404的一種示例性過程的流程圖;
[0017]圖6是示出可以用于實施本發明的表格重構裝置和方法的計算設備的示例性結構圖。
【具體實施方式】
[0018]下面參照附圖來說明本發明的實施例。在本發明的一個附圖或一種實施方式中描述的元素和特征可以與一個或更多個其它附圖或實施方式中示出的元素和特征相結合。應當注意,為了清楚的目的,附圖和說明中省略了與本發明無關的、本領域普通技術人員已知的部件和處理的表示和描述。
[0019]本發明提出一種表格重構裝置和方法,可以將包含多個描述對象的表格(如圖1A所示)拆分成多個單一描述對象表格(例如圖1B和圖1C)。從圖1A-1C可以看到,圖1A中的表格包括兩個描述對象“人”和“公司”,其中描述人的屬性有“姓名、國籍、學位、畢業院校、創辦企業、聯系方式、e-mail”,描述公司的屬性有“成立日期、地址、服務、領域、聯系方式”,其中“聯系方式”列既可以是描述人的屬性,又可以是描述公司的屬性。如圖1B和IC所示,分別是根據圖1A中的兩個描述對象“人”和“公司”及其對應的屬性重構的兩個單一描述對象表格。
[0020]根據本發明的裝置和方法,首先根據表格列標題和/或表格列中的實例信息確定該列對應的屬性,然后根據每列的對應的屬性確定描述對象及其屬性列,最后根據描述對象和屬性列的對應關系將原始表格重構成單一描述對象表格。
[0021]下面結合附圖詳細說明根據本發明的一個實施例的對表格進行重構的裝置。
[0022]圖2示出了根據本發明的一個實施例的對表格進行重構的裝置200的示例性配置的框圖。
[0023]如圖2所示,表格重構裝置200包括列屬性確定單元202、描述對象確定單元204、描述對象相關屬性確定單元206和表格重構單元208。
[0024]列屬性確定單元202可以確定表格中每一列的屬性。
[0025]描述對象確定單元204可以通過將所確定的每一列的屬性與語義知識庫鏈接來確定表格中的描述對象。
[0026]描述對象相關屬性確定單元206可以在語義知識庫中確定每個描述對象的屬性集合,計算表格中每一列的屬性與屬性集合中的每個屬性的第一相似度來確定表格中與描述對象相關的屬性。
[0027]表格重構單元208可以使用描述對象和與描述對象相關的屬性對表格進行重構。
[0028]下面分別詳細說明表格重構裝置200所包括的各個單元。
[0029]表格的每一列都表TJK描述對象的某個屬性。確定表格的列對應的屬性可以是確認表格的列與語義知識庫中哪個屬性對應。在一個示例中,語義知識庫可以是L0D(linkedopen data, 一種全球知識庫)知識庫,下文中就以LOD知識庫作為語義知識庫的示例進行說明。
[0030]在本發明的一個示例性實施例中,確定表格的列對應的屬性可以考慮以下兩方面的信息:列標題和列實例信息。當表格存在列標題時,表格的列標題通常是表格的第一行,將表格列標題與LOD知識庫中的屬性進行鏈接,可以得到LOD知識庫中的對應的屬性。如果沒有找到對應的LOD屬性,再通過基于列實例的識別方法進行識別。如果表格沒有列標題,那么直接使用基于列實例的識別方法進行識別。
[0031]下面介紹基于列實例信息來確定表格中每一列的屬性的一個TJK例性方法。
[0032]首先,對于有特定模式的列實例使用正則表達式識別。例如,郵政編碼、電話號碼(手機號碼,座機號碼)、網址URL、IP地址、E-mai 1、時間、日期等。可以確定圖1A中的表格的第6、7、8列的屬性為成立日期、聯系方式和e-mail。
[0033]其次,識別人名,地址等內容。人名識別可以利用姓氏詞典識別;地址使用具有層級關系的地址知識庫匹配,地址知識庫層級關系由上到下為國家,省市/自治區,區縣,鄉鎮,街道等,地址也可以使用搜索引擎判斷,即使用地圖搜索引擎檢索該列實例,如果地圖搜索引擎返回檢索結果,那么該列實例對應的屬性為地址。可以確定圖1A中,第I列和第9列對應的屬性分別為姓名和地址。
[0034]最后,將未知屬性的列對應的列實例與LOD知識庫中的實體進行鏈接,使用LOD知識庫中的知識判斷表格列對應的屬性。例如將圖1A中的第4列與LOD知識庫進行鏈接,根據LOD知識庫,可以知道“清華大學”和“斯坦福大學”的對應屬性都是“大學”。通過這種方式,可以確定第2、3、4、5、10、11的對應屬性分別是國籍、學位、畢業院校、創辦企業、月艮務、領域。
[0035]在一個示例中,對表格列的對應屬性的識別采用全局協同識別,即識別結果不依賴于某個列實例,而是該列中多個列實例協同識別的結果。例如,某列有η個實例,其中有m個對應屬性Pa,n-m個對應屬性pb,那么最終該列的類別可以由預設條件決定,如果m> (n-m)且m/n大于預設值,則該列對應的屬性為pa。如果不滿足預設條件則無法識別,可以忽略該列。
[0036]通過上述過程,列屬性確定單元202可以確定