本體映射方法和設備與流程

文檔序號：11160950閱讀：585來源：國知局

本發明涉及使用本體生成映射的方法和設備。現有技術的描述本說明書中對任何現有公開(或由其獲得的信息)或對任何已知內容的參考不是且不應認為是承認或認可或任何形式地建議現有公開(或從其獲得的信息)或已知內容形成本說明書涉及的致力領域的公知常識的一部分。存在描述科學、工程和商業領域的方方面面的數千種公共和私人本體。本發明描述了一組過程，所述過程允許在不考慮數據結構或缺少結構的情況下將這些高級本體中的知識和元數據應用于任何數據的管理。知識和數據的迅速增長超出了傳統信息管理機制進行管理或甚至是進行描述的能力。諸如本體等語義網技術和諸如OWL(網絡本體語言)和RDF(資源描述框架)等新語言促成諸如健康、醫藥或工程等鏈接概念的描述以從前不可能達到的詳細程度以及以人類和機器均可理解的形式進行描述。這些本體通常由主題專家(本體專家)團隊創建，并且通常是公眾可用的。目前，對定義鏈接概念的本體的操縱主要限于學者和專業本體專家。這些本體可能包含數千種鏈接概念。即使刪除一種概念、公理或數據性質都可能使得許多關系無效。人工確定效果是冗長且乏味的過程。該項目所滿足的業務需求是使得具有很少或不具有本體論專業知識的人能夠以簡單可理解的方式訪問本體的所有詳細內容。另外，該人將能夠使用簡化的查詢構造機制選擇和檢查通過本體進行描述的數據。它將能夠向仍然在執行的原始本體中存在的所有約束和推理的數據添加記錄。最終，其將能夠生成和部署代碼和屏幕作為適合于負責人辦公室人員使用的獨立應用。特定業務或研究需要可能要求來自多個本體的概念，所述多個本體可能來自不同學科。在這種情況下，可能要求兩個本體中的概念之間的對準。這些對準的本體之后可能被刪減，以給出針對業務或組織的特定需要的目標本體。本發明不但提供所要求的對準和刪減方法，而且還提供用以利用針對業務環境的同義詞和同形同音異義詞來執行概念和寬泛初級索引的語義匹配的技術工具。利用該工具箱，用戶可以：訪問不同數據源，將其映射至語境特定本體，對不同本體進行對準，并且隨后刪減對準的本體以包含僅相關的信息。然后，其可以將數據提取成其所選擇的格式，經由生成的能夠理解所討論的本體的公理和推理的生成的應用對數據進行訪問，并且依賴目標數據庫利用程序代碼實現數據。例如，醫生可以從多個實踐管理系統、醫院和衛生系統以及診斷和成像系統訪問患者記錄，無需擔心所訪問的各種記錄格式。醫學研究員可以將所述數據結合到諸如基因分析、藥物開發和測試等的實驗室研究數據中。交通工程師可以將信號數據結合到氣壓數據、CCTV資訊、微博和事件日歷中。電信公司可以接受99％的新呼叫數據記錄結構，而無需針對制造商范圍中的每一模型為制造商創建的每一新電話特征編寫特定代碼。最后，在業務領域中，通過使用適當地調整的本體來描述業務問題并且隨后生成代碼以執行所描述的業務規則，市場上推出新IT軟件的時間被大大縮短。這些業務規則可以訪問大數據和傳統數據的所有方面。US-7,464,099提供一種從文件和數據庫傳遞內容的方法。在這種情況下，文件包括內容實例，每一內容實例與相應領域相關聯，并且每一領域具有相應類型。所述傳遞通過以下方式實現：確定每一領域的類型，并且隨后根據相關領域的確定的領域類型在存儲器中存儲每一內容實例。然后可以根據確定的領域類型將每一內容實例傳遞至數據庫。提供一種用于基于數據庫內的內容創建XML文件的類似程序。發明概要在第一方面中，本發明提供一種使用本體生成映射的設備，所述設備包括至少一個電子處理裝置，所述電子處理裝置：確定具有相應本體項的本體；根據所述本體中的至少一個確定一組本體項；針對所述一組本體項中的至少一些確定本體中的本體項之間的對準，所述對準至少部分地根據本體項的本體項含義進行確定；以及根據所述對準生成映射。優選地，所述映射可以是以下中的至少一個：合并本體；以及對準索引。優選地，本體可以包括：推定本體；以及正式本體。優選地，電子處理裝置可以生成映射，以將推定本體映射至正式本體。優選地，在將內容從具有包括多個源數據字段的源數據結構的數據源存儲器傳遞內容至具有包括多個目標數據字段的目標數據結構的目標數據存儲傳遞內容的過程中使用映射，其中本體與源數據結構和目標數據結構相關聯，并且其中所述電子處理裝置使用所述映射在源數據字段與目標數據字段之間傳遞內容。優選地，本體可以包括與源數據結構相關聯的源本體和與目標數據結構相關聯的目標本體。優選地，源本體和目標本體可以是推定本體，并且所述源本體和所述目標本體被映射至一個或多個正式本體。優選地，所述電子處理裝置可以通過以下方式確定本體：生成推定本體；以及選擇多個現有本體中的一個。優選地，所述電子處理裝置可以使用以下中的至少一個選擇本體：與數據結構相關聯的元數據；以及數據結構的數據字段。優選地，電子處理裝置可以通過以下方式選擇多個現有本體中的一個：將數據字段與多個現有本體的本體項進行比較；以及根據所述比較的結果選擇所述多個現有本體中的一個。優選地，電子處理裝置可以通過以下方式從數據庫模式生成推定本體：識別所述模式中的表格；創建對應于每一表格的本體項；識別至少一個材料單表格；以及創建對應于所述材料單表格中的每一條目的本體項。優選地，電子處理裝置可以通過以下方式從數據庫模式生成推定本體：顯示對應于所述材料單表格中的每一條目的本體項的指示；以及響應于用戶輸入命令將本體項添加至推定本體。優選地，電子處理裝置可以使用由數據庫模式定義的表格結構生成本體項之間的關系。優選地，推定本體可以包括：對應于本體項的類別；所述類別中的至少一些的數據性質；以及定義類別之間的關系的對象性質。優選地，電子處理裝置：可以確定至少一個本體的索引，所述索引包括至少一個本體的本體項的指示；并且使用所述索引來確定：所述一組本體項；以及本體項之間的對準。優選地，對于每一本體項，所述索引可以包括對以下的指示：本體項含義；以及本體項類型。優選地，電子處理裝置可以通過以下方式生成每一本體項的索引：識別本體項名稱；識別本體項類型；使用語義匹配過程識別每一本體項的本體含義；以及創建包括本體項名稱、本體項類型和本體項含義的指示的索引條目。優選地，電子處理裝置生成多個本體的單個索引，并且其中所述索引條目包括與本體項相關聯的本體的指示。優選地，電子處理裝置可以：顯示本體中的一個或多個本體項的指示；響應于用戶輸入命令來識別至少一個本體項；以及顯示以下中的至少一個的詳細信息：至少一個識別的本體項；以及與至少一個識別的本體項相關聯的數據性質。優選地，電子處理裝置可以使用索引確定一個或多個本體項的指示。優選地，電子處理裝置可以：響應于用戶輸入命令來確定用戶選擇的本體項和對應用戶選擇的數據性質；以及根據用戶選擇的本體項和對應用戶選擇的數據性質生成可執行代碼，當在計算機系統上執行所述可執行代碼時引起所述計算機系統顯示用于允許用戶與存儲在具有數據結構的數據存儲中的內容交互的用戶界面，所述內容存儲在對應于用戶選擇的本體項的數據字段中。優選地，可執行代碼可以引起計算機系統生成查詢，以用于與存儲在與源本體或目標本體相一致的源數據結構或目標數據結構中的數據交互。優選地，可執行代碼可以引起計算機系統根據數據性質和用戶選擇的本體的本體項之間的關系中的至少一個生成查詢。優選地，可執行代碼可以引起計算機系統：顯示一個或多個本體項的指示；響應于用戶輸入命令來確定至少一個本體項的選擇；以及查詢存儲在與選擇的本體項相關聯的數據字段中的數據。優選地，電子處理裝置可以：將本體項與多個潛在的本體項含義進行比較；以及根據所述比較的結果選擇所述潛在本體項含義中的一個作為本體項含義。優選地，所述電子處理裝置可以通過以下方式確定本體項含義：生成每一比較的結果的匹配分數；以及根據匹配分數確定本體項含義。優選地，電子處理裝置可以確定潛在的本體項含義是否是以下中的至少一個：同義詞；反義詞；部分詞；超類；以及小類。優選地，電子處理裝置可以在索引中存儲本體項含義的指示，所述指示包括以下中的至少一個：指示定義的含義的標識符；以及同等含義的列表。優選地，所述電子處理裝置可以通過以下方式確定本體項之間的對準：比較多個本體項的本體項含義；生成每一比較的結果的匹配分數；以及根據匹配分數確定對準。優選地，電子處理裝置可以基于以下中的至少一個進一步確定所述對準：本體項之間的關系；以及本體項的數據性質。優選地，電子處理裝置可以：確定源本體中的源本體項之間的關系；確定目標本體中的目標本體項之間的關系；將所述關系進行比較；以及根據所述比較的結果確定對準。優選地，電子處理裝置可以確定來自源本體的一個或多個源本體項與來自目標本體的一個或多個目標本體項之間的對準。優選地，電子處理裝置可以通過以下方式確定所述一組本體項：確定選擇的本體項；以及至少部分地根據選擇的本體項和選擇的本體項之間的關系確定所述一組本體項。優選地，所述電子處理裝置可以通過以下方式確定相關的本體項：對于每一選擇的本體項，識別多個不同類型的關系中的每一個的定義的關系路徑長度內的本體項；以及將所述識別的本體項添加至所述一組本體項。優選地，電子處理裝置可重復地添加識別的本體項，直至所有選擇的本體項均被關系相連。優選地，電子處理裝置可以為不同類型的關系使用不同關系路徑長度。優選地，電子處理裝置可以根據用戶輸入命令確定關系路徑長度。優選地，設備可以包括：索引器模塊，所述索引器模塊生成指示本體中的本體項的索引；瀏覽器模塊，所述瀏覽器模塊允許瀏覽本體中的本體項并且生成體現本體的至少一部分的代碼，從而允許用戶與存儲在與所述本體相一致的數據結構中的數據交互；對準器模塊，所述對準器模塊確定不同本體的本體項之間的對準；刪減器模塊，所述刪減器模塊至少部分地使用本體項之間的關系確定至少一個本體內的一組本體項；以及語義匹配器模塊，所述語義匹配器模塊識別本體項含義。在第二方面中，本發明提供一種用于使用本體生成映射的方法，所述方法包括在至少一個電子處理裝置中：確定具有相應本體項的本體；根據所述本體中的至少一個確定一組本體項；針對所述一組本體項中的至少一些，確定本體中的本體項之間的對準，所述對準至少部分地根據本體項的本體項含義進行確定；以及根據所述對準生成映射。附圖簡述現在將參考附圖描述本發明的實例，其中：圖1A是使用本體生成映射的方法的實例的流程圖；圖1B是基于一個示例性本體結構的不同映射的實例的示意圖；圖2是分布式計算機架構的實例的示意圖；圖3是基站處理系統的實例的示意圖；圖4是計算機系統的實例的示意圖；圖5是用于生成在源數據結構與目標數據結構之間傳遞內容的映射的方法的實例的流程圖；圖6是生成推定本體的方法的實例的流程圖；圖7是確定索引的方法的實例的流程圖；圖8是瀏覽本體的方法的實例的流程圖；圖9是刪減本體的方法的實例的流程圖；圖10是對準本體的方法的第二實例的流程圖；圖11是語義匹配方法的實例的流程圖；圖12A和圖12B是示例性本體的示意圖；圖13是用于與本體交互的模塊的示意圖；圖14A是圖13的ETL(提取轉換加載)模塊的軟件棧的實例的示意圖；圖14B是用于實現圖13的ETL模塊的架構的示意圖；圖15是圖13的瀏覽器模塊的功能性的實例的示意圖；圖16是圖13的索引器模塊的功能性的實例的示意圖；圖17A是圖13的刪減器模塊的功能性的實例的示意圖；圖17B至圖17D是刪減過程的實例的示意圖；圖18A是圖13的語義匹配器模塊的功能性的第一實例的示意圖；圖18B是圖13的語義匹配器模塊的功能性的第二實例的示意圖；圖18C是表格之間的關系的實例的示意圖；圖18D是圖13的語義匹配器模塊的功能性的第三實例的示意圖；圖19A是“事物數據庫”的實例的示意圖；圖19B是用于統一不同源的架構的實例的示意圖；圖19C是圖13的對準器模塊的功能性的實例的示意圖；以及圖19D和圖19E是合并本體的實例的示意圖。優選實施方案的詳述現在將參考圖1A描述使用本體生成映射的方法的實例。出于該實例的目的，假設至少部分地使用如下面將更詳細地描述的電子處理裝置執行過程，所述電子處理裝置諸如計算機系統的微處理器。對于至少一些實例，還假設將內容作為一個或多個內容實例存儲在數據存儲的內容字段中，所述數據存儲充當內容知識庫，諸如數據庫或文件。因此，內容字段可以是數據庫的數據庫字段，其中內容實例對應于數據庫記錄，包括跨一個或多個數據庫字段存儲的值。或者，內容字段可以是定義在文件、諸如XML文件內的字段，所述文件可用于傳輸數據，例如當將從數據庫提取數據和/或將把數據傳遞至數據庫時，如根據下面的描述將變得明白。作為另一替代方案，內容字段可以是定義在諸如RDF三元組存儲器等文件內的字段，所述文件可用于傳輸數據，例如當將從數據庫提取數據和/或將把數據傳遞至數據庫時，如根據下面的描述也將變得明白。假設根據數據結構對內容進行存儲，所述數據結構諸如數據庫模式、XML文檔定義、本體或模式等。出于在整個以下描述中進行說明的目的，術語“源”被用于指代諸如數據提取自的數據庫或文件的數據存儲，而術語“目標”用于指代諸如數據被存儲進去的數據庫或文件的數據存儲。這些術語僅用于說明的目的，例如用于區分可能的源和目標，并且并非意在進行限制。術語“內容實例”指代提取自源和/或傳遞至目標的獨立的一段內容，并且也并非意在進行限制。例如，術語內容實例可以指代具有存儲在多個不同數據庫字段中的值的數據庫記錄，或者一組相關數據庫記錄，或者可以指代存儲在單個字段內的單個值。術語“本體”代表知識，如領域內的一組概念，所述知識使用共享詞匯表來表示類型、性質和這些概念的相互關系。本體通常包括多個組件，諸如個體、類別、對象、屬性等，并且術語“本體項”一般用于指代這些組件并且任選地指代這些概念中的特定一些。術語“含義”意在指代特定本體項、內容字段名稱等的語義解釋。因此，術語“含義”涵蓋本體項或內容字段的字面含義，例如以解釋諸如同形同音異義詞、同義詞、部分詞等的問題，如下面將更詳細地描述。在該實例中，在步驟100中，電子處理裝置確定具有相應本體項的本體。該過程可以任何合適的方式執行，并且可以包括使得電子處理裝置選擇存儲在例如一個或多個本體數據庫中的多個現有本體中的一個或多個，或者可以通過生成推定本體來實現。在一個實例中，所選擇的本體對應于與源數據結構相關聯的源本體和與目標數據結構相關聯的目標本體，但是這并不是至關重要的。本體的選擇可以在源數據結構或目標數據結構的基礎上實現，并且可以包括將數據結構內的字段與本體項進行比較，直到找到合適匹配為止。該過程可能還涉及多個本體、并且因此有關該內容的特定主題字段、與內容有關的行業等的本體的檢查領域和選擇領域。對本體的選擇可以是自動化的，例如通過提供電子處理裝置，所述電子處理裝置具有相關內容的主題字段的指示；本體的選擇可以是手動的，例如通過使得所述電子處理裝置顯示可用本體的詳細信息來允許用戶選擇這些本體；或者本體的選擇利用手動過程和自動化過程的組合。或者，這可涉及從源數據結構或目標數據結構生成‘推定的’本體，例如使用元數據、數據庫模式等。該過程可涉及從關系型參照完整性約束得出一些本體公理，但是大多數公理將需要手動添加或忽略。然后可以將該推定本體與現有豐富本體進行對準以添加元數據。在步驟110中，電子處理裝置從本體中的至少一個確定一組本體項。所述一組本體項通常是相應本體的子組，并且代表一組相關的本體項。該組通常包括例如對應于相關本體項的選擇的本體項。因此，例如，當在映射源和目標數據結構中使用時，所述一組本體項可以包括對應于將被映射至目標數據字段或源數據字段的源數據字段或目標數據字段的選擇的本體項，例如以允許提取其中的內容并將所述內容傳遞至目標數據存儲。該組通常進一步包括維護選擇的本體項之間的關系所需要的本體項。對該組進行確定的方式將根據優選實現方式而變化，并且可以包括選擇多個先前確定的組中的一個，例如依據將提取的內容。然而，或者，這將涉及通過識別選擇的本體項生成該組，并且隨后逐步地檢查相關的本體項，直至找到連接選擇的本體項中的每一個的路徑。該過程有時被稱作刪減，因為它實際上涉及將本體刪減成相較整個本體來說更容易管理的減少數量的本體項，但是所述減少數量的本體項仍然維持本體的結構和公理。在步驟120中，電子處理裝置針對所述一組本體項中的至少一些確定本體項之間的對準，其中所述對準至少部分地根據本體項的本體項含義進行確定。因此，電子處理裝置檢查至少一個本體中的本體項的含義，并且嘗試識別其它本體中的同等本體項。因此，在最簡單的層面上，這可以包括識別具有相同含義的源本體項和目標本體項，但是更為常見的是將檢查源本體項之間的關系以及目標本體項之間的關系，以識別源本體項和目標本體項是否也具有與其它源本體項和目標本體項類似的關系。應注意，對準不必是一對一的映射，并且一個本體中的單個本體項可以與其它本體中的多個本體項對準。例如，源本體可以將個體的姓名定義成單個概念，而目標本體可以將名和姓定義成分開的概念，在后一種情況下，在將內容從源本體傳遞至目標本體時將需要對內容進行合并。在步驟130中，電子處理裝置操作以根據所述對準生成映射。所述映射可以代表本體自身之間的映射，和/或基于目標本體項與源本體項之間的對準，可以代表相應源數據結構和目標數據結構中的源數據字段與目標數據字段之間的映射。因此，例如，電子處理裝置可以確定源數據字段、對應源本體項，并且隨后使用所述對準確定對準的目標本體項，并且因此確定目標數據字段。然后通常將映射存儲為映射文件、索引、表格、合并本體等的形式，從而允許隨后在傳遞數據的過程中進行使用。因此，以上過程允許將兩個本體對準，這繼而被用于創建映射。該映射可被用于將不同本體中的本體項等同，從而允許這繼而被用于使用相應本體將源數據字段映射至目標數據字段。該映射可用于在源與目標之間傳遞內容，其中本體的使用有助于當即使在具有不同數據結構的數據存儲之間傳遞內容時確保維持所述內容的結構。本體的使用還可以有助于確保維持被傳遞的內容的完整性，或者確保隨著內容傳遞來將所述內容改進，例如以確保內容呈所需要的范式，并且甚至視需要提供規范化。因此，使用本體允許隨著內容被從源數據存儲傳遞至目標數據存儲施加額外關系約束，以使得即使源數據存儲中的數據未以第三范式存儲，也可以在傳遞過程中將其轉換成第三范式。當該過程被用于在源數據結構與目標數據結構之間創建映射時，源本體和目標本體可以是先前定義的本體，諸如像蓋倫本體等官方創建本體(一般稱作正式本體)，或者可以是基于數據結構本身生成的推定本體。這允許建立多個不同映射關系，如現在將參考圖1B進行描述。在該實例中，示出具有相應源數據結構和目標數據結構S、T的源數據存儲和目標數據存儲。每一數據存儲可以具有對應推定本體150、160，其中對應正式本體151、161也存在。這允許建立多個不同映射。例如，可在推定本體150、160之間直接創建映射，從而允許直接在源數據結構與目標數據結構S、T之間傳遞內容。另外地和/或替代地，可以使用上述技術在推定本體150、160與對應正式本體151、161之間創建映射。該過程允許基于源數據結構或目標數據結構S、T創建推定本體150、160，并且隨后大致上自動地映射至正式本體151、161以據此為推定本體150、160中的本體項提供含義、定義和潛在的關系。將存儲在相應數據結構中的數據規范化的過程中也可以適用該過程。在本體151、161相同的情況下，將推定本體150、160映射至正式本體151、161允許內容在源數據結構和目標數據結構S、T之間傳遞。或者，也可以對正式本體進行對準，以允許它們之間的映射，從而再次允許源數據結構與目標數據結構S、T之間的數據傳遞。因此，應了解，上述技術可用于在本體之間創建映射，其中這些繼而用于直接在源數據結構與目標數據結構之間建立映射。這方便不同源與目標之間的內容傳遞，并且允許根據正式數據結構執行該過程，從而確保以規范化形式提供內容。因此，這不僅允許不同數據結構之間的內容傳遞，而且還可用于克服與以非規范化形式存儲的數據相關聯的問題。現在將描述多個另外特征。就這一點而言，電子處理裝置通常被適配以執行多個不同功能來方便上述過程，所述過程包括：生成本體的索引；允許用戶瀏覽本體并與本體交互；對準本體、刪減本體和解釋本體項的含義，如現在將進一步描述。如上面所提及，映射可以具有任何形式。當映射介于本體之間時，這可以是合并本體形式，或者呈對準索引的形式，如下面將更加詳細地描述。所涉及的本體可以包括推定本體和/或正式本體，取決于優選的實現方式。在一個特定實例中，電子處理裝置生成映射，以將推定本體映射至正式本體。如也提及到的，映射可以在將內容從具有包括多個源數據字段的源數據結構的數據源存儲器傳遞至具有包括多個目標數據字段的目標數據結構的目標數據存儲傳遞內容的過程中使用，其中本體與源數據結構和目標數據結構相關聯，并且其中所述電子處理裝置使用所述映射在源數據字段與目標數據字段之間傳遞內容。因此，本體可以包括與源數據結構相關聯的源本體和與目標數據結構相關聯的目標本體，其中所述源本體和目標本體是映射至一個或多個正式本體的推定本體。因此，在上述過程中，電子處理裝置可以通過生成推定本體或選擇多個現有推定本體或正式本體中的一個來確定本體。電子處理裝置通常使用與源數據結構或目標數據結構相關聯的元數據或者源數據結構或目標數據結構的源數據字段和目標數據字段確定源本體或目標本體。該過程可以包括生成推定本體，或者例如從存儲在諸如本體數據庫的存儲器中的本體選擇多個現有本體中的一個。在該后一種情況下，電子處理裝置可以將數據結構數據字段與多個現有本體的本體項進行比較，并且根據比較結果選擇多個現有本體中的一個。或者，當例如從數據庫模式生成本體時，電子處理裝置通常識別所述模式中的表格，創建對應于每一表格的本體項，識別至少一個材料單表格，以及創建對應于材料單表格中的每一條目的本體項。因此，該過程操作以檢查任何非規范化數據庫表格的內容，并且擴展該表格的內容以識別額外的本體項。作為該過程的一部分，電子處理裝置可以顯示對應于材料單表格中的每一條目的本體項的指示，并且響應于用戶輸入命令將本體項添加至推定本體。這允許用戶視需要來重寫本體項的創建。當生成推定本體時，電子處理裝置可以使用由數據庫模式定義的表格結構進一步生成本體項之間的關系。該過程允許電子處理裝置生成推定本體，包括對應于本體項的類別，所述類別中的至少一些的數據性質和定義類別之間的關系的對象性質。在一個實例中，電子處理裝置確定至少一個本體的索引，所述索引包括至少一個本體的本體項的指示，并且使用所述索引來確定所述一組本體項和本體項之間的對準。雖然索引的使用并不是至關重要的，但是與使用整個本體相比，這大大地降低了需要處理的數據量，從而使得瀏覽、分組(刪減)和對準過程可更好地易管理。索引可以是任何適當形式，但是對于每一本體項，通常包括本體項名稱、本體項含義的指示和本體項類型。索引還可包括額外信息，諸如相應本體中的本體項的地址，所述地址可以采用URI(統一資源標識符)等的形式。電子處理裝置通過以下方式為每一本體項生成索引：識別本體項名稱；識別本體項類型；使用語義匹配過程識別每一本體項的本體含義；以及創建索引條目，所述索引條目包括本體項名稱、本體項類型和本體項含義的指示。在一個實例中，電子處理裝置生成多個本體的單個索引，并且其中索引條目包括與本體項相關聯的本體的指示，但是這并不是至關重要的，并替代地，可以針對加索引的每一本體使用單獨索引。電子處理裝置通常被進一步適配以顯示本體中的一個或多個本體項的指示，響應于用戶輸入命令來識別至少一個本體項，以及顯示至少一個識別的本體項和與所述至少一個識別的本體項相關聯的數據性質中的至少一個的詳細信息。因此，這允許用戶瀏覽本體，并且查看其中所定義的本體項的詳細信息。這可用于允許用戶評估是否已使用了正確本體，理解本體范圍，探索不同本體項之間的關系，并且評估源數據結構或目標數據結構與本體的關聯。電子處理裝置通常使用本體索引確定一個或多個本體項的指示。因此，應了解，索引提供一種使電子處理裝置顯示本體項的列表并接著探索與選擇的本體項相關聯的數據性質的快速機制，。電子處理裝置通常被適配以響應于用戶輸入命令來確定用戶選擇的本體項和對應用戶選擇的數據性質。這不僅可以用于顯示選擇的本體項和數據性質的詳細信息，而且還允許電子處理裝置生成可執行代碼。可執行代碼基于用戶選擇的本體項和數據性質，并且當在計算機系統上執行時引起計算機系統顯示用戶界面，所述用戶界面用于允許用戶與存儲在具有對應于用戶選擇的本體項的數據結構的數據存儲中的內容交互。因此，這提供一種用于允許電子處理裝置自動地生成可用于顯示界面的代碼的機制，所述界面允許用戶與內容交互并且隨后從相應源數據結構和/或目標數據結構導出內容或者導入內容至相應源數據結構和/或目標數據結構。因此，應了解，這允許用戶瀏覽本體內的本體項，并且隨后選擇對應于數據結構中的數據字段的本體項。這反過來允許生成代碼，所述代碼可以充當允許用戶與存儲在數據結構內的內容交互的接口。在一個實例中，可執行代碼引起計算機系統生成查詢，所述查詢用于與存儲在與源本體或目標本體相一致的源數據結構或目標數據結構中的數據交互，例如像通過使用SPARQL(SPARQL協議和RDF查詢語言)查詢和檢索內容。這提供一種用于快速地部署計算機軟件的機制，所述計算機軟件可以充當至數據庫的接口。另外，由于這是基于本體生成，所以它可將定義在本體內的關系并入代碼的結構中，并且因此產生查詢。因此，這允許計算機系統根據數據性質或用戶選擇的本體項之間的關系生成查詢。為實現該目的，計算機系統通常顯示例如來自源本體或目標本體的一個或多個本體項的指示，響應于用戶輸入命令來確定至少一個本體項的選擇，以及查詢存儲在對應數據字段中的數據。為了確定關于本體項的含義，以及比較不同本體項的含義的類似性，通常對電子處理裝置進行適配以執行語義匹配。這通常涉及將本體項與例如存儲在參考數據庫(諸如概念匹配數據庫)中的多個潛在本體項含義進行比較，以及根據比較結果選擇潛在本體項含義中的一個作為本體項含義。為實現該目的，電子處理裝置通過以下方式確定本體項含義：生成每一比較的結果的匹配分數，以及根據匹配分數確定本體項含義。在確定匹配分數的過程中，電子處理裝置確定潛在本體項含義是否是考慮中的本體項的同義詞、反義詞、部分詞、超類和小類中的至少一個。在已創建了本體項含義后，通常將該含義的指示存儲作為索引的一部分，所述指示包括指示定義的含義的標識符和同等含義列表中的至少一個。因此，可將單個唯一標識符分配給多個不同本體內的每一唯一概念，從而允許共同含義由跨不同本體的共同標識符加以識別。所述標識符可以是唯一字母數字代碼、詞元、根詞等，取決于優選的實現方式。這使得識別同等且因此對準的本體項的過程容易得多。類似地，電子處理裝置通常通過以下方式確定本體項之間的對準：對多個本體項的本體項含義進行比較，生成每一比較的結果的匹配分數，以及根據匹配分數確定對準。更常見地，電子處理裝置還將基于本體項或本體項的數據性質之間的關系確定對準。因此，這不僅將項的絕對含義納入考慮，而且還將本體的相對結構納入考慮，以確定對準是否存在。因此，電子處理裝置可以確定源本體項之間的關系，確定目標本體項之間的關系，將所述關系進行比較，并且根據比較結果確定源本體項與目標本體項之間的對準。電子處理裝置通常確定來自源本體的一個或多個源本體項和來自目標本體的一個或多個目標本體項之間的對準，因此這允許涵蓋一對一、多對一和一對多的關系。如上面所提及，電子處理裝置可以例如通過刪減本體來確定一組本體項，以使得可以刪除不相關或未用于當前應用的本體項，并且僅保留與當前情況相關的那些本體項。在一個實例中，這通過以下方式實現：確定選擇的本體項，并且接著至少部分地根據所述選擇的本體項和本體項之間的關系確定所述一組本體項。因此，對于每一選擇的本體項，電子處理裝置識別有關多個不同類型的關系的每一個的定義的關系路徑長度內的本體項，并且將識別的本體項添加至所述一組源本體項。該過程可反復執行，以使得電子處理裝置重復添加識別的本體項，直到達到所需端點為止，諸如當所有選擇的本體項被關系連接起來時。這隨后建立一組相關的本體項，這組相關的本體項允許保留本體內的關系，并在諸如對準本體、創建映射等其它過程中使用。作為以上過程的一部分，可以檢查多個不同關系，以嘗試在所有選擇的本體項之間建立路徑，其中電子處理裝置任選地為不同類型的關系使用不同關系路徑長度。因此，例如，一些類型的關系將被視為是較為重要的，并且因此當識別關系本體項時通常會被給定較長的路徑長度。在一個實例中，路徑長度可以由用戶定義，從而允許在對組的創建進行控制的過程中使用人工干預。在一個實例中，為了允許執行上述過程，可以使用多個不同工具來幫助生成映射和管理本體。在一個實例中，提供工具作為形成本體的集成包的軟件套件和數據管理工具的一部分。在一個實例中，工具包括：索引器模塊，所述索引器模塊生成指示本體中的本體項的索引；瀏覽器模塊，所述瀏覽器模塊允許瀏覽本體中的本體項并且生成體現本體的至少一部分的代碼，從而允許用戶與存儲在與所述本體相一致的數據結構中的數據交互；對準器模塊，所述對準器模塊確定不同本體的本體項之間的對準；刪減器模塊，所述刪減器模塊至少部分地使用本體項之間的關系確定至少一個本體內的一組本體項；以及語義匹配器模塊，所述語義匹配器模塊識別本體項含義。然而，對相應模塊的使用并不是至關重要的，并且可以使用其它布置。在一個實例中，可以至少部分地使用處理系統(諸如合適地編程的計算機系統)來執行過程。這可以在獨立計算機上執行，其中微處理器執行應用軟件，從而允許執行上述方法。或者，過程可以由作為分布式架構的一部分操作的一個或多個處理系統來執行，現在將參考圖2描述的系統的實例。在該實例中，兩個基站201經由通信網絡(諸如互聯網202和/或多個局域網(LAN)204)耦接至多個計算機系統203。應了解，網絡202、204的配置僅用于舉例的目的，并且在實踐中，基站201、計算機系統203可以經由任何適當機制進行通信，諸如經由有線或無線連接，包括但不限于移動網絡、諸如802.11網絡的專用網絡、互聯網、LAN、WAN等；以及經由直接或點到點連接，諸如藍牙等。在一個實例中，每一基站201包括耦接至數據庫211的處理系統210。對基站201進行適配以用于管理本體，例如執行刪減或對準，并且用于生成映射，例如用于在源數據存儲與目標數據存儲之間傳遞內容。可以對計算機系統203進行適配以與基站201通信，從而允許對過程(諸如映射生成)進行控制，但是這并不是至關重要的，并且可以利用基站201直接控制所述過程。雖然每一基站201被示出為單個實體，但是應了解，基站201可以跨多個地理分開的位置分布，例如通過使用被提供作為基于云計算的環境的一部分的處理系統210和/或數據庫211。就這一點而言，可以提供多個基站201，所述多個基站201中的每一個與相應數據存儲或本體相關聯，盡管數據存儲可選地可以與計算機系統203相關聯。然而，上述布置并不是至關重要的，并且可以使用其它合適配置。例如，過程可以在獨立計算機系統上執行。合適處理系統210的實例在圖3中示出。在該實例中，處理系統210包括利用如圖所示的總線304進行互連的至少一個微處理器300、存儲器301、諸如鍵盤和/或顯示器等輸入/輸出裝置302以及外部接口303。在該實例中，可利用外部接口303來將處理系統210連接至外圍裝置，諸如通信網絡202、204、數據庫211、其它存儲裝置等。雖然示出了單個外部接口303，但是這僅用于舉例的目的，并且在實踐中，可以提供使用各種方法的多個接口(例如，以太網接口、串行接口、USB、無線接口等)。在使用中，微處理器300實施呈存儲在存儲器301中的應用軟件的形式的指令，以允許執行索引生成、映射和從數據庫211傳遞內容/傳遞內容至數據庫211，以及與計算機系統203通信。應用軟件可以包括一個或多個軟件模塊，并且可以在諸如操作系統環境等合適的實施環境中實施。因此，應了解，處理系統210可以由任何合適的處理系統形成，所述合適的處理系統諸如合適地編程的計算機系統、PC、實施DBMS的數據庫服務器、web服務器、網絡服務器等。在一個特定實例中，處理系統210是標準處理系統，諸如基于32位或64位英特爾架構的處理系統，所述處理系統實施存儲在非易失性(例如，硬盤)存儲裝置上的軟件應用，但是這并不是至關重要的。然而，還將理解，處理系統可以是任何電子處理裝置，諸如任選地與諸如FPGA(現場可編程門陣列)等實現邏輯相關聯的微處理器、微芯片處理器、邏輯門配置、固件，或者是任何其它電子裝置、系統或布置。如圖4中所示，在一個實例中，計算機系統203包括利用如圖所示的總線404進行互連的至少一個微處理器400、存儲器401、諸如鍵盤和/或顯示器的輸入/輸出裝置402以及外部接口403。在該實例中，可利用外部接口403將計算機系統203連接至外圍裝置，諸如通信網絡202、204、數據庫211、其它存儲裝置等。雖然示出了單個外部接口403，但是這僅用于舉例目的，并且在實踐中，可提供使用各種方法的多個接口(例如，以太網接口、串行接口、USB、無線接口等)。在使用中，微處理器400實施呈存儲在存儲器401中的應用軟件形式的指令，以允許與基站201的通信，例如以允許操作員提供控制輸入。因此，應了解，計算機系統203可以由任何合適的處理系統形成，諸如合適地編程的PC、互聯網終端、筆記本電腦、手提式PC、智能電話、PDA、web服務器等。因此，在一個實例中，處理系統100是標準處理系統，諸如基于32位或64位英特爾架構的處理系統，所述處理系統實施存儲在非易失性(例如，硬盤)存儲裝置上的軟件應用，但是這并不是至關重要的。然而，還將理解，計算機系統203可以是任何電子處理裝置，諸如任選地與諸如FPGA(現場可編程門陣列)等實現邏輯相關聯的微處理器、微芯片處理器、邏輯門配置、固件，或者是任何其它電子裝置、系統或布置。現在將更詳細地描述用以生成映射、允許瀏覽本體、對本體加索引以及與本體交互的系統操作的實例，所述與本體交互包括對本體進行對準和刪減。出于這些實例的目的，假設基站201的處理系統210托管用于執行過程的應用軟件，其中由處理系統210執行的操作由處理器300根據以下執行：作為應用軟件存儲在存儲器301中的指令和/或利用I/O裝置302從用戶接收的輸入命令，或者從計算機系統203接收的命令。就這一點而言，出于以下實例的目的，處理系統210實施具有多個模塊的應用軟件，所述多個模塊包括索引器模塊、瀏覽器模塊、對準器模塊、刪減器模塊、語義匹配器模塊和ETL模塊。然而，對相應模塊的使用并不是至關重要的，并且可以使用其它布置。還將假設用戶利用呈現在輸入/輸出裝置302或計算機系統203上的GUI等與由處理系統210實施的應用軟件交互。由計算機系統203執行的操作由處理器400根據以下執行：作為應用軟件存儲在存儲器401中的指令和/或利用I/O裝置402從用戶接收的輸入命令。基站201通常是利用可用的特定網絡基礎設施與計算機系統203通信的服務器，并且可以例如呈企業服務器的形式，所述企業服務器與用于一個或多個計算機系統203的用戶的數據庫211交互。然而，應了解，上述配置僅用于舉例的目的，而非意在進行限制，因此在實踐中可以使用任何數據庫管理系統。還應了解，計算機系統203與基站201之間的功能性劃分可以根據特定實現方式而變化。現在將參考圖5描述用于確定映射以及使用所述映射將內容從源傳遞至目標的過程的概述。出于該實例的目的，將假設處理系統210實現用于提供不同功能性的多個不同模塊。在該實例中，在步驟500中，處理系統210使用源數據結構和目標數據結構識別源本體和目標本體。這可以任何方式實現，但是通常涉及基于源數據存儲和目標數據存儲的源數據結構和目標數據結構創建推定本體。例如，不同源數據字段和目標數據字段的名稱可等同于本體項，其中本體項之間的關系根據源數據結構和目標數據結構中的關系進行識別。將參考圖6更詳細地描述生成推定本體的過程的特定實例。在步驟510中，索引器模塊確定源本體和目標本體的索引。索引通常呈列表的形式，所述列表包括：指示每一本體項的條目，相關聯的本體項類型(若這是已知的)，以及任選地本體項含義。就這一點而言，本體項含義通常在步驟520中由語義匹配器模塊進行確定，所述模塊將本體項與概念匹配數據庫進行比較，并且使用比較結果識別索引中的每一本體項的含義。在步驟530中，將瀏覽器模塊用于瀏覽本體以及用于選擇源本體項或目標本體項。這允許用戶選擇那些相關的本體項，這些相關的本體項通常對應于將從源數據存儲提取的或將導入目標數據存儲中的內容。然后，可在步驟540中使用選擇的本體項以允許瀏覽器模塊生成代碼，所述代碼用于與存儲在與相應數據結構相一致的數據存儲中的內容交互。確切地說，這可以包括用于允許計算機系統生成用戶界面的代碼，用戶可以使用所述用戶界面來檢查數據結構的數據字段，選擇將被提取/導入的內容，并且接著生成用以執行提取/導入的必要查詢，如下面將更詳細地描述。或者，在步驟550中，刪減器模塊使用選擇的本體項來刪減源本體和/或目標本體。確切地說，這允許用戶僅選擇相關的本體的那些部分，其中處理系統210隨后選擇維持選擇的本體項之間的關系所需要的額外本體項，如下面將更詳細地描述。在已對本體中的一個或多個進行刪減后，在步驟560中，處理系統210使用對準器模塊來對準源本體和目標本體。這識別出源本體項中的一個或多個與目標本體項中的一個或多個之間的相關性，從而允許在步驟570中確定源數據結構與目標數據結構之間的映射，所述映射繼而可以與由瀏覽器模塊生成的代碼一起使用，以將內容從源數據存儲傳遞至目標數據存儲。現在將參考圖6描述用于從數據結構(諸如數據庫模式等)生成推定本體的過程的實例。雖然該實例是針對生成關系數據庫的推定本體，但是應了解，可以將類似概念應用于其它數據結構，并且該實例僅用于說明的目的，而非意在進行限制。在該實例中，在步驟600中，處理系統210確定數據庫中的每一表格，這通常是通過從定義數據庫模式的元數據提取該信息進行。在步驟610中，處理系統210定義對應于數據庫中的每一表格的類別。就這一點而言，項類別指代對應于本體內的概念的特定本體項，如下面將更詳細地描述。在步驟620中，處理系統210識別具有BOM(材料單)結構或類型結構的任何數據庫表格。就這一點而言，BOM表格具有兩個“一對多”關系，并且用于列出構成項目、對象或物體的所有部分。類型結構具有一個“多對一”關系，并且僅具有一個用于限制相關表格中的值的范圍的相關屬性或列。所述表格通常用于對數據進行不規范化處理，并且因此可以含有許多概念或類別，每一概念或類別代表相應的本體項。因此，在步驟630中，處理系統擴展每一類型表格和每一BOM表格，以定義對應于表格中的每一唯一條目的另外類別。在步驟640中，處理系統210任選地顯示來自類型表格或BOM表格內的每一識別類別，從而允許用戶在步驟650中確認是否應保留該類別。如果指示不應保存該類型類別或BOM類別，則在步驟660中將其刪除。在已選擇了相關BOM類別后，處理系統210基于數據庫模式定義關系和屬性(也稱作數據對象和數據性質)。因此，表格結構可用于識別所述識別類別之間的關系，而表格中的數據字段用于識別類別的屬性。在步驟680中，關系和屬性被繼而用于定義本體中的對象性質和數據性質，從而允許例如在本體數據庫中生成并保存推定本體。因此，這允許僅根據對數據存儲(諸如數據庫)、結構化文件等的數據結構的分析以大致上自動化的方式創建推定本體。在這之后，當需要定義推定本體內的不同類別的含義時，可以將推定本體與正式本體進行對準，如下面將更詳細地描述。現在將參考圖7描述用于生成索引的過程的實例。在該實例中，在步驟700中，索引器模塊確定相關的本體。可以基于用戶輸入命令進行確定，所述用戶輸入命令例如利用瀏覽器模塊提供或者可以接收自要求索引的另一模塊。例如，已經生成推定本體的ETL模塊可能需要對所述本體加索引以及向索引器模塊提供所述本體的指示，或者刪減器模塊可以要求允許在本體上執行刪減的索引。在步驟705中，索引器模塊將所述本體與通常存儲在索引數據庫中的一個或多個現有索引進行比較，并且確定索引是否已經存在。這可以通過以下方式實現：比較與本體相關聯的元數據，諸如具有與索引相關聯的對應信息的本體名稱和/或地址；或者通過將一個或多個本體項與現有索引中的本體項進行比較。在步驟710中，如果確定索引存在，那么在步驟715中提供索引，例如通過將索引提供給要求所述索引的模塊。否則，必須生成索引，在該情況下，在步驟720中索引器模塊選擇下一本體項，并且隨后在步驟725中創建包括本體項名稱、本體項類型和本體項地址的指示的索引條目，所述本體項地址通常指示URI(統一資源標識符)等。在步驟730中，索引器模塊從語義匹配器模塊獲得本體項的語義含義，如下面將更詳細地描述，并將該語義含義添加至索引條目。在步驟735中，索引器模塊確定是否已經完成所有的本體項，并且如果未完成，則過程回到步驟720，從而允許對下一本體項進行選擇。否則，在步驟740中，對索引進行存儲并且任選地提供至另一模塊。現在將參考圖8描述用于瀏覽本體的過程的實例。在該實例中，在步驟800中，瀏覽器模塊使用本體項索引生成有關選擇的本體的本體項列表。因此，作為該過程的一部分，瀏覽器模塊可以例如基于選擇的本體的身份從索引器模塊要求本體索引。然后可以利用適當的GUI(圖形用戶界面)向用戶顯示本體項列表。在步驟805中，用戶對一個或多個相關本體項加標簽，之后在步驟810中選擇下一本體項進行查看，從而在步驟815中允許瀏覽器模塊顯示本體項屏幕，所述本體項屏幕包括有關選擇的本體項的數據性質。就這一點而言，數據性質對應于被定義成本體的一部分的本體項的屬性。在步驟820中，瀏覽器模塊確定用戶是否已經選擇搜索選項，在該情況下，在步驟825中，用戶在數據性質的數據字段中輸入搜索項。在步驟830中，瀏覽器模塊隨后生成并執行與相應本體項數據性質相關聯的數據查詢，返回結果并且向用戶顯示結果。因此，該過程允許用戶檢查將與對應源數據存儲或目標數據存儲中的相應數據性質相關聯的內容，從而允許用戶弄清本體項和相關聯的數據性質是否相關。在已經執行搜索后，或者如果未執行任何搜索，則在步驟835中，用戶對相關的一個或多個數據性質加標簽。因此，該過程允許用戶檢查本體項和相關聯的數據性質，并且隨后通過對其加標簽來選擇本體項和相關聯的數據性質。在步驟840中，對本體項進行檢查，以確定是否已經選擇了與用戶相關的所有本體項和數據性質。如果未選擇，則過程返回至步驟810，從而允許檢查更多的本體項。否則，在步驟845中，瀏覽器模塊選擇加標簽的本體項和相關聯的數據性質，從而允許在其它過程中對這些進行使用，諸如在步驟850中執行刪減或者在步驟855中生成應用。就這一點而言，應用生成涉及使用腳本等來生成可執行代碼，當在計算機系統上執行所述代碼時允許所述計算機系統顯示用戶界面，所述用戶界面用于與對應于選擇的本體項或數據性質的源或目標中的字段中的內容交互，如下面將更詳細地描述。因此，上述過程可用于允許用戶瀏覽本體項和相關聯的數據性質，以識別這些中的哪些與其希望從源導出的或希望導入到目標中的內容相關。現在將參考圖9描述用于刪減本體的過程的實例。在該實例中，在步驟900中，選擇的本體項被添加作為用于刪減過程的種子。在這之后，執行迭代過程以重復地探索與種子本體項相關的本體項，直到識別出對種子本體項進行互連的路徑為止。為了實現該目的，在步驟905中，顯示不同類型的關系和相關聯的默認路徑長度。就這一點而言，本體項可以通過諸如父、子、兄弟等不同類型的關系相關聯。因為某些類型的關系可以比其它關系更重要，所以不同關系類型可以具有不同長度。另外，可以改變針對每一關系類型探索的路徑長度，從而確保將經由更重要的關系連接至種子本體項的更大數量的本體項被包括在內。因此，在步驟910中，用戶可以調整不同關系的路徑長度，從而允許用戶對刪減過程進行調整，例如以控制刪減的程度和/或方向。在步驟915中，通過識別由具有特定路徑長度的關系相關聯的那些本體項來確定與選擇的本體項相關的本體項。在步驟920中，刪減器模塊確定選擇的種子項是否鏈接。換句話說，存在將種子本體項鏈接的一系列互連本體項，并且若是這樣，則在步驟925中，刪減過程可以用來定義刪減的本體的識別的選擇的本體項和相關的本體項結束，所述選擇的本體項和相關的本體項可以被存儲為刪減的本體或刪減的索引。否則，在步驟930中，確定迭代是否完成，并且如果未完成，則將相關的本體項添加至選擇的本體項，并且過程回到步驟915從而允許識別另外相關的本體項。因此，與種子本體項相關的本體項的數量逐步增加，直到種子本體項被關系路徑連接起來。因此，重復上述過程，直到本體被成功地刪減，此時種子本體項利用相關的本體項的路徑互連，或者直到預定數量的迭代完成且未識別到任何路徑，在這種情況下，在步驟940中停止所述過程。在該后一種情況下，這通常指示本體項來自不同本體，在這種情況下刪減過程連同對準過程一起執行，從而允許刪減過程跨越多個本體，如下面將更詳細地描述。或者，這指示本體項無法容易地鏈接。現在將參考圖10描述用于對準源本體和目標本體的過程的實例。在該實例中，在步驟1000中，使用索引選擇源本體項和/或目標本體項。這可以涉及使得用戶使用瀏覽器模塊選擇本體項，或者更典型地選擇對應于源本體和目標本體的包含相關源本體項和/或目標本體項的刪減的版本的兩個刪減的本體。在步驟1005中，使用匹配程序模塊確定數對源本體項和目標本體項的不同組合的匹配分數。在步驟1010中，這些分數被用于僅基于源本體和目標本體的含義的類似程度來定義初步對準。在步驟1015中，對準器模塊檢查源本體項和目標本體項的關系(對象性質)和屬性(數據性質)，以確定初步對準是否正確。因此，例如這將檢查初步對準的源本體項和目標本體項是否具有類似數量的屬性，以及檢查這些項是否具有與其它源本體項或目標本體項類似的關系。這可以用于識別不準確的匹配，例如在項的每一個中，名和姓可以初步與姓名匹配，其中對關系的檢查被用于證明這應該是多對一的關系。在步驟1020中，這可以用于改善對準，從而允許在步驟1025中對這些進行存儲以代表源本體與目標本體之間的對準。這可以呈合并本體的形式，或者可選地呈對準索引的形式。現在將參考圖11描述語義匹配過程的實例。在該實例中，在步驟1100中，語義匹配模塊接收本體項進行匹配。這可以基于利用瀏覽器模塊的用戶選擇，但是更常見地通過從索引器模塊或對準器模塊接收項。在步驟1105中，選擇下一對組合，通過將單個本體項與匹配數據庫中的多個相應項進行比較，或者通過選擇下一對接收的源本體項和目標本體項。在步驟1110中，語義匹配器模塊使用概念匹配數據庫計算語義相似性。可使用多個方式中的任何一個確定分數，但是通常涉及應用預定的公式，所述公式基于含義是否以任何方式相關聯，諸如是否是反義詞、同義詞等來計算分數。在一個特定實例中，這涉及例如使用諸如WordNet等詞典將本體項與定義進行匹配。就這一點而言，WordNet是大型英文詞匯數據庫。名詞、動詞、形容詞和副詞被歸納到認知性同義詞集(synset)中，每一集合表示不同概念并且在以下文獻中加以描述：Fellbaum,Christiane(2005).WordNetandwordnets.；Brown、Keith等人(編著)的EncyclopediaofLanguageandLinguistics，第二版，Oxford:Elsevier，第665-670頁。在已經識別出定義后，以RDF三元組的方式對此進行表達，隨后將所述RDF三元組存儲在數據庫中。然后可以對兩個不同含義的RDF三元組進行查詢，以確定三元組之間的相似性，所述相似性被用于確定指示兩個本體項的含義的相似性的相似性分數。在此之后，在步驟1115中，語義匹配器模塊確定項是否通過小類和超類布置相關聯。然后在步驟1120中，將該信息與相似性分數結合，以計算匹配分數。在步驟1125中，確定所有項對是否完成，并且如果未完成，則過程回到步驟1105，從而允許選擇下一對源本體和目標本體以及計算匹配分數。在已經檢查了數據庫中的所有潛在本體項對和匹配概念后，在步驟1130中，語義匹配器模塊可以選擇最佳匹配，并且隨后提供對此的指示。因此，應了解，上述過程允許用戶與本體交互，選擇相關的本體項以及使用此來生成用于與存儲在諸如數據庫或XML文件等數據存儲中的與相應本體相一致的內容交互的軟件。用戶可以進一步調查本體，并且隨后使用刪減器模塊對所述本體進行刪減，從而允許確定允許用戶與內容交互的最小本體。然后可以將刪減的本體與另一刪減的本體對準，以使得所述刪減的本體可以被用于定義之間的映射，所述映射可以繼而被用于在具有源數據結構和目標數據結構的數據存儲之間傳遞數據。現在將描述更具體的實例。出于該實例的目的，本體被定義如下：■一組相關概念，也稱為類別或對象，其中的一些使用也成為‘繼承’關系的子類/超類關系彼此相關聯。實例為顯示繼承的‘組織’、‘公司’、‘社團’以及不顯示繼承的‘地塊’、‘性別’、‘人’。■一組對象性質，其提供相關類別的額外機制。例如‘位于...處/中/’‘具有性別’。這些關系允許對概念、關系和性質進行推斷。■與每一類別相關聯的一組數據性質。例如，類別‘人’具有姓名、稱謂、出生日期和性別的數據性質。■一組公理，其提供前述性質中的任何一個之間的公式化關系。例如，“如果一個人的頭銜是‘夫人’，則其性別必定是女性”，或者“如果兩個對象具有相同的唯一標識符，則其是同一個對象”。這些公理允許對概念、關系和性質進行進一步推斷。本體可以諸如RDFS、XML、DAML、OIL、N3和OWL的多個語言進行描述。這些語言可以具有不同方言，諸如OWL-Lite或OWL-DL。從功能性角度而言，它們不同之處在于它們管理和描述復雜關系和公理的能力。本體可以包含幾十萬種概念。用戶可以對這些概念的子集感興趣。該子集可以來自：■單個本體；■多個重疊本體；或者■多個不同本體。目標本體中的一些概念無法預定義，并且可以不存在于源本體的任何一個中。在這種情況下，用戶可以需要手動添加缺失概念。所需要的子集可以具有開始概念和結束概念二者或其中的任何一個。出于說明的目的，圖12A和圖12B中示出兩個極簡單的示例性本體。應了解，這些被利用來說明加索引、刪減、語義匹配和對準過程，而非意在進行限制。在這些實例中，存在兩種類型的關系，即，那些分級連接的關系和那些非分級連接的關系。在這些實例中，分級連接的類別由實線橢圓形表示，所述實線橢圓形由從超類指向子類的實線分級連接。每一子類繼承其超類的所有性質。示出為虛線橢圓形的非分級連接的類別的集合由命名為對象性質的線連接至任何類別，命名為對象性質的線在此處示出為虛線。每一類別具有一組數據性質，這組數據性質中的一些在表1中示出以用于說明。表1應了解，本體示出類似的概念，但是存在一些差異：■一些概念具有不同名稱。我們是否能夠說‘團體’等同于‘客戶’，‘人’等同于‘個人’、‘成員’等同于‘會員’且‘職業’等同于‘工作經歷’？-在除‘職業’以外的每一種情況下，類別各自具有相同數據性質，因此我們可以假設它們是近乎相同的。在數學上，相同性(C1i,C2i)～1.0，其中C1i是來自第一本體的概念，并且C2i是來自第二本體的概念。■一些概念具有不同數據性質。在‘職業’和‘工作經歷’的情況下，其具有一些相同的數據性質和一個‘匯報對象’，所述‘匯報對象’僅適用于‘工作經歷’。實際上，‘工作經歷’違背了第四范式，因為其對于‘開始日期’和‘結束日期’是否指代‘職務’或是‘匯報對象’數據屬性模糊不清。■一些概念具有不同對象性質。‘工作經歷’具有兩個與‘人’一起的對象性質，而‘職業’僅具有一個。在本體1中，‘股份’將‘公司’與‘個人’相關聯，而在本體2中，其將‘公司’與‘客戶’相關聯。■一些概念不存在于一個本體中。‘上市公司’存在于本體2中，但是不存在于本體1中。出于這些實例的目的，系統執行圖13中示出的功能性，其中這些功能性由相應模塊實現。就這一點而言，模塊包括：■ETL(提取轉換加載)模塊1300。它提取、轉換并加載結構化數據源內的內容。這包括兩個子組件，包括：-處理器1301，所述處理器利用特定本體或在不存在本體的情況下利用推定本體提取源數據，處理器創建所述推定本體以描述數據。處理器可以部署在云計算中，或者部署在與數據相同的機器上，或者部署在可以利用信息傳送、ODBC、https、SOAP或任何等效協議訪問數據的機器上。可部署多個處理器副本，以便從多個源獲得數據。-協調器1302，所述協調器從各種處理器收集數據并且將源本體映射至目標本體。查詢使用目標本體寫成，并且被轉換成等效源本體查詢，從而允許使用目標本體返回數據。■本體瀏覽器模塊1310，所述瀏覽器模塊包括瀏覽器程序1311、編輯器程序1312和生成器程序1313。它生成屏幕和相關聯的軟件以及對其進行管理的數據，這允許用戶瀏覽和編輯本體和由本體描述的數據。這些屏幕分兩個階段出現。第一階段是在生成過程期間。在該階段中，動態地創建屏幕并顯示額外信息，以允許用戶選擇將生成哪些特征。在第二階段中，對屏幕進行硬編碼，并且僅顯示指定用于生成的信息。■本體索引器模塊1320。索引器模塊在一個或多個本體上創建所有類別名稱、數據性質名稱和對象性質名稱的一組鏈接的索引。另外，索引包括語義等同的項(例如，同義詞和同形同音異義詞)，所述語義等同的項來自源本體、以及語義等同功能。■本體刪減器模塊1330。刪減器模塊取用本體并且允許用戶指定其希望保留哪些類別、數據性質、對象性質和公理。使用這些保留的刪減器模塊檢查來查看本體中定義的關系型和公理型完整性得到維持。■本體對準器模塊1340。對準器模塊取用兩個或兩個以上本體，并且使用多個技術來將各種本體中的概念彼此對準，或者與指定的目標本體對準。所述技術利用由索引器模塊創建的索引，以找出語義類似的概念。使用語義匹配器模塊對每一數據性質和概念進行比較。它基于本體結構和數據性質完善匹配。■語義匹配器模塊1350。匹配程序模塊將兩個項或兩個項列表進行比較，以確定其在例如醫藥或工程等具體上下文內是否具有數學上定義的語義等效性程度；或者在另一給定的單個項的情況下，匹配器模塊將基于具體上下文提供同義詞、同形同音異義詞等的列表。通常而言，本體不具有除實例以外的任何數據實例，然而可以兩種方式中的一種將本體匹配至現有數據。■本體由現有數據構建而成。例如，可以通過被定義成本體類別的關系型實體(表格)、被定義成本體對象性質的關系型關系和被定義成本體數據性質的相關的屬性(列)將關系數據庫自動地轉換成‘推定的’本體。一些本體公理可以從關系型參照完整性約束得出，但是大多數公理將需要手動添加或忽略。然后可以將該推定本體與現有的豐富本體進行對準以添加元數據。■將本體與數據匹配。存在多個用于執行該操作的工具(例如，S匹配)。在不考慮數據格式的情況下，可以使用適合于源數據結構和元數據(如果存在)的方法從源數據自動地生成推定本體。可以使用本體編輯器程序手動地更新該推定本體，或者使用原來生成的推定本體。在任何一種情況下，隨后使用具有主語區域本體(由ETL模塊處理器調用)和具有目標本體(由ETL模塊協調器調用)的對準器模塊對推定本體進行對準。可以使用刪減器模塊對目標本體進行刪減，以確保其僅包含所需的概念以及確保所述所需的概念的完整性所需要的那些概念、公理、性質、推理和出處詳細信息。所有這些工具利用由語義匹配器模塊提供的服務，以檢查兩個語義概念是否匹配，并且使用索引器模塊以尋找各種源本體和目標本體之后的匹配概念和概念性結構。現在將更詳細地描述相應模塊的實例。ETL模塊ELT模塊執行所有ELT工具所常見的數據提取、轉換和加載的功能，無需使用元數據知識庫。它通過使用與源數據相關聯的元數據來確定數據結構并接著將該元數據映射至本體來執行該操作。它還將含義分配至數據，并且因此能夠在映射和轉換數據的過程中實現高水平自動化。消除對元數據知識庫的需要意味著過程的靈活性不受維護知識庫需要的人為干預約束。可自動地適應新數據格式和技術。在高水平下，執行兩個主要過程。用于執行這些過程的代碼也稱為處理器和協調器。可以部署處理器的眾多副本以在任何定義的位置處讀取數據。處理器可以與數據共同定位在相同的裝置上，或者處理器可以定位在云計算中并且使用遠程訪問協議訪問數據。處理器從源提取元數據，并且從該元數據創建推定本體。然后執行一些基礎數據轉換，并且將數據和本體傳遞至協調器。協調器從各種處理器接收輸入并且對準其本體。然后從對準的源本體將映射應用至用戶定義的目標本體。用戶現在可以看到來自各種源本體的所有數據。可以通過以下方式提取數據：指定針對目標本體的特定查詢，或者使用本體瀏覽器模塊創建查詢，如下面將更詳細地描述。圖14A中示出示例性ETL模塊軟件堆疊，其包括實現該結果所需要的各種軟件組件；而圖14B示出示例性部署，其中多個處理器利用網絡布置耦接至單個協調器。處理器負責從不同數據源讀取數據，將數據表現為RDF，以及創建推定本體以描述數據。高級功能如下所示：■通過添加元數據和映射文件登記不同數據源。■將非結構化數據轉換成RDF。■將RDF加載到三元組存儲器中。■將映射文件轉換成推定本體。■闡述每一源的SPAQRL端點。協調器負責讀取目標本體和映射文件，以及對請求和響應的轉換進行協調。高級功能如下所示：■登記目標本體。■讀取映射文件并對其加索引。■將SPARQL查詢從目標轉換成映射的源詞匯。■將響應從源轉換成目標詞匯。■存儲轉換規則。■闡述目標的SPARQL端點。本體瀏覽器模塊本體瀏覽器模塊操作以自動地創建一組屏幕，從而允許用戶瀏覽本體，查詢由本體定義的數據以及將實例數據添加至由本體定義的數據。然后可以獨立于本體和創建工具將如此生成的屏幕作為完整的獨立應用。就這一點而言，目前使用本體來定義鏈接的概念以及訪問數據主要限于學者和專業本體專家。原因在于不存用于允許用戶瀏覽本體并且隨后用于引導用戶與存儲在結構化的數據存儲中的數據交互的簡單機制。因此，通過提供使得具有很少或不具有本體論專業知識的人能夠以簡單可理解的方式訪問本體的所有詳細內容的工具，這允許用戶使用簡化查詢構造機制來選擇和檢查由本體描述的數據。它將能夠向仍然在執行的原始本體中存在的所有約束和推理的數據添加記錄。最終，它將能夠部署生成的屏幕作為適合于負責人辦公室人員使用的獨立應用。當檢查數據時，用戶可以多個格式將其顯示出來。相關數據可以被存儲為例如RDF三元組。這些可以被顯示成關系型表格、電子表格、名稱-值對或任何用戶定義的格式。本體瀏覽器模塊可以存在于兩個主要形式中，作為獨立工具或其次作為現有本體工具的插件(諸如Protégé)。在任何一種形式中，它都可以生成特定于選擇的本體的應用。可對生成的應用進行使用，無需本體作為用于訪問、更新、刪除和添加記錄的全功能代碼集，其中執行定義在原始本體之后的所有數據規則。因此，本體瀏覽器模塊提供可以在計算機程序中實現的一組過程，所述計算機程序生成屏幕和相關聯的軟件以及對其進行管理的數據，這允許用戶瀏覽和編輯本體和由本體描述的數據。這些屏幕分兩個階段出現。第一階段是在生成過程期間。在該階段中，動態地創建屏幕并顯示額外信息，以允許用戶選擇將生成哪些特征。在第二階段中，對屏幕進行硬編碼，并且僅顯示指定用于生成的信息。下面的表2中陳列屏幕的簡述。表2這些屏幕未以通用格式生成，以使得單個屏幕用于每一類型的屏幕。屏幕布局由本體內容動態確定。通用類屏幕并不方便用戶使用，并且無法進行定制。因此，過程允許用戶生成一組完整的屏幕，所述屏幕的外觀和感覺可以使用諸如層疊樣式表、模板、標記和用戶提供的參數進行參數化預確定。瀏覽器模塊的布置的實例在圖15中示出。就這一點而言，瀏覽器模塊1310從協調器1302獲取目標本體1501或用戶定義的任何本體。瀏覽器模塊1310顯示一組屏幕1502，這組屏幕1502允許用戶瀏覽本體以及指定將本體的哪些組件生成到獨立應用中。瀏覽器模塊1302生成獨立應用1503，所述獨立應用1503包括一組計算機屏幕1504以使用目標本體中指定的結構和規則管理數據。所述應用可以多個模式生成，諸如僅本體或數據瀏覽器模塊，或者作為全功能數據添加、更新和刪除應用。在這種情況下，用戶現在具有完整的應用1503來管理由本體描述的數據。使用OWL或RDF文件的本體具有足夠的信息來生成網頁并且創建對應數據庫1505來存儲信息。RDF或者OWL文件可以已由本體專家基于其詳細業務知識來創建。因此，瀏覽器模塊1310創建應用1503供終端用戶查詢或輸入事務數據。OWL或RDFS文件與應用定制文件、數據庫連接詳細信息和創建應用所需要的任何其它元數據一起輸入瀏覽器模塊1310。瀏覽器模塊1310可以例如使用HTML5、JSP、JSF或任何類似技術創建網頁。瀏覽器模塊1310為本體瀏覽器模塊1310中的每一類別創建網頁，并且與該類別相關聯的每一性質被創建作為頁面內的字段。應用1503在生成的網頁與數據庫1505之間建立聯系。它執行過程以將數據從網頁存留至數據庫1505，以從數據庫1505提取數據，查詢數據庫1505中的數據以及在網頁上顯示數據。瀏覽器模塊1310隨后創建數據庫腳本，所述腳本用于創建和加載用戶提供的元數據中所指定類型的數據庫。這可以是關系數據庫(RDBMS)、三元組存儲器、NOSQL、NewSQL、圖形數據庫或任何其它認可的數據庫。現在將更詳細地描述瀏覽器模塊的操作。就這一點而言，為了瀏覽本體，用戶必須能夠找到本體項：■概念；■數據性質；■對象性質；以及■推理。這要求了兩種機制，即：■用于從本體為以上本體項加索引的方法，以便通過名稱搜索任何所述本體項，如下面相關于索引器模塊所描述；以及■用于在已經選擇特定性質后顯示所有相關數據和對象性質的方法。為了實現該目的，用戶首先選擇將在表2中描述的‘登錄屏幕’中瀏覽的本體。可以從文件或網址選擇該本體。在已經選擇本體后，使用本體的索引生成類別列表。該列表顯示每一類別的名稱和描述。對于較大的列表，提供列表搜索功能，從而允許用戶通過類別名稱或者類別描述的一部分進行搜索。還可以對數據性質進行搜索。在任何一種情況下，搜索將返回包含該數據性質的類別列表。用戶隨后選擇相關類別，這使‘類別屏幕’得以顯示，包括呈窗口或標記的小屏幕形式的四個組件，如下所示：■數據性質組件。每一數據性質的名稱以字段旁邊具有描述框的列表格式顯示。點擊字段旁邊的信息圖標將顯示所有字段屬性和與該字段相關的任何公理。任選地(可點擊)，也可以示出父類/超類或一個或多個相關類別■父類/超類組件。這顯示所顯示的類別的父類/超類的名稱和描述，具有至所述類別的可點擊鏈接。點擊該鏈接將引起瀏覽器模塊顯示屏幕，所述屏幕顯示當前類別的父類。■子類/小類組件。這顯示所顯示的類別的子類的名稱和描述，具有利用小類關系的可點擊鏈接。點擊這些鏈接中的一個將引起瀏覽器模塊顯示當前類別的子類/一個或多個小類。■對象性質組件。這顯示所選擇的類別的相關類別，每一相關類別具有使用對象性質的可點擊鏈接。點擊這些鏈接中的一個將引起瀏覽器模塊顯示與當前類別有關的類別。通過選擇類別屏幕上的‘搜索’選項，發出查詢以返回該類別的所有數據實例。這顯示成列表，其中一行針對類別的每一實例。通過點擊特定的行，該行被顯示成類似于本體類別屏幕的格式化屏幕。在一個實例中，可以通過實施對結果進行過濾的查詢來限制返回的數據。現在將更詳細地描述此種查詢的構造和使用。就這一點而言，通過以下方式實現對返回給用戶的數據的過濾：從用戶獲取用戶對將返回的數據的呈過濾器形式的精確要求，并且隨后基于該過濾器生成查詢。通過將值或表達輸入到類別屏幕上的數據性質字段中來構建所述過濾器。例如，使用上述樣本本體以找出JohnDoe擁有多少股份，將需要以下步驟：■從類別列表屏幕選擇‘個人’類別。■在數據性質字段中，將‘John’輸入到名中，并且將‘Doe’輸入到姓中。■從‘個人’類別屏幕的對象性質窗口選擇‘股份’類別。■選擇搜索選項。通過選擇股份類別屏幕上的‘搜索’選項，發出查詢以返回有關該類別但是僅由JohnDoe所擁有的所有數據性質。過濾器已經被生成的應用1503轉換成SPARQL或功能上等效的查詢，所述查詢可針對存儲在數據庫1505中的數據實施。為了允許瀏覽器模塊1310生成應用1503，執行以下過程：■任選地對有關將生成的應用的元數據進行配置，包括以下項目，諸如：-公司名稱、標志等。-將生成的應用的名稱。-將創建的數據庫的名稱和類型。-數據庫的位置。-有關將生成的應用的命名和編碼規范和標準。這包括樣式表、模板、腳本語言和其它顯示規范。-將與類別和操作相關聯的圖標。-技術支持的地點和聯系方式。-錯誤和日志信息的冗長性。■在‘登錄屏幕’上選擇從哪一個本體進行生成，引起瀏覽器模塊1310顯示‘類別列表’屏幕。■在類別列表屏幕上，對將生成的每一類別加‘g’。■選擇將生成的每一類別，使瀏覽器模塊1310顯示‘類別顯示’屏幕。■在類別顯示屏幕上，最初對所有字段加標簽‘g’。檢查將生成的每一數據性質字段，每一超類/小類鏈接和每一對象性質鏈接，如果不需要則刪除標簽。■默認情況下，所有字段均可搜索(即，可以添加至過濾器)。將‘ns’標簽添加至數據性質字段將意味著字段在生成的應用中將不可搜索。■超類/小類鏈接字段和對象性質鏈接字段中的每一個上存在額外的字段標簽位置。通過在這些字段中設置“l”標簽，其將從鏈接的類別生成數據字段到生成的屏幕中。這些字段將顯示成非可更新字段。■如果將顯示來自鏈接的類別的任何字段，則選擇該鏈接的類別并且對適當字段加標簽‘l’。■返回“類別顯示”屏幕，并且從將不會被執行的每一公理描述刪除標簽。刪除公理之前的字段很重要，因為否則生成的應用中可能會存在完整性缺失。■重復步驟3至步驟9，直到已經選擇用于生成的所有所需的類別為止。■返回“類別列表”屏幕，并選擇‘生成應用’選項。■所述應用將由瀏覽器模塊1310生成，并且被保存到應用元數據中指定的位置中(步驟1)。將創建數據庫數據庫建立和加載腳本。運行這些腳本以將所述應用準備就緒。因此，上述瀏覽器模塊1310允許用戶瀏覽本體以及與本體交互，并且隨后通過選擇特定類別和數據性質生成應用1503，所述應用1503可以用于與存儲在數據存儲1505中的與所述選擇的類別和數據性質相一致的數據交互。本體索引器模塊索引器模塊自動地為一個或多個本體的收集過程中使用的項創建一組索引，以幫助用戶瀏覽本體并加速對由本體定義的數據的查詢。這些索引被其它模塊用來幫助進行對本體的對準、刪減和瀏覽。索引器模塊通過創建所有類別名稱、數據性質名稱以及對象性質名稱和關系的一組鏈接的索引來為一個或多個本體加索引。索引包括來自源本體，以及來自語義等同功能的語義等同項。現在將參考圖16描述索引程序的功能性的實例。在該實例中，索引器模塊1320利用一組屏幕1602從協調器1302接收本體1601或由用戶或處理器1301定義的任何本體，并且創建所有類別名稱、數據性質名稱和對象性質名稱的索引1603。應了解，屏幕可以由如前面所描述的瀏覽器模塊1310生成。隨著每一本體項被加索引，使用概念匹配數據庫1604從語義匹配器模塊1350獲得的同義詞也被加索引。對于對象性質，由所述對象性質鏈接的概念在索引中交叉引用。基于以上示例性本體的概念-數據性質-對象性質(CDO)索引的實例在表3中示出。應注意，這是用于說明目的的顯示形式的索引，但是在實踐中，所述索引可以存儲在更復雜的索引結構中，如下面將更詳細地描述。表3即使不包括同義詞，這仍然是極為有用的索引。例如，可潛在地對兩個本體中具有相同名稱的每一個概念進行對準。對準器模塊將采用每一所述對，并且首先比較其對象性質且隨后比較其數據性質。例如，概念‘股份’作為概念出現在兩個本體Ont1.7和Ont2.10中。在該情況下，它似乎是類似的(S1.7,2.10＝1.0，因為名稱相同)，并且從索引器模塊的角度來看這是足夠的。另外分析可由下面更詳細地描述的對準器模塊執行。通過檢查對象性質，將發現對象性質是不同，如下面的表4中所示。雖然其數量和對象性質名稱匹配，但是鑒于S1.7,2.10＝0.8571，相關概念后的一個是不同的。通過檢查數據性質，我們發現鑒于S1.7,2.10＝1.0，它具有相同數據性質。源信息全部可以在索引程序創建的索引中獲得，對準器模塊在源信息上執行先前計算。表4使用語義匹配器模塊對其它概念的進一步分析將示出“個人”是“客戶”的小類，因此給出S1.7,2.10＝0.8->0.95。本體2是比本體1更通用的模型。該相似性范圍足以在兩個本體中的“股份”之間建立錨點。Si,j的計算由對準器模塊執行。概念之間的關系在表5中呈顯示內容形式示出的概念到概念(C2C)表格中提取，該表格示出概念C1與概念C2如何相關聯。表5對象關系C1C2雇用Ont1.4Ont1.6雇用Ont2.4Ont2.9具有Ont1.3Ont1.5具有Ont2.3Ont2.8持有Ont1.1Ont1.5持有Ont2.1Ont2.8是Ont1.1Ont1.0是Ont1.2Ont1.0是Ont1.3Ont1.2是Ont1.4Ont1.2是Ont2.1Ont2.0是Ont2.2Ont2.0是Ont2.3Ont2.2是Ont2.4Ont2.2是Ont2.5Ont2.4是Ont2.6Ont2.4是Ont2.7Ont2.1是Ont2.7Ont2.2擁有Ont1.1Ont1.7擁有Ont2.0Ont2.10匯報對象Ont2.9Ont2.1股東Ont1.4Ont1.7股東Ont2.4Ont2.10工作地點Ont1.1Ont1.6工作地點Ont2.1Ont2.9索引是以對應于將以上表格整理成不同順序的多種格式構建。對準器模塊可以通過執行針對所述索引的SQL查詢來執行其許多任務。現在將更詳細地描述索引結構的實例。就這一點而言，使用語義匹配器模塊，確定每一同義詞集的根詞或詞元。語義匹配器模塊要求對語境進行設置以便獲得最佳結果。一般而言，當跨多個本體構建索引時，每一本體的語境是已知的、狹窄的，并與其它相關本體相關。索引的最終集合以多步驟過程創建，所述多步驟過程概括如下：■從被加索引的本體提取所有概念、對象性質和數據性質。■使用表3和表5中描述的格式將這些值加載到臨時表格(CDO和C2C)中。針對被加索引的每一本體將這些表格創建或再建成空表格。■將本體加載到語義匹配器模塊中。這將使用本體中所包含的任何定義檢查每一個詞的語義，并且將其與已經加載到語義匹配器模塊中的或者可以從諸如WordNet等公共詞典中獲得的那些定義進行比較。語境由本體提供(例如，醫學/外科或地理位置)。■語義匹配器模塊定義概念Id，該概念Id是對應于每一個同義詞系列的詞元或根詞的唯一編號。■然后使用匹配上面所描述的臨時表格中具有概念Id的項的項加載同義詞表格。■將由語義匹配器模塊識別的有關被加索引的本體中的每一項的所有同義詞也加載到同義詞表格中。■然后通過代入有關CDO表格中的每一項的適當概念Id創建最終CDO索引。■然后通過代入有關C2C表格中的每一項的適當概念Id創建最終C2C索引。■刪除臨時(顯示版本)索引。■然后通過重復所有先前步驟加載將被加索引的下一本體。■當已經對所有相關本體加索引時，如果在加載過程期間已識別出任何新的同義詞，針對語義匹配器模塊執行同義詞表格的最終遍操作。■將索引加載到適當數據庫結構中并對其性能進行調諧。通常來說，這將涉及跨本體索引表格創建多個數據庫索引。將了解，不存在使用工具或使用索引的直接用戶交互。相反，索引器模塊提供由其它模塊、工具或組件使用的服務。該索引可以提供的服務中的一些包括增強的能力以：■從一系列本體選擇最佳本體；■對準或合并多個本體；■操縱本體；■提取同義詞；■執行語義匹配。本體刪減器模塊刪減器模塊被設計用于允許用戶采用大型本體或一系列對準的本體，并將其刪減成適合于用戶的需要的相關類別，不會因為大意地刪除包含與其相關本體項相關的數據或公理的組件而出現完整性缺失。例如，當構建和利用諸如解剖學基礎模型(FMA)等大型參考本體時出現問題。就這一點而言，FMA非常大型并且非常詳細，盡管其性質也非常寬泛(例如，非應用特定)。它還嚴格遵循適當的建模原理。這些標準共同使得FMA支持許多可能應用。然而，其也會被呈遞得較為麻煩(即，過于大型或詳細或條理化)以由任何特定應用使用。因此，FMA的潛在用戶具有以下基本形式的要求：“我們確實喜歡FMA，但是它太大或者說是太過詳細，不符合我們的需要，我們真的只需要基于整個FMA的子集的那些”。劃分依據隨不同應用而變化，但是實例包括：■基于區域，即大腦或腹部。■基于系統，即心血管系統或骨骼系統。■基于粒度，即僅在X射線中可見的項目或者僅細胞和亞細胞組分。雖然所需的本體派生物大體上基于諸如上面所描述的那些子集提取，但是隨后常常對其進一步操縱以更好地適應應用需要(即，添加類別、刪除類別、刪除性質、添加性質等)。可以三種方式中的一個處理此類請求：■針對每一新請求編寫程序代碼，這不是通用解決方案。■創建對本體的視圖，這需要用于定義所需的應用知識庫(KB)的語言(未必總是適當本體)以及可以從定義和源本體生成應用KB的引擎。這具有添加和刪除性質的問題。■刪減本體，以提供良好建模的子集本體。因此，存在對刪減的本體(諸如相關性、性能、可管理性和可測試性等)的許多需要，并且這些要求通過工具來滿足，所述工具使得具有很少或不具有本體論專業知識的人能夠安全地刪減不需要的概念。另外，人應能夠使用簡化查詢構造機制選擇和檢查通過本體進行描述的數據。它將能夠在執行其刪除之前研究從本體刪除組件的影響，并且隨后將刪減的本體另存為新的本體。例如，SNOMED-CT是在臨床文件中使用的醫學項的大型醫學本體。它由30萬+概念組成，所述概念之間具有約140萬種關系。所述概念被劃分成19個職能領域。研究人員可以只對這些領域中的一個感興趣，例如心理健康領域。刪除其它18個領域將會打破醫學健康項與藥學項之間的許多關系。明顯地，研究人員可能希望保留這些項目。使用現有的工具手動執行該項工作將要求好多個月工作，并且將易出錯。舉另外一例來說，用戶可能希望從幾個現有的源本體的組件創建新的本體，并且之后自行添加。組合的本體將包含許多將需要刪除的不相關概念。例如，包裹投遞公司將運輸本體與地理定位本體結合，以創建允許對投遞路線進行確定和優化的本體。通過結合這些本體并且添加公理(諸如在機場開始和結束其旅程的飛機、港口的船舶和車站的火車等)，將能夠構建重寫其業務模型中的每一個概念的信息庫。然而，每一源本體中的許多內容將是不需要的。可以使用刪減的本體定義代替對整個本體的視圖。該視圖可以用于諸如訪問控制、范圍管理等多個目的。為實現該目的，刪減器模塊連同瀏覽器模塊一起操作，以執行以下表6中陳述的功能。表6刪減器模塊與瀏覽器模塊交互，以允許用戶指定其希望保留選擇的本體的哪些類別、數據性質、對象性質和公理。使用這些保留的內容，刪減器模塊檢查本體中定義的關系型和公理型完整性得到維持。在另一版本中，用戶可以指定單個本體內必須保留在刪減的本體中的兩個重要概念。本發明隨后對類別之間的所有概念性關系進行映射，從而對分析指定的概念所需要的所有類別加標簽。然后從源本體包括額外的類別、對象性質和公理，以確保刪減的本體的完整性。在另一版本中，用戶可以指定來自不同本體的必須保留在刪減的本體中的兩個重要概念。刪減器模塊隨后嘗試對類別之間的所有概念性關系進行映射，從而對分析指定的概念所需要的所有類別加標簽。如果未識別到連接路徑，那么軟件將識別可能無法創建連接兩個起始概念的刪減的本體。將要求用戶：■放棄嘗試，或者■重新定義其目標并重新開始，或者■通過手動添加額外的類別或者添加來自另一本體的類別來擴大范圍，并重新開始。如果成功，那么用戶現在具有完整本體，所述完整本體的大小較之組合的源本體被大大減小。刪減器模塊的布置的實例在圖17A中示出。在該實例中，刪減器模塊1330打開定義在OWL和RDFS文件中的本體1701，用戶隨后利用如在下面的表7中定義的一組屏幕1702與刪減器模塊1330交互，從而產生刪減的本體1703。應了解，屏幕可以由如前面所描述的瀏覽器模塊1310生成。表7當刪減單個本體時，這是工具輔助的手動過程，如現在將參考圖17B進行描述。在該實例中，用戶選擇其所需要的概念，并且工具識別并添加完備性和完整性所需要的組件。用戶選擇一個類別作為源本體中的起始種子點S0，并將其加標簽為K0表示保留。計算機進行識別，并且將標記為‘K0’的類別的所有父類、來自被加標簽為K0的類別和推理的所有類別和推理加標簽為‘K1’。這些被加標簽的變量稱為S1-殼。用戶檢查計算機加標簽的項目，并且對其重新加標簽為K1表示保留，M1表示或許，以及D1表示丟棄。加載加標簽的Mi和Ki組件的所有公理。然后重復該過程，逐次對i增值，直到用戶已經對有關適當本體的所有組件加標簽。然后將推理器應用至所得本地，以識別潛在錯誤并添加推斷值。如此添加的任何概念、推理或公理被加標簽為Kn，并且加標簽的組件被導出作為刪減的本體。對于多個重疊本體，過程如在圖17C中示出。在該實例中，用戶選擇一個類別作為一個本體中的起始種子點S0，并且選擇另一類別作為同一本體或另一本體中的結束種子點E0，并且將其二者加標簽為K表示使用‘K0s’或‘K0e’保留。計算機進行識別，并且將標記為‘K0x’的類別的所有父類以及來自被加標簽為‘Knx’其中n＝1的類別和推理的所有小類和推理加標簽為‘K1s’或‘K1e’。這些被加標簽的變量稱為S1-殼和E1-殼。S殼和E殼中的變量由下面更詳細地描述的語義匹配器模塊進行比較。匹配程序模塊返回每一殼中的變量之間的匹配質量的數值。如果滿足預確定的匹配質量，則已經確定兩個殼之間的路徑。這應當僅在殼重疊的情況下發生。如果起始點和結束點在相同本體中，則匹配質量必定是1.0或確切。在任何階段，可以對加標簽的數據類別的數據性質進行刪減。這通過以下方式執行：選擇類別并且將數據字段(數據性質)標記成‘D’表示丟棄。基于被丟棄的字段的存在的任何推理將被忽略。重復這些步驟，逐次將n增加1，直到預確定數量的變量具有適當匹配質量或者達到預定義殼深度。匹配變量的殼路徑被加標簽為‘Pjx’。如果達到預定義殼深度而未建立任何路徑，則過程已經失敗并且本體被視為是不同的。過程停止。在該點處，能夠增加預定義殼深度，并且能夠手動地改變被視為是不在從K到表示丟棄的D的范圍內的任何概念的標簽。可以重新開始過程。在這些已經被建立后，可以填充S0與E0之間的路徑Pj，并且可以依據這些路徑定義骨架刪減的本體。加標簽的Pj路徑要素的所有父類和推斷的父類也被加標簽成屬于路徑Pj。所有公理被加載用于加標簽的Pj路徑組件，因此創建擴展的本體。將推理器應用至擴展的本體，以識別潛在錯誤并添加推斷值。如此添加的任何概念、推理或公理被加標簽，并且被導出作為刪減的本體的一部分。對于不同本體，過程如在圖17D中示出。就這一點而言，不同本體可能由于以下兩個可能原因而出現：■用戶在嘗試對本體進行對準或者從兩個本體中的概念提取子集本體之前并未意識到它們是不同的。這是前一部分的可能失敗結果；或者■用戶知道它們是不同的，并且提供概念和性質以允許其結合。在任何一種情況下，用戶必須提供信息以允許所述本體結合。這實際上是該過程的起始點。用戶選擇一個類別作為一個本體中的起始種子點S0，并且選擇另一類別作為另一本體中的結束種子點E0，并且將其二者加標簽為K表示使用‘K0s’或‘K0e’保留。除此之外，其定義連接所述本體的一組用戶定義的路徑，如由線1710示出。這些路徑具有起始點‘U0Si’和結束點‘U0Ei’，其中‘i’是被定義的路徑編號。這些路徑形成一組連續的相關概念，從一個本體中的類別開始并且以另一本體中的類別結束。然后將上面描述的有關重疊本體的過程應用至每一概念對S0和‘U0Si’，以及E0和‘U0Ei’，以在起始點/結束點與用戶定義的概念‘i’之間建立路徑Psi和Pei。在這些已經被建立后，可以填充S0與E0之間的路徑Pi，并且可以依據這些路徑定義骨架刪減的本體。有關加標簽的Pi路徑要素的所有父類和推斷的父類也被加標簽成屬于路徑Pi。加載加標簽的Pi路徑組件的所有公理。這被稱為擴展的本體。將推理器應用至擴展的本體，以識別潛在錯誤并添加推斷值。如此添加的任何概念、推理或公理被包括在刪減的本體1711中，所述刪減的本體1711現在可以導出。當用戶選擇一個概念作為用于刪減的起始點時，有必要確定應包括在內的額外概念。存在多個基于對象性質和數據性質的算法，所述算法被應用以進行這種確定。就這一點而言，對象性質具有以下屬性：■它們命名兩個概念之間的關系。■所述關系具有方向。這被定義成從‘域’概念到‘范圍’概念。在關系數據庫術語中，域的主鍵碼變成范圍中的外鍵碼。■任選地，關系具有類型，包括：-功能性-反向功能性-過渡性-對稱性-不對稱性-反射性-不反射性而且，超類/小類關系等同于對象性質的特殊情況。小類‘繼承’其超類的所有數據性質和所有對象性質。使用如上所述樣本本體，如果用于刪減的起始點是‘社團’，那么其將有必要包括社團的所有超類，即刪減的本體中的組織和團體。類別成員將不會被包括在內作為該關系的方向和類型，除非其自動包括。基于同樣的原因，組織和團體的小類將不會被自動地包括在內，且社團的任何小類也不會被包括在內(如果有)。然而，如果成員已經被包括在內，那么對象性質‘具有’和‘持有’的方向和類型將確保社團和個人和其所有超類被自動地包括在內。任何概念中的數據性質‘類型’提出警告，因為其意味著未建模概念的存在，所述未建模概念即社團中的‘社團類型’、成員中的‘成員類型’等。例如，‘社團類型’概念可以包含諸如帆船、象棋、體操等所有有效值的列表。“社團_類型”概念的社團范圍將具有被稱作‘具有類型’的對象性質。該概念將被自動地包括在刪減的本體中。可跨所有概念或逐概念修飾所有自動包括和排除。用戶指定每一類型的對象性質的‘包括’、‘排除’或‘請求’。包括特定概念的決定由專門的語義推理器使用特別是作為至推理引擎的輸入的對象性質的本體規則做出。最初使用一階謂詞邏輯以獲得明確的包括和排除。如在‘類型’數據性質的實例中的更多推理必須使用前向推理和反向推理鏈進行確定。為了獲得最佳結果，可以將Novamente的概率邏輯網技術應用至每一局部問題區域。現在將更詳細地描述刪減器模塊的操作的實例。在該實例中，為了刪減本體，有必要識別包括在本體中的概念、數據性質、對象性質和推理。在一個實例中，這通過以下方式實現：使用索引器模塊來對本體項目加索引，并且隨后使用瀏覽器模塊來顯示本體項以如先前所描述進行選擇。確切地說，用戶選擇將在瀏覽器模塊‘登錄屏幕’中進行刪減的本體。就這一點而言，可以從諸如文件、網址等的任何源選擇本體。在已經選擇本體后，使用本體的索引生成類別列表。該列表顯示每一類別的名稱和描述。對于較大的列表，提供列表搜索功能，從而允許用戶通過類別名稱或者類別描述的一部分進行搜索。還可以對數據性質進行搜索。在任何一種情況下，搜索將返回包含該數據性質的類別列表。用戶隨后選擇一個類別作為起始點并將其加標簽為S0。任選地，用戶然后選擇結束點E0。如果用戶未選擇結束點，那么其將需要如上所述手動地控制刪減操作。用戶還可以返回登錄屏幕并為結束點選擇另一本體，或者如果用戶知道所選擇的本體是不同的，則可以添加一組橋接概念和關系。如果用戶未指定橋接概念，那么過程將以如上所述的重疊本體過程為基礎進行，否則其將根據不同本體過程進行。為了控制刪減過程，可以設置多個元數據參數，包括：■用于存儲刪減的本體的位置。■用于檢查的殼深度。■用于接受相同性的匹配質量。■每一殼完成后是否暫停過程以允許手動編輯。■最大運行時間。■錯誤和日志信息的冗長性。現在將更詳細地描述手動刪減過程的實例。在該實例中，用戶僅指定用于起始刪減過程的起始點。用戶可以使用兩種方式中的一個執行手動刪減，所述兩種方式可以隨時可交換地使用。■用戶可以從通常由瀏覽器模塊1310顯示的類別列表屏幕將待保留的類別加標簽為‘K’。用戶可以隨時選擇‘驗證’選項，所述選項將自動地對任何相關類別和公理加標簽，并且在類別列表中顯示加標簽的類別。另外，用戶可以選擇‘視圖’選項，該選項將傳遞加標簽的類別至繪圖程序，以直觀地示出選擇的類別和關系。繪圖程序可以是諸如OntoGraf等公眾可獲得的繪圖包。■或者，用戶可以通過點擊由瀏覽器模塊1310顯示的類別列表屏幕中的類別來打開類別顯示屏幕中的起始類別。然后，用戶可以對其希望保留的所有數據性質、以及任何小類/超類以及對象性質窗口中指定的任何類別加標簽。可以通過點擊至顯示的任何相關類別的鏈接反復地執行該過程。用戶可以隨時返回類別列表屏幕，以驗證或查看其進程。在用戶已經完成對刪減的本體所需要的類別加標簽后，其返回至類別列表屏幕并選擇“生成本體”選項。這引起刪減的本體在應用元數據中指定的位置處生成。可以保存標簽以允許容易對刪減過程進行重新編輯。現在將更詳細地描述刪減重疊本體的實例。在該實例中，用戶僅指定運行刪減過程的起始點和結束點。所述過程如所描述在如上所述的多個重疊本體中進行。假設應用元數據參數已經被設置成在殼之間暫停，過程將隨著每一殼完成而停止。在該點處，用戶可以驗證或查看自動加標簽的項目，并且可以刪除其認為不相關的任何標簽。視圖功能將顯示兩個部分本體，直到建立連接起始點和結束點的路徑為止。通過選擇“恢復”選項，程序將基于下一殼的確定開始。在已識別出一個路徑之后，過程可以隨時停止。然而，或者，可以在起始點與結束點之間的確定多個不同可能路徑。在處理條件的指定的結束點已經滿足后，過程停止并且向用戶返回狀態信息，所述狀態信息將包括以下中的一個：■達到指定的最大殼深度。未發現路徑。本體可以是不同的。(失敗)■達到指定的最大殼深度。發現‘n’個路徑。要求‘m’個路徑。(部分成功)■發現指定數量的路徑。(完全成功)用戶可以決定通過以下方式對過程進行擴展：改變應用元數據中的完成標準并且選擇恢復選項。如果用戶對結果滿意，則他們將選擇“生成本體”選項。這引起刪減的本體在應用元數據中指定的位置處生成。可以保存標簽以允許容易對刪減過程進行重新編輯。如果用戶決定本體實際上是不同的，那么他們將進行如下所述的操作。在該實例中，用戶指定運行刪減過程的起始點和結束點以及一組相關橋接概念。用戶可能已經保存來自前一嘗試的標簽，以刪減及合并所述本體。通過選擇開始刪減選項，過程將按照如上面所描述的不同本體過程中所描述的那樣開始。假設應用元數據參數已經被設置成在殼之間暫停，過程將隨著每一殼完成而停止。在該點處，用戶可以驗證或查看自動加標簽的項目，并且可以刪除其認為不相關的任何標簽。在建立將起始點和結束點連接至用戶定義的橋接點中的一個之前，視圖功能將顯示許多部分本體，一個針對每一用戶定義的點并且一個針對起始點和結束點。通過選擇恢復選項，過程將基于下一殼的確定開始。在源本體中的一個路徑和目標本體中的一個路徑可以利用橋接類別進行連接之后，過程可以隨時停止。然而，或者，可以在起始點與結束點之間確定盡可能多的路徑。在已經滿足處理條件的指定的結束點后，過程停止并且向用戶返回狀態信息，所述狀態信息將包括以下中的一個。■達到指定的最大殼深度。未發現路徑。本體可以是不同的。(失敗)■達到指定的最大殼深度。發現‘n’個路徑。要求‘m’個路徑。(部分成功。)■發現指定數量的路徑。(完全成功)用戶可以決定通過以下方式對過程進行擴展：改變應用元數據中的完成標準并且選擇恢復選項。如果用戶決定本體實際上仍然是不同的，那么他們將需要在檢查其橋接概念上花一定的努力。他們可能需要執行手動加標簽，以確定路徑符合。如果用戶對結果滿足，則它們可以選擇生成本體選項，這引起刪減的本體在應用元數據中指定的位置處生成。可以保存標簽以允許容易對刪減過程進行重新編輯。語義匹配器模塊語義匹配器模塊允許對數學值進行應用，以使得當在特定語境內進行考慮時兩個概念是類似的。有關該過程的名稱是‘語義匹配’，并且當嘗試對準兩個本體中的概念時其特別重要。例如，業務語境中的字詞‘公司’和‘組織’不具有完全相同的含義。所有的公司都是組織，但并不所有組織都是公司。實際上，類別公司是類別組織的子集。例如“這個組織是上市公司，而那個組織是高爾夫球社團”。在社會語境中，公司與組織不相關，但是可以與一組同伴相關。例如“JohnDoe總是與壞人為伍”。社團和公司都是組織，因此存在一定的相似性。上市公司和未上市公司也類似，并且分享共同的父類。它們在概念上是否與社團和公司接近？公眾未上市公司(大于50個股東)和民營未上市公司(小于51個股東)概念上是否接近？其是否比上市公司和未上市公司更為接近？為了給出用于度量兩個概念可以多相似的數學依據，我們引入‘相同性’概念。存在多個公式性量度。例如，Levenstein距離(Levenshtein,1966)計數匹配兩個字符串所需要的插入和刪除；Needleman-Wunsch(Needleman,1970)距離在編輯操作上分配不同成本；Smith-Waterman(Smith,1981)另外使用至成本的字母映射；以及Monge-Elkan(Monge,1996)根據字詞之間的子字符串間隙使用變化的成本。此外，我們使用：Jaro-Winkler相似性，其計數兩個字符串之間的常見字符，即使所述常見字符被“短”距離錯放；Q-Gram(Sutinen,1995)，其計數兩個字符串之間共用的三連詞的數量；以及子字符串距離，其搜索最大的常見子字符串。然而，這些都尚未被證明是特別有效的。另一常見技術是將概念布置在單個層次樹中，其中‘事物’概念作為根。大多數相同性公式是那些被測量的類別和其常見父類之間的概念的數量和至最底層的距離的函數。然而，鑒于至底層的距離可能會根據建立本體的本體專家以及本體是否已經被使用本體的人刪減而顯著不同這一事實，至底層的距離通常是不相關的。通常來說，相同性由概念之間的邊緣數量進行測量。其它可能性基于數據性質的數量存在。例如，社團和公司可能各自具有“5”個數據性質，余量(balance)保留在組織定義中；而公眾上市公司和公眾未上市公司可能各自僅具有一個屬性，余量保留在公司定義中。因此，公眾未上市公司與公眾上市公司比公司與社團更類似(“2”個屬性而不是“10”個屬性，或者換句話說，存在較少差異，并且差異等同于距離)。‘距離’的概念被視為是重要的。兩個概念相距多遠？存在基于被測量的那些類別與其常見父類之間的概念數量的公式。如果距離是“1”，那么很明顯一個概念是另一概念的超類。然而，如果距離是“2”，那么它們是同胞或孫輩。這并不是特別有用的事實。距離與相同性之間存在某些關系。明顯地，如果距離是“0”，那么相同性是“1.0”，換句話說，概念是相同的，因此在實行中，該實例中僅存在一個概念。好的語義匹配器模塊應能夠使用任何適當公式計算相同性和匹配的距離。假定存在描述科學、工程和商業領域的方方面面的數千種公共和私人本體。為了對準兩個本體，有必要確定兩個本體中的概念之間是否存在語義匹配。目前，對定義鏈接概念的本體論的操縱限于學者和專業本體專家。概念的定義和名稱根據語境可以有巨大的改變。為了對本體中以及跨本體的項進行比較，我們需要具有用于對項進行語義檢查的一些機制。兩個概念是否真的是同一事物的同義詞，或者其是否以某種其它方式相關聯。例如，組織和公司具有某些共同屬性，因此存在一定程度的相同性。所有公司都是組織，但并非所有組織都是公司(歸類)。在另一實例中，手指存在暗示手的存在。雖然它們并不相同，但是它們之間存在關系，并且一個存在暗示另一個的存在，因為一個是另一個的一部分(部分詞)。給定任何兩個概念，我們想知道它們有多相似；即，相同性0->1，其中1.0暗示它們是相同的，一個是否是另一個的小類或超類(-1,0,1)，以及一個是否是另一個的一部分(-1,0,1)。語義匹配器模塊包括概念數據庫、概念的含義以及概念之間的關系。它具有用于從本體加載概念的工具，用于手動地編輯概念之間的關系和其定義，以及用于以數學定義的方式對概念進行分析。然后可以在諸如對準本體等各種情況下使用概念和其關系的這些數學定義性質，用作詞典以及用作語義概念匹配程序模塊。語義匹配器模塊概念找出特定語境(例如，醫學、業務)中的同義詞、歸類(類層次)和部分詞(部分)。首先通過解析本體并且獲得類別、其注釋、類別結構和任何‘部分’對象性質進行加載。然后在諸如WordNet或Watson等內容中使用類別名稱，以確定含義和可能的同義詞。含義被與任何符號一樣解析成三元組。然后，匹配程序模塊尋找確定同義性的三元組中的數學一致性。語義匹配器模塊是獨立過程，該獨立過程評估通常來自兩個本體的兩個概念列表或者評估單個概念，從而將此與參考項進行匹配以確定概念的含義。在第一種情況中，匹配程序模塊將使第一列表中的每一項目與第二列表中的每一項目組成一隊。然后對每一對i、j進行分析，以確定以下項目：■語義相似性Sij。-如果項是同義詞，則相似性為Sij＝1.0。-如果是反義詞，則Sij＝-1.-如果不存在關系，則Sij＝0。■歸類關系Subij。-如果Ci是Cj的小類，則Subij＝-1。-如果Ci是Cj的超類，則Subij＝1。-否則Subij＝0。■部分詞關系Merij。-如果Ci是Cj的一部分，則Merij＝-1。-如果Cj是Ci的一部分，則Merij＝1-否則Merij＝0。在第二種情況中，匹配程序模塊采用單個概念和語境定義，并且產生有關該概念在該語境中的同義詞、小類和超類以及部分詞的列表。如果未提供語境，則跨所有語境執行評估。下面一些實例基于醫學本體和人力資源本體已定義至SemMatch這一假定情況：■SemMat(團體,客戶,業務)＝(1.0,0,0)■SemMat(團體,個人,業務)＝(0.25,1,0)■SemMat(個人,客戶,業務)＝(0.25,-1,0)■SemMat(汽車,發動機,汽車行業)＝(0.1,0,1)■SemMat(汽車,車輪,汽車行業)＝(0.1,0,1)■SemMat(患者,人,醫學)＝(0.25,-1,0)■SemMat(患者,人,人力資源)＝(0,0,0)■SemMat(患者,人,)＝(0.25,-1,0)■SemMat(人,,醫學)＝定義：單一的人類：-同義詞：個人、人體-超類：實體、角色-小類：患者、從業者、執行者-部分詞：-1，無+1，器官、四肢■SemMat(人,,)＝語境：醫學-定義：單一的人類-同義詞：個人、人體-超類：實體、角色-小類：患者、從業者、執行者-部分詞：-1，無+1，器官、四肢■SemMat(人,,)＝語境：人力資源-定義：單一的人類-同義詞：個人-超類：實體、團體、參與者-小類：雇員-部分詞：-1，家庭+1，無現在將參考圖18A和圖18B更詳細地描述兩個不同使用方法。語義匹配器模塊1350使用概念匹配數據庫1604來執行其評估。在圖18A的實例中，語義匹配器模塊1350接收諸如本體項A、B和X、Y等兩個概念列表1801、1802并且隨后對其進行比較，以生成有關每一可能本體項對的相同性分數1803。在圖18B的實例中，接收單個概念，諸如單個本體項1804，并且語義匹配器模塊1350將其與概念匹配數據庫1604進行比較并且返回同義詞列表1805。使用索引器模塊1320構建概念匹配數據庫(CMD)1604。在可對其進行使用之前，必須加載數據庫，通常而言將通過基于相關的語境解析本體來加載數據庫。用戶可以隨時更新數據庫以添加新的語境。CMD1604包含如表8中定義的多個表格，其中表格之間的關系在18C中示出。表8現在將參考圖18D詳細描述加載機制。首先，確定將加載的本體1801的整體語境，并且將所述語境輸入到ID是1的語境表中。例如，如果加載醫學本體，則所述語境將被識別為“醫學”。該種類中的本體的實例和有關每一本體的語境名稱如下所示：■不良事件報告本體AERO■非洲傳統醫學本體ATMO■艾倫腦圖譜(ABA)成年老鼠腦本體ABA-AMB■阿爾茨海默病本體ADO■氨基酸本體AMINO-ACID■兩棲動物大體解剖學本體AAO■兩棲動物分類本體ATO■解剖病理學詞匯PATHLEX■解剖實體本體AEO這些本體中的每一個具有源，所述源將被加載到源表格中，因此允許也加載“源2語境”表格。接著，從以下本體中的每一個提取以下信息并且進行解析：■類別■對象性質■注釋■標簽因為所有字詞來自一個本體，所以語境_ID是已知的。每一類別變成字詞表格中的字詞。注釋被加載作為字詞表格中的含義。創建臨時表格，所述表格將字詞_ID2語境_ID與均設置為空的詞元(根含義)和概念相關聯，并且針對每一類別和概念_ID被設置為空將類別2對象-性質2類別與字詞_ID相關聯。在此之后，然后將提取的類別和其注釋加載到字詞表格中。每一類別變成字詞。每一字詞被分配唯一的字詞_ID，并且類別注釋變成字詞表格中的含義。因為所有字詞來自一個本體，所以如先前所描述語境_ID是已知的。創建臨時表格，所述表格將字詞_ID2語境_ID與均被設置為空的詞元和概念相關聯，并且針對每一類別和概念_ID被設置為空將類別2對象-性質2類別與字詞_ID相關聯。對于每一語境，第一步驟是將每一字詞與從標準詞典(諸如WordNet1802)獲得的含義和同義詞進行匹配。然后將任何不匹配的字詞與來自其它語境的字詞進行匹配以識別同義詞。現在更加詳細地描述這些步驟。字詞表格中的每一字詞被傳遞至WordNet1802以獲得含義，并且可能地獲得有關基于該字詞的同義詞或詞干的群組的根詞或詞元。在詞法上將WordNet含義與從注釋得到的含義進行比較。這通過將含義轉換成RDF三元組并且對三元組進行評估完成。下面更加詳細地描述該過程。如果含義匹配，則使用新的字詞_ID將Wordnet字詞和含義加載到字詞表格中。新的字詞_ID被分配至字詞_ID_C，并且原始字詞_ID被分配至字詞_ID_P，然后將二者加載到字詞2字詞中。加載字詞_ID2語境_ID表格，其中字詞_ID被分配至Wordnet詞元作為字詞_ID且相同的語境_ID作為相關的字詞_ID，所述相關的字詞_ID被加載成字詞_ID_P。字詞_ID2語境_ID表格僅具有兩列詞元和概念。因此，為詞元分配新的字詞_ID_C，并且從字詞_ID_P分配概念。最后，為類別2對象-性質2類別加載來自Wordnet1802的字詞_ID信息。然后，將定義有詞元的所有字詞加載到概念表格中。現在可以使用已知的概念_ID和詞元更新字詞_ID2語境_ID，并且將其用于加載概念_字詞_語境表格，從而導致CWC_ID被分配至命名的語境中使用的每一概念和字詞。CWC_ID可用于識別類別2對象-性質2類別中的字詞，并且一起填充CWC2CWC表格和關系_類型表格。字詞表格的第二遍操作檢查無相關詞元的每一個字詞的含義，做法是依照句法將含義與其它語境中的字詞的含義進行比較。進行匹配的第一含義的字詞_ID被選擇作為詞元。然后有關Wordnet識別的詞元的過程繼續。第三遍操作簡單地識別作為詞元的每一字詞，每一字詞與詞元不相關。這三個遍操作完成時，每一個字詞將已經在概念表格1809中的每一可能語境中識別出。在此之后，計算相同性值。如果完整本體是已知的，那么可以通過匹配正被比較的概念的屬性(數據性質)執行相同性的計算。屬性列表將必然地包括概念的超類的屬性。在當前實例中，通過分析兩個字詞的含義計算相同性。英文含義被轉換成主謂賓(spo)形式的rdf三元組。這使用RDF轉換器的自然處理語言(NLP)完成。(Arndt&Auer,2014)(Augenstein等人，2013)。例如，社團具有含義“一種類型的組織，其具有成員而不是股東，并存在以滿足其成員的某些職業需要”，所述含義可被轉換成如下面的表9中所示：表9主語謂語賓語社團是組織社團具有成員成員具有需要需要是職業性的社團滿足需要組織是一種概念，所述概念如下定義；“組織是個人群體，其具有成為群體的商定理由”，所述概念可轉換成如下面的表10中所示。表10主語謂語賓語組織是個人群體組織具有個人個人具有成為群體的商定理由將組織定義插入到社團定義中，獲得表11中示出的定義。表11然而，我們無法推斷成員是個人。對此的分析可用于確定：■社團的成員是個人。如果具有更準確地定義為成員的對象性質的會員概念是個人而不是具有會員身份的個人，則可以做出此推斷。■成為群體的商定理由是滿足職業需要。將相同的過程應用至如上所述的示例性本體中的半官方機構，我們將從含義獲得半官方機構是“創建人是政府的用以滿足指定的政府需要的組織”，得到表12中示出的三元組。表12主語謂語賓語半官方機構是組織組織是個人群體組織具有個人半官方組織的創建人是政府政府具有需要半官方機構滿足需要個人具有成為群體的商定理由可將此用于基于如表13中示出的常見的謂語和賓語構建比較表。表13這允許基于以下因素使用有關相同性的公式。■有關社團和半官方機構的概念的三元組的數量分別由N1和N2表示，其中N1＝9和N2＝7■兩個概念社團與半官方機構之間的共同謂語(SP)的數量是5，即SP＝5■兩個概念社團與半官方機構之間的共同謂語賓語(SPO)對的數量是4，即SPO＝4例如：■相同性＝SPO/SP＝4/5＝0.8或者■相同性＝(SP+SPO)/(N1+N2)＝9/16＝0.5625所使用的實際公式是不相關的。重要的事實是我們可以獲得公式，所述公式提供對相同性的測量。應了解，在整個該過程中，用戶可以使用通常由瀏覽器模塊顯示的屏幕1808與語義匹配器模塊交互。對準器模塊對本體對準的需要起于對整合異構數據庫的需要，所述異構數據庫獨立地開發并且因此各自具有其自身的數據詞匯。在涉及提供其自身的本體的許多作用因素的語義網語境中，本體匹配已占據幫助異構源交互操作的關鍵位置。本體對準工具發現“語義上等同的”數據類別，例如“卡車”和“貨車”。類別未必邏輯相同。本體對準的結果是一組陳述，這組陳述代表不同本體的實體之間的一致性。可以專用語言‘表達性和聲明性本體對準語言’(EDOAL)(David等人，2013)或其它語言(ZIMMERMANN等人，2006)對此進行表達。第一要求是確定本體中被對準的概念之間是否存在語義匹配，這可以使用如上所述的語義匹配器模塊進行確定。例如，業務語境中的字詞‘公司’和‘組織’不具有完全相同的含義。所有的公司都是組織，但并不是所有的組織都是公司。實際上，類別公司是類別組織的子集。例如：“這個組織是上市公司，而那個組織是高爾夫球社團”。在社會語境中，公司與組織不相關，但是可能與一組同伴相關。例如“JohnDoe總是與壞人為伍”。社團和公司都是組織，因此存在一定的相似性。上市公司和未上市公司也類似，并且分享共同的父類，即公司。它們在概念上是否與社團和公司接近？公眾未上市公司(大于50個股東)和民營未上市公司(小于51個股東)概念上是否接近？其是否比上市公司和未上市公司更接近？為了給出用于度量兩個概念可以有多相似的數學依據，我們引入‘相同性’概念。存在用于相同性的多個公式性量度。最常見的技術是在單個層次樹中布置概念，其中‘事物’概念作為根。大多數公式是那些被測量的類別和其常見父類之間的概念的數量和至最底層的距離的函數。然而，鑒于至底層的距離可能會根據建立本體的本體專家以及本體是否已經被使用本體的人所刪減而顯著不同這一事實，至底層的距離很可能是不相關的。通常來說，相同性由概念之間的邊緣數量進行測量。其它可能性基于數據性質的數量存在。例如，社團和公司可能各自具有5個數據性質，余量保留在組織的定義中；而公眾上市公司和公眾未上市公司可能各自僅具有一個屬性，余量保留在公司定義中。因此，私營上市公司與公眾上市公司比公司與社團更類似(2個屬性而不是10個屬性，或者換句話說，存在較少的差異，并且差異等同于距離)。推定本體(PO)是由結構化源創建的本體，所述結構化源通常是關系數據庫、xml文件或電子數據表。此種對準可能具有一些非常復雜的映射，其中推定本體中的數據實例映射至完整本體中的類別。這是對準的特殊情況。現在將參考示出“事物數據庫”的圖19A描述簡單的實例，其是完全去規范化數據結構的實例，因為其可能包含元數據(且因此結構)以及四個表格內的數據。例如，如果事物類型表格包含‘類別’的事物類型，則物表格中的每一個相關列將包含類別的名稱。類別之間的關系將定義在‘事物到事物’表格中，其中‘事物類型到事物類型’指定關系的類型。在本體項中，任何類型表格都可產生一組類別。考慮到包含一組車輛的詳細信息的表格。車輛類型表格可能已經被用于確保僅包括有效的車輛類型。例如，汽車、貨車、拖拉機，而不是嬰兒車、自行車、船舶。從本體學來說，然后可以具有有關車輛類型表格中指定的每一車輛類型的單獨類別。該概念可能是廣義的，但并非始終是適當的。它可能引起每一個人員表被劃分成男性類別和女性類別！因此，程序應識別數據中包含的隱藏類別可能會被暴露的每一種情況，并且將其呈現給用戶進行驗證。在一些情況下，類型表格可能包含許多類型的類型。例如，概念、數據性質和數據性質的性質，諸如車輛、貨車、汽車、發動機類型、重量、千克。這可以被示出為：■汽車具有發動機類型：柴油■汽車具有重量：2000■重量具有測量單位：千克■汽車是車輛的小類現在將描述事物數據庫的實例，假定如表14至表17中所示對數據庫進行填充。表14表15表16表事物類型ID名稱A有機結構B業務組件表17基于關系型模式的推定本體將僅示出四個類別，所述四個類別具有與表格名稱相關的名稱。然而，基于數據的本體將示出八個類別，所述八個類別基于‘事物’表格和‘事物類型’表格中的名稱以及其它兩個表格中識別的所有對象性質，如圖19B中所示。在該實例中，“業務組件”和“有機結構”項從事物類型表格(表16)獲得，而剩余項從事物表格(表14)獲得。這是問題的實例，其中一個本體中的類別匹配另一本體中的數據實例。為了清楚起見，這識別成‘推定映射問題’(PMP)。它可能在對準期間當推定本體具有以下各項時顯現：具有名稱匹配‘主鍵碼’或‘外鍵碼’的數據性質；或具有相同外鍵碼的多個實例的類別，如在‘父類’和‘子類’(BOM)中；或具有相關聯的類型類別的類別。這些實例潛在地偽裝隱藏在數據實例中的類別層次！常見對準技術是將來自每一本體的概念布置到兩個層次樹中，每一層次樹具有作為根的‘事物’概念。然后引入‘距離’的數學概念，以給出用于確定對準的某種數學機構。大多數距離公式是那些被測量的類別和其常見父類之間的概念的數量和至最底層的距離的函數。然而，鑒于至底層的距離可能會根據建立本體的本體專家以及本體是否已經被使用本體的人所刪減而顯著不同這一事實，以及是否存在充當傘形概念的‘頂層’本體，至底層的距離很可能是不相關的。本體對準器模塊尋找多個本體中的常見概念，并且將所述概念從一個本體映射至另一本體，因此允許將兩個本體看成一個本體。使用所述對準也可能將兩個本體合并，盡管由于存在語義不匹配傳播的可能性，這是危險的過程且通常并不推薦。一般而言，沒有本體是完美的。例如，此處使用的樣本本體中存在許多建模錯誤。明顯的是，‘股份’應由‘客戶’而不是由‘個人’所有，并且‘工作經歷’應由‘客戶’而不是‘公司’進行‘雇用’。這兩個實例示出關系從限制較多的關系移動為限制較小的關系。雖然在這些情況下將是可能的，但是其對于將社團的會員從‘個人’變為‘客戶’將是無效的。因為會員與個人之間的關系是‘持有’，所以類別‘會員’也被糟糕地命名。如果類別已經被命名為‘成員’，那么關系將是‘是A’。這應該會允許成員繼承個人的性質。除非對象性質‘具有’被完全定義，否則其在推斷中的使用受到限制。這些錯誤被引入至樣本，以說明對準的復雜性中的一些。現在將參考圖19C更加詳細地描述對準器模塊的操作。就這一點而言，在使用中，OWL文件和RDFS文件中定義的本體1901、1902使用對準器模塊1340打開，其中用戶然后使用如下面所定義的一組屏幕與本體交互，最終產生由一系列對準1905連接的本體1903、1904和可能的合并的對準的本體1906。過程由多個小過程組成，包括：■初始化■低水平類別匹配-識別最小映射■推定的映射問題識別■對象性質分析■數據性質分析■多類別映射■PMP分辨率■同胞分析■最小映射分辨率因為對準可以許多步驟進行識別，所以存在重新計算一對特定概念的對準的可能性。通過維持對準映射克服該問題。該映射每當識別出對準時得到更新，并且在考慮評估新的對準對之前由程序對映射進行咨詢，以防止重復工作。可以向用戶顯示對準映射，從而允許用戶遵循對準過程，查詢及重寫任何潛在對準，并且指導程序重新執行任何過程。現在更加詳細地描述這些步驟。可以為每一步驟i分配加權系數Wi，其中結果被結合以提供整體對準分數。這些加權系數在某些步驟中應用。雖然給出了可能的權重積累公式，但是存在可以使用的許多可能的加權計劃。在該領域中，可以將機器學習或統計分析以及推斷用于確定合適的加權公式。在初始化過程期間，從索引器模塊獲得索引1603。在此之后，將本體1901、1902加載到語義匹配器模塊1340中。當尚未預加載對準表時，則W0＝0.0。在以下實例中，Wi＝i用于對技術進行說明。否則，權重Wi由用戶或機器學習或經驗確定的啟發式機制進行分配。一般而言，對于任何步驟i，累積地確定的匹配值MViA通過以下方式確定：MViA＝MVi-1A/Wi+(Wi-1)*MVi/Wi其中，MVi是步驟i中計算的原始匹配值。另一更加傳統的加權計劃將是：MV＝∑MVi*Wi/∑Wi其中，MV是加權匹配值，且MVi是步驟i中的匹配值。可以在每一步驟中或者僅在程序結束時執行該過程，這取決于優選實現方式。接著，在本體中的項的語義含義的基礎上執行類別匹配。該過程使用語義匹配器模塊檢查每一潛在對準對，以基于類別名稱找出潛在匹配。如果找到對準，則從該對準橫穿繼承鏈(對象性質＝‘...的小類’)，從而使用語義匹配器模塊檢查有關另一對準的類別名稱。這可能僅需要小數量的匹配，盡管能夠找到所有匹配類別。如果被匹配的本體使用相同基本本體，則完全1-1匹配是可能的。例如：■不良事件報告本體AERO■非洲傳統醫學本體ATMO二者均基于標準蓋倫本體，因此將預期1-1匹配。有關每一對的MV基于由語義匹配器模塊提供的分數，并且出于該實例的目的設置W1＝1.0。從第一本體的底層開始，從第二本體的底層類別開始檢查每一類別。當使用語義匹配器模塊找到的有關概念對的相同性超出有關對準的閾值匹配值(MVAT)時，出現匹配。如果找到可接受的匹配，則其被稱為潛在對準，并且詳細信息被記錄在對準映射中。對準映射記錄兩個概念，分配對準Id、最小映射Id、與對準相關聯的任何標簽、分配的任何PMPId、任何強化Id和最后處理步驟Id。與對準Id有關的單獨表格存儲有關每一步驟的匹配值。如果需要，可以手動地重寫這些值。可以使用任何已知的對準預加載對準映射。使用用戶標簽‘用戶發起’對這些加標簽，并且必須設置匹配值，通常設置為1.00，盡管下限值是可能的。‘用戶發起’和MV＝1.00的組合將防止該對準的進一步處理。過程繼續至下一類別，該下一類別通過對象性質與第一本體中的當前類別相關聯。首先處理當前類別的超類。程序在處理其它對象性質之前處理繼承對象性質。在對任何小類進行檢查之前處理當前類別的超類。一經發現使用MV<MVAT的對準，過程立即停止。每當識別出潛在對準，將其分配至最小映射集，并給定最小映射Idmm_ID。如果識別出等級上相關的類別，則將其添加至相同的mm_ID。該步驟結束時，我們將定義具有多個最小映射，所述多個最小映射潛在地滿足最小映射的標準。在每一后續步驟中對該累積的匹配值進行改善。始終執行對潛在PMP的識別。PMP分辨率僅當配置文件中要求時執行。如果未要求，則潛在PMP的識別記錄在活動日志中，所述活動日志隨著對準被執行作為信息報文并且被添加至累積的統計報告而創建。在一些實例中，可能不需要解析PMP，因為兩個本體可能是推定本體并且可能需要保留BOM結構。如果要求PMP分辨率，則執行PMP加標簽。檢查數據性質名稱，看看是否存在以下關鍵詞，諸如：■對象性質名稱，包含：-類型-關系-類別-概念-…■數據性質名稱，包含：-標識符-ID-鍵碼-父類-子類-主鍵碼-外鍵碼-…包含這些關鍵詞的數據性質的存在不一定暗示PMP。肯定需要應用更多的算法。被映射至標準的任何結構。■必須識別ERA圖中的‘類型’表。用戶必須選擇類型表中的每一行。■必須識別‘材料單’結構，并且潛在地擴展到適當類別結構中。在該階段中，針對每一組同等BOM表格，每一PMP中涉及的類別被加標簽為‘PMP’，并且被給到PMP集合標識符PMP01、PMP02、…。稍后將對其進行解析，如下面將更詳細地描述。隨著每一PMP類別被識別，可以將詳細信息呈現給用戶，該用戶可以決定實例并非是PMP。該步驟未計算MV，因此MV2A＝MV1A＝0.5。在此之后，對與來自前一步驟的每一對準對相關聯的對象性質和其相關類別進行分析。該步驟有時被稱作‘結構性分析’。這將識別：■如果所有相關類別和對象性質的名稱匹配，那么將該對加標簽為“錨點”。MV＝1.0。將相關的類別添加至最小映射(如果最小映射中還沒有)，并重復步驟2有關該最小映射中的相關類別的數據性質分析■如果名稱與相關超類匹配，而不與小類中的任何一個匹配，那么將該對加標簽為“可能同胞”。MV＝0.3。將超類添加至最小映射。前往下面的多類別映射。■如果名稱與相關超類匹配，但是僅與小類中的一些匹配，那么將該對加標簽為“相關子集”。■MV計算如下：-為每一匹配小類分配2.0的權重，并且為每一其它匹配的相關類別分配1.0的權重。-將這些權重求和為匹配NM的數字。-為每一小類分配1.0的權重，并且為每一其它相關類別分配0.5的權重。-將跨兩個超類的這些權重求和為總數NA。-匹配值MV3＝NM/NA。■如果不相關的類別匹配，則MV3＝0.001。■將超類添加至最小映射。前往下面的多類別映射。對于每一對，如下計算累積的加權匹配值：MV3A＝MV2A/W3+(W3-1)*MV3/W3假定W3＝3MV2A＝0.5來自前一實例MV3＝1.0來自對象性質匹配那么MV3A＝0.5/3+2/3*1.0＝0.83333在此之后，執行數據性質分析，以分析匹配類別的數據性質(屬性)是否類似。有關每一對類別的分析：■使用不存在準確名稱匹配的SemMat對有關每一類別的數據性質進行比較。■基于數據性質分配“匹配值”(MV)。■使用匹配類型為對準對加標簽。選擇最小映射中的下一對并重復以上過程。如果最小映射內不存在更多的對準，則移動到下一最小映射。更詳細地，如果A＝{a1,a2,a3,…ai}是第一概念的一組數據性質，并且B＝{b1,b2,b3,…bj}是第二概念的一組數據性質，則存在以下可能性：■類別中的所有數據性質匹配。加標簽為“準確匹配”，即匹配值＝1.000。■來自一個本體的數據性質的子集匹配其它本體中的所有數據性質。加標簽為“子集”。即或者MVi＝(N(A∩B)/N(B))0.5，其中N(A)是A中的數據性質的數量，假定N(A)<N(B)■來自一個本體的數據性質的子集匹配另一本體中的數據性質的子集。加標簽為“部分匹配”即MVi＝N(A∩B)/N(B)，其中N(A)是A中的數據性質的數量，假定N(A)<N(B)■無數據性質匹配。MV＝0.1，加標簽為“僅名稱”即如果MV小于預確定的閾值，(確認值＝0.1)，則丟棄來自最小映射的匹配對，并且使用下一匹配對繼續進行。重復該過程，直到所有最小映射已被分析為止，在該點處對匹配值進行計算：MV4A＝MV3A/W4+(W4-1)*MVi/W4假定W4＝4MV3A＝0.833333MV4＝1.0來自數據性質匹配那么MV4A＝0.8333/4+3/4*1.0＝0.9583多類別映射當一個本體中的類別已經被劃分成另一本體中的多個小類別時發生。在所述情況下，我們將預期該對已經被加標簽為“可能同胞”或者“多類別映射”和“子集”。通常通過分析有關每一本體中的類別和小類中的潛在相關類別的數據性質的數量來檢測多類別映射。如果不具有小類的本體類別具有大約等于另一本體中的類別的數據性質數量以及具有最多數據性質的小類的數據性質，則很可能的是，第二本體中的類別的小類已經被去規范化到第一本體中的類別中。存在以下可能的情形。■一個本體中的單個類別中的數據性質映射至另一本體中的類別和一個或多個小類中的數據性質。■類別和小類中的數據性質匹配另一本體中的類別和一些小類中的數據性質。在第一種情況下，通過考慮第一本體類別的數據性質與由第二本體中的類別+小類別組成的每一對的數據性質的匹配來執行數據性質計數。例如，本體1中的公司不具有子類，并且本體2中具有2個子類。如果分析具有公司+上市公司(2)的公司(1)的數據性質，則示出數據性質的數量匹配，但并不是所有的含義匹配。分析具有公司+未上市公司(B)的公司(A)的數據性質，示出數據性質的數量和含義匹配。這可以被加標簽為‘不同的規范化’，并且被分配匹配值MV＝1.0。因為上市公司和未上市公司為同胞，所以可以推斷上市公司是本體2中的加強，因此其可以被加標簽為‘加強’，并且匹配值通過以下方式計算：用匹配的數據性質的數量的兩倍除以數據性質的總數量。MVi＝2*N(A∩B)/(N(A)+N(B))其中N()是用以產生概念A、B和A∩B中的數據性質的數量的函數。該方法可以推廣至兩個類別具有不同數量的子類的的情形。該情形可以被加標簽為‘加強可能’，并且為所涉及的每一類別給出單個加強ID。多類別映射的另一情況是當類別已經被以不同方式規范化時。例如，車輛類別可以被劃分成小類，例如(運動型多用途車、轎車、轎跑、敞篷車)，或者其可以按照制造商被劃分成小類(雪鐵龍、標致、菲亞特、羅孚)。因此，兩個車輛本體可以以不同方式解析數據性質。然而，兩個本體中的車輛的屬性將是相同的。在通常情況下，如果一組數據性質被分配至來自兩個本體的一組小類，并且每一本體中的小類是不同的，但是定義這些類別的這組數據性質是相同的或非常類似的，則定義的小類之間存在多對多映射。該情形也被加標簽為‘加強可能’，并且為所涉及的每一類別給出單個加強ID。該步驟未計算MV，因此MV5A＝MV4A＝0.9583。PMP分辨率涉及通過識別存儲在表格中的去規范化類別識別推定本體中的額外類別，并且引起本體的重大加強，所述加強來自所述本體。對每一PMP集合標識符進行分析，以確定其至如上所述的類型結構或BOM結構的映射。這些一般映射至圖19A中示出的ERA圖的一些布置，如通過僅映射該圖中具有匹配結構性關系的對象性質進行確定。來自數據性質實例的提取的類別的實例在表14至表17中示出。在確定映射后，生成在BOM結構中捕獲的去規范化本體是相對簡單的事物。然后可以通過基于如前面所描述的類別的語義含義返回低等級類別匹配的步驟對該生成的本體組件進行對準。在該步驟中，從BOM分析生成的類別將添加至適當的最小映射。該步驟中未計算MV，因為其引起返回至低等級類別匹配的步驟以及對新識別的類別的MV值的重新計算。在此之后，執行加強分析，其中對在多類別映射過程中識別的每一加強_ID進行分析，以確定來自兩個本體的小類集合是否匹配或包含同胞。例如，本體1類別組織可能具有小類社團和公司。本體2包含半官方機構、社團和公司。半官方機構是本體2中的同胞，但是未在本體1中出現。與其說半官方機構不與任何東西對準，還不如將其識別成是對本體1的加強。在可以應用加強之前，將有必要確定是否已經通過分析社團和公司的數據性質來將半官方機構非規范化到其它小類中的一個中。假定類別滿足將被添加作為同胞的標準，應可以確保在該階段中包含類別和小類的最小映射是相同的。該步驟中未計算新的MV。每一同胞保留其當前MV。可以通過分配為1.0的當前MV至被識別為同胞的組件而將該MV小倍數地升高。在所有類別被解析且加強完成后，任何重大重構應已經發生，并且因此可以對最小映射進行解析。如果將加強添加到前一部分中，則發生進一步重構。這些事實將引起改進的最小映射。使用MV7<MVAT的對準，閾值將被拒絕。MVAT是有關對準的匹配閾值。下一步驟是應用冗余識別模式，以使得在每一最小映射內，冗余性、不相交性和歸類性得到確定。這將已經主要由前面的步驟執行。在已經充分處理最小映射后，將所述最小映射與其類別一起記錄成一組RDF三元組。最后，必須通過查詢上面生成的RDF三元組將最小映射組裝成單個映射。這將是發現具有可接受的閾值的對準的所有類別的圖。可能存在未對準的項目。使用累積的匹配公式，最終匹配值MV8＝0.9375。使用線性匹配公式，MV＝(1*.5+2*1+3*1)/(1+2+3)＝5.5/6＝0.9167。示例性對準索引在表18中示出，該表示出有關上面所描述的示例性本體的對準映射。已經通過對準對和步驟編號對結果排順序，以強調各種算法的效果。實際上，它將按照#順序(第1列)執行。表18然后可以執行合并過程，以產生合并本體1906，盡管這是任選的并且將取決于優選的實現方式。如果用戶決定合并本體，那么需要做出多個決定，包括：■確定合并本體是否應為本體1合并到本體2中，或本體2合并到本體1中，或者是否應該為合并本體給定新的URI。這些情況在圖19D和圖19E中概略地示出。■選擇MVMT作為合并的匹配閾值。一般而言，MVMT將低于MVAT，因為可能包括實際上不對準的相關類別。■如果將不會對類別進行合并，那么將要求做出以下決定：是否應將類別中的二者、兩個都不或者僅一個包括在合并本體中。這可以被指定為規則，或者指定為‘請求’，在這種情況下合并過程將暫停，以允許用戶決定操作。■是否應該將未發現對準的類別添加至合并本體？例如，如果本體1由類別A、B組成，并且本體2由類別B、C組成，其中B是一組對準的類別，那么合并本體應該是A、B、C或者A、B或者B、C或者僅B？在已經確定合并的參數后，那么合并兩個本體的類別、數據性質和對象性質是簡單的事物。任何數據性質實例將保留其原始URI，除非另有規定。因此，如果對準的類別具有每一本體中的實例數據，那么單個合并的類別將保留來自兩個本體的實例。一般而言，與對準器模塊的用戶交互將用于控制對準過程的目的。第一步驟是加載配置文件，所述配置文件指定將在對準和合并過程中使用的參數。存在可以進行設置的多個元數據參數。這些包括：■將對準的本體的URI。■用于存儲對準映射的位置。■用于存儲合并本體的位置。■有關對準的匹配閾值MVAT。■有關合并的匹配閾值MVMT。■用于在低等級類別匹配期間接受相同性的匹配質量。■任選地使用已知對準預加載對準表。■將在每一分析步驟應用的權重。這些可以通過機器學習算法進行確定。■在合并過程中是否暫停過程以允許有關合并的用戶輸入■最大運行時間。■錯誤和日志信息的冗長性。■等等。用戶然后運行或安排過程。如果指定對用戶輸入的暫停，那么用戶根據要求提供輸入，并且利用通常由瀏覽器模塊顯示的屏幕進行提供。當過程完成時，用戶檢查：■產生的報告，該報告給出對以下的統計：-每一本體中輸入類別的數量；-對準的類別的數量；-識別的PMP的數量；-擴展的PMP的數量；-從PMP擴展的類別的數量；-從PMP擴展的數據性質實例的數量；-最大和最小匹配值；-合并的類別的數量；-合并本體中的類別數量；-合并本體中的數據實例的數量；-等等；■評估錯誤、警告和信息報文的運行時日志。基于該信息，用戶決定接受對準或合并，或者改變配置參數中的一些并重新安排過程。因此，上述過程允許用戶與本體交互，以執行包括瀏覽、刪減和對準本體的多種任務。這些過程可能使用多種模塊，并且允許執行操作，諸如確定包括推定本體和正式本體的本體之間的映射，這可能被繼而用于映射源數據結構和目標數據結構，以用于促進源數據存儲與目標數據存儲之間的內容傳遞。在本說明書和隨后的權利要求書的全文中，除非上下文另外要求，措詞“包括”以及諸如“包含”等的變化形式應理解為暗示包括所述整數或整數組或步驟，但不排除任何其它的整數或整數組。本領域技術人員應了解，眾多變化和修改將變得明顯。對本領域技術人員將變得明顯的所有所述變化和修改應被視為在先前所描述的廣義地出現的本發明的精神和范圍內。當前第1頁1 2 3

完整全部詳細技術資料下載

當前第1頁1 2 3

該技術已申請專利。僅供學習研究，如用于商業用途，請聯系技術所有人。
技術研發人員：A·D·湯肯;R·N·康奈爾;M·A·卡瓦納;K·杰拉姆;Q·王;D·X·T·勒
技術所有人：西曼迪克技術私人有限公司
我是此專利的發明人

上一篇：用于生成信息信號的指紋的方法和裝置與制造工藝
上一篇：多域查詢補全的制造方法與工藝

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態勢感知、輿情分析和控制 3.區塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家庫。

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！