基于語義標注的異構數據關聯方法及系統的制作方法
【技術領域】
[0001] 本發明涉及計算機領域,并且特別涉及一種基于語義標注的異構數據關聯方法及 系統。
【背景技術】
[0002] 隨著互聯網技術的高速發展,數據量每天以指數的速度遞增,數據的來源也更加 豐富和復雜,數據格式(例如,文本數據、音頻數據、視頻數據等)也越來越多,如何實現異 構的數據融合和存儲的問題日益突出。
[0003] 傳統的數據融合技術只是將異構數據進行統一存儲,并不具有語義。因此,需要一 種基于語義標注的異構數據關聯方法及系統來實現異構數據的高度語義融合,對異構數據 資源的高效檢索起到關鍵性的作用。
【發明內容】
[0004] 本發明的目的在于提供一種基于語義標注的異構數據關聯方法及系統。
[0005] 本發明實施例提供一種基于語義標注的異構數據關聯方法,其特征在于,包括:獲 取異構數據源語義標簽以及異構數據源所包含的數據信息語義標簽;對所獲取的任一所述 數據信息語義標簽進行語義文本拆分,建立與數據信息對應的語義字典庫;對所建立的至 少兩個語義字典庫進行相似值計算;以及當所述相似值大于或等于設定閾值時,將所述至 少兩個語義字典庫分別對應的所述數據信息及所述相似值進行關聯記錄。
[0006] 優選地,在所述獲取異構數據源語義標簽以及異構數據源所包含的數據信息語義 標簽的步驟之后,還包括:根據所述異構數據源語義標簽以及所述異構數據源所包含的數 據信息語義標簽的獲取情況,對所述數據信息的內容進行分布式存儲。
[0007] 優選地,對所建立的至少兩個語義字典庫進行相似值計算,包括:統計所述至少兩 個語義字典庫中所包含的語義文本的出現頻率,構建頻率向量;對所述至少兩個語義字典 庫中的所述語義文本進行比較,當存在有不同的語義文本時,分別在所述至少兩個語義字 典庫構建的所述頻率向量中進行補充,生成同維頻率向量;以及根據生成的所述同維頻率 向量計算所述至少兩個語義字典庫之間的所述相似值。
[0008] 優選地,在統計各語義字典庫中所包含語義文本的出現頻率,構建頻率向量之前, 還包括:對所述至少兩個語義字典庫中所包含的所述語義文本進行轉碼。
[0009] 優選地,所述語義字典庫之間的所述相似值通過下述公式進行計算:
[0010]
【主權項】
1. 一種基于語義標注的異構數據關聯方法,其特征在于,包括: 獲取異構數據源語義標簽以及異構數據源所包含的數據信息語義標簽; 對所獲取的任一所述數據信息語義標簽進行語義文本拆分,建立與數據信息對應的語 義字典庫; 對所建立的至少兩個語義字典庫進行相似值計算;以及 當所述相似值大于或等于設定閾值時,將所述至少兩個語義字典庫分別對應的所述數 據信息及所述相似值進行關聯記錄。
2. 如權利要求1所述的異構數據關聯方法,其特征在于,在所述獲取異構數據源語義 標簽以及異構數據源所包含的數據信息語義標簽的步驟之后,還包括: 根據所述異構數據源語義標簽以及所述異構數據源所包含的數據信息語義標簽的獲 取情況,對所述數據信息的內容進行分布式存儲。
3. 如權利要求1或2所述的異構數據關聯方法,其特征在于,對所建立的至少兩個語義 字典庫進行相似值計算,包括: 統計所述至少兩個語義字典庫中所包含的語義文本的出現頻率,并分別構建頻率向 量; 對所述至少兩個語義字典庫中的所述語義文本進行比較,當存在有不同的語義文本 時,分別在所述至少兩個語義字典庫構建的所述頻率向量中進行補充,生成同維頻率向量; 以及 根據生成的所述同維頻率向量計算所述至少兩個語義字典庫之間的所述相似值。
4. 如權利要求3所述的異構數據關聯方法,其特征在于,在統計各語義字典庫中所包 含語義文本的出現頻率,構建頻率向量之前,還包括: 對所述至少兩個語義字典庫中所包含的所述語義文本進行轉碼。
5. 如權利要求3所述的異構數據關聯方法,其特征在于,所述語義字典庫之間的所述 相似值通過下述公式進行計算:
其中,xjP y i分別對應為不同語義字典庫所構建的所述同維頻率向量中的頻率值。
6. -種基于語義標注的異構數據關聯系統,其特征在于,包括: 獲取模塊,用于獲取異構數據源語義標簽以及異構數據源所包含的數據信息語義標 簽; 建立模塊,耦合于所述獲取模塊,用于對所獲取的任一所述數據信息語義標簽進行語 義文本拆分,建立與數據信息對應的語義字典庫;以及 計算模塊,耦合于所述建立模塊,用于對所建立的至少兩個語義字典庫進行相似值計 算,當所述相似值大于或等于設定閾值時,將所述至少兩個語義字典庫分別對應的所述數 據信息及所述相似值進行關聯記錄。
7. 如權利要求6所述的異構數據關聯系統,其特征在于,還包括: 存儲模塊,耦合于所述獲取模塊,用于根據所述異構數據源語義標簽以及所述異構數 據源所包含的數據信息語義標簽的獲取情況,對所述數據信息的內容進行分布式存儲。
8. 如權利要求7所述的異構數據關聯系統,其特征在于,所述計算模塊包括: 統計單元,用于統計所述至少兩個語義字典庫中所包含的語義文本的出現頻率,構建 頻率向量; 比較單元,用于對所述至少兩個語義字典庫中的所述語義文本進行比較,當存在有不 同的語義文本時,分別在所述至少兩個語義字典庫構建的所述頻率向量中進行補充,生成 同維頻率向量;以及 計算單元,用于根據生成的所述同維頻率向量計算所述至少兩個語義字典庫之間的所 述相似值。
9. 如權利要求7所述的異構數據關聯系統,其特征在于,所述計算模塊還包括: 轉碼單元,用于對所述至少兩個語義字典庫中所包含的所述語義文本進行轉碼。
10. 如權利要求7所述的異構數據關聯系統,其特征在于,所述計算單元通過下述公式 對所述語義字典庫之間的所述相似值進行計算:
其中,xjP y i分別對應為不同語義字典庫所構建的所述同維頻率向量中的頻率值。
【專利摘要】本發明提供一種基于語義標注的異構數據關聯方法,其特征在于,包括:獲取異構數據源語義標簽以及異構數據源所包含的數據信息語義標簽;對所獲取的任一數據信息語義標簽進行語義文本拆分,建立與數據信息對應的語義字典庫;對所建立的至少兩個語義字典庫進行相似值計算;以及當相似值大于或等于設定閾值時,將至少兩個語義字典庫分別對應的數據信息及相似值進行關聯記錄。本發明將原來互相獨立的異構數據資源進行關聯存儲,實現了不同數據源的信息融合,利用語義讓數據更加智能化。
【IPC分類】G06F17-30, G06F17-27
【公開號】CN104679823
【申請號】CN201410854051
【發明人】曾龍海, 張少杰
【申請人】智慧城市信息技術有限公司
【公開日】2015年6月3日
【申請日】2014年12月31日