本公開大體上涉及數據管理領域,更具體地,涉及數據管理設備和數據管理的計算機實現方法。
背景技術:
1、不同的監管機構,如《通用數據保護條例》(general?data?protectionregulation,gdpr)和《健康保險可攜性和責任法案》(health?insurance?portability?andaccountability?act,hipaa)等,要求各種組織(例如私人組織或政府組織)維護其客戶數據的信息,尤其是潛在客戶數據的信息。潛在客戶也可以稱為主體。由于各種組織保存的數據可能分布在不同的存儲系統和存儲層中(例如,一些信息存儲在本地數據中心,另一些信息存儲在云數據中心),因此獲取關于特定主體的信息可能既復雜又耗時,有時可能還需要人工干預。通常,不同的組織會使用各種目錄方案,這些目錄方案存儲關于組織保存的全部或部分數據的元數據。目錄方案支持檢索關于主體的信息,這些信息可用于回答來自監管機構的查詢(例如,數據主體訪問請求(data?subject?access?request,dsar))。但是,存在某些與目錄方案相關的實現問題,例如,數據不斷地流入典型的數據存儲系統,因此需要不斷地對信息進行索引。這意味著需要不斷地維護主體信息與主體之間的相關性,這不是一項簡單的任務。另一個關于數據與主體之間的相關性的問題是數據并不總是結構化的,并且即使在結構化數據中,維護數據項之間的相關性也不是一項簡單的任務。另一個實現問題是要求主體指定某種形式的識別,并且作為響應,組織需要提供關于主體的所有相關信息。
2、目前,已經提出了某些方法,以便關聯數據存儲系統中與數據主體相關的所有信息。例如,提供工具以用于搜索和識別個人可識別信息(personally?identifiableinformation,pii)以及pii元素之間的相關性。現有的方法基于自動的、以數據為中心的方案,或在數據模型中使用的圖(例如,身份圖)。一些方法基于文檔標記,并依賴于這些標記和過程來響應法規定義的身份請求。然而,所提出的方法在識別與數據主體相關的各種pii元素以及各種pii元素之間的相關性方面缺乏所需的準確性和效率。因此,由于數據主體的各種pii元素之間的相關性不足,所以存在識別與數據主體相關的相關信息效率低下的技術問題。
3、因此,根據上述討論,需要克服與傳統方法相關的上述缺點,即在典型數據存儲系統中關聯與數據主體相關的所有信息。
技術實現思路
1、本公開提供了一種數據管理設備和一種數據管理的計算機實現方法。本公開提供了一種方案,解決了由于數據主體的各種pii元素之間的相關性不足而導致的識別與數據主體相關的相關信息效率低下的現有問題。本公開的目的是提供一種至少部分地克服現有技術中遇到的問題的方案,并提供一種改進的數據管理設備和改進的數據管理的計算機實現方法。
2、本公開的目的是通過所附獨立權利要求中提供的方案實現的。在從屬權利要求中進一步限定本公開的有利實現方式。
3、在一方面,本公開提供了一種數據管理設備,包括用于接收至少一個文檔的輸入單元。所述數據管理設備還包括:識別單元,用于識別所述接收到的文檔中的一個或多個個人可識別信息(personally?identifiable?information,pii)元素;關系單元,用于識別在所述接收到的文檔中識別出的pii元素對之間的一個或多個關系。所述數據管理設備還包括映射單元,所述映射單元用于通過以下操作生成圖:將每個識別出的pii元素添加為節點;將每個識別出的關系添加為邊;為每個節點分配準確性分數和唯一性分數;為每個邊分配關系準確性分數。
4、由于在數據存儲系統中識別出的一個或多個pii元素與身份請求中指定的至少一個pii元素之間的相關性充分,因此所述數據管理設備能夠高效地識別與數據主體相關的相關信息。此外,數據管理設備不僅能從單個文檔,而且能從由輸入單元接收并保存在數據存儲系統中的多個文檔中識別與數據主體相關的一個或多個pii元素。數據管理設備使用加權因子,以便在表示數據主體的圖中定位此類pii元素的集群,同時刪除不相關的信息。
5、在一種實現方式中,所述數據管理設備還包括上報模塊,所述上報模塊包括:請求輸入單元,該單元用于接收指定至少一個pii元素的請求;發現單元,該單元用于從所述指定pii元素開始遍歷所述圖并生成包括每個遍歷的pii元素的列表,其中所述遍歷受限于基于所述分配的分數的加權因子。
6、通過請求輸入單元,請求中指定的至少一個pii元素與定義為圖中節點的數據主體的一個或多個pii元素中的每一個元素更準確地相關聯。并且,通過發現單元,可以高效地遍歷所述圖,以返回似乎更接近請求中指定的pii元素的pii元素。
7、在另一種實現方式中,所述圖的每個節點包括與所述pii元素相關的至少一個接收到的文檔的信息,并且其中所述發現單元用于將每個相關文檔包括在所述遍歷的pii元素的列表中。
8、這在從一個或多個與pii元素相關的文檔中收集所有信息方面是有利的。
9、在另一種實現方式中,所述發現單元用于使用廣度優先搜索遍歷所述圖。
10、使用廣度優先搜索有利于高效地確定下一步要搜索的節點。
11、在另一種實現方式中,通過將每個節點的所述準確性分數與路徑權重相乘,為所述每個節點計算所述加權因子,其中所述路徑權重是前一個節點的路徑權重、所述前一個節點的唯一性分數和兩個節點之間的關系準確性分數的乘積。
12、這有利于計算每個節點的加權因子,以便以更高的準確性和可靠性高效地關聯與數據主體相關的一個或多個pii元素。
13、在另一種實現方式中,當多個節點可供搜索時,下一個待搜索的節點被確定為路徑權重與唯一性分數的乘積值最大的節點。
14、通過基于路徑權重與唯一性分數的最大乘積值來確定待搜索的下一個節點,可以得到與數據主體的相關性更高的信息。
15、在另一種實現方式中,所述發現單元用于在所述加權因子低于預定義閾值時,停止遍歷所述圖。
16、使用預定義閾值可以消除不同主體的一個或多個pii元素,同時包括正在進行搜索的數據主體的所有pii元素。
17、在另一種實現方式中,如果為同一主體找到共享共同類型的多個pii元素,則調整所述閾值。
18、在為同一主體找到共享共同類型的多個pii元素時調整預定義閾值可以過濾掉不相關的結果。
19、在另一方面,本公開提供了一種數據管理的計算機實現方法,包括:輸入單元接收至少一個文檔。所述計算機實現方法還包括:識別單元識別所述接收到的文檔中的一個或多個個人可識別信息(personally?identifiable?information,pii)元素;關系單元識別在所述接收到的文檔中識別出的pii元素對之間的一個或多個關系。所述計算機實現方法還包括:映射單元通過以下操作生成圖:將每個識別出的pii元素添加為節點;將每個識別出的關系添加為邊;為每個節點分配準確性分數和唯一性分數;為每個邊分配關系準確性分數。
20、計算機實現方法實現了數據管理設備的所有優點和技術效果。
21、在又一方面,本公開提供了一種包括指令的計算機可讀介質,所述指令當由處理器執行時,使得所述處理器執行所述方法。
22、處理器(例如,設備或系統的處理器)在執行方法后實現了方法的所有優點和效果。
23、應當理解,上述所有實現方式都可以組合在一起。
24、需要說明的是,本技術中描述的所有設備、元件、電路、單元和模塊可以在軟件或硬件元件或其任何類型的組合中實現。本技術中描述的各種實體執行的所有步驟和所描述的將由各種實體執行的功能旨在表明各種實體適于或用于執行各自的步驟和功能。雖然在以下具體實施例的描述中,外部實體執行的具體功能或步驟沒有在執行具體步驟或功能的實體的具體詳述元件的描述中反映,但是技術人員應清楚,這些方法和功能可以通過相應的軟件或硬件元件或其任意組合實現。可以理解的是,在不脫離由所附權利要求書所定義的本公開的范圍的情況下,本公開的特征易于以各種組合方式進行組合。
25、本公開的其它方面、優點、特征和目的從附圖和結合以下所附權利要求書解釋的說明性實現方式的詳細描述中變得顯而易見。