專利名稱:一種隱私保護數據共享發布方法
技術領域:
本發明涉及一種數據處理方法,特別是一種隱私保護數據共享發布方法。
背景技術:
近年來聚類挖掘已在一些深層次數據應用中取得較大進展,但隨著人們對數據隱 私的日益關注,對數據進行共享挖掘也帶來了隱私保護方面的問題。例如,通過對電子病歷 進行挖掘可以得到病癥的聚類,但醫療機構若直接將原始數據提供給挖掘者,會導致病例 數據暴露,泄露患者隱私。保險公司的理賠信息、銀行卡交易等數據中隱含的聚類模式,對 政府和企業決策具有重要意義,同時又都可能涉及個人隱私。隱私保護數據發布需要在保護數據隱私和維持數據可用性間尋求一種折中,目前 數據隱藏技術的主要思想是通過對原始個體數據取值的修改實現對微數據隱私安全的保 護,這種修改將以較大的概率造成數據個體差異的改變;而聚類挖掘恰恰通過分析數據個 體的相似和相異性,按照屬于同一聚簇的數據對象具有較低的相異性,屬于不同聚簇的數 據對象間具有較高相異性的思想將數據劃分成簇,聚類過程嚴重依賴于個體數據間的相異 性。某種程度上,聚類與隱藏在原理上存在依賴數據個體差異與弱化數據個體差異的沖突, 導致面向聚類的數據隱藏有別于面向其它數據應用的隱藏。面向聚類的數據隱藏發布更是 由于以下幾方面原因變得困難(1)保持聚類可用性的困難較之面向計數查詢或關聯、分類挖掘時隱藏處理中需保持的數據可用性特征和約 束,聚類可用性與數據分布及個體數據內部結構相似性的關系更為緊密。而數據隱藏正是 通過修改個體數據特征實現保護數據隱私,這種修改極易引起個體數據內部結構相似性和 數據分布的連鎖變化。(2)數值型數據的約束數值型數據是聚類分析常見的數據類型。不同于類別型數據,數值型數據缺少顯 式的屬性類別層次,數據匿名隱藏方法常用的泛化和抑制操作將失效或造成較大的信息丟 失。對數值型數據集進行聚類分析,歐式距離是評價數據間相似性和相異性的基本指標,隱 藏方法需要保證隱藏前后任意數據記錄間的歐式距離關系不變,以確保隱藏發布后數據的 聚類質量不變或改變較小。已有的一些數據隱藏發布方法存在不適用于數值型數據隱藏或難以兼顧隱藏后 數據聚類可用性與數據隱私安全性的不足。
發明內容
發明目的針對上述現有技術無法很好的解決面向聚類挖掘的隱私保護數據共 享發布問題,本發明的目的是提供一種基于阿基米德螺線旋轉的隱私保護數據共享發布方 法,以實現web環境下多數據源數據的安全共享與聚類可用性。技術方案為實現上述發明目的,本發明采用的技術方案為一種隱私保護數據共享發布方法,包括如下步驟(如
圖1所示)(1)用戶向服務器提交包含η條記錄的原始數據集D,D包含m個屬性列I1,12,...,I .
丄m ‘(2)若所述步驟(1)中的m為奇數,則轉到步驟(3),若m為偶數,則轉到步驟(4);(3)為D生成第m+1個屬性列Im+1,D中η條記錄在屬性列Im+1上的取值均為0 ;(4)將D中屬性列隨機兩兩分組,得到m/2或(m+l)/2個屬性列對(Ii, Ij), 1彡i乒j彡m+1 ;對于一個屬性列對(Ii, Ij),Ii稱為Ij的配對屬性列,Ij也為Ii的配對 屬性列;(5)對D中任意三個滿足AB彡AC彡BC的不同的數據點A、B、C,生成基于阿基 米德螺線旋轉數據變換后保持所述三個數據點距離關系保持穩定的旋轉參數取值范圍 β,, ke [1,2,3, ... ,^3];這里保持穩定的意思是,原來A、B、C三個數據點距離關系是 AB ^ AC ^ BC,則生成基于阿基米德螺線旋轉數據變換后三個數據點距離關系原則上仍保 持不變,僅在取等號時可能發生微小的變化;(6)生成原始數據集D的阿基米德螺線旋轉參數取值范圍β ^ P=IcIlPk-,(7)選取滿足ε X α e 的螺距參數ε與旋轉角度α,對D中各屬性對的投 影數據子集進行阿基米德螺線旋轉,生成變換后投影數據子集;(8)若m為奇數,將變換后Im+1屬性列及其配對屬性列合并,并與其它變換后投影 數據子集進行并操作,生成D的變換后數據集D';若m為偶數,對變換后所有投影數據子 集進行并操作,生成D的變換后數據集D'。所述步驟(5)中旋轉參數取值范圍β k的生成方法可為假設1、2屬性列組成一 對,3、4屬性列組成一對,…,m-l、m屬性列組成一對,任意數據點A、B、C向量表示如下A(A1, A2, ... , Am),B(B1; B2, ... , Bm),C(C1, C2, ... , Cm);其中線段AA、B1B2與原點0的夾角為θ n, A3A4, B3B4與0的夾角為θ 12,..., AnrlAm、BnrlBm與0的夾角為θ 1(m/2);線段A1A2> C1C2與0的夾角為θ 21,A3A4, C3C4與0的夾角 為 θ 22' · · · ‘ Am-!Am> Cm^1Cm 與 0 的夾角為 θ
2(m/2) ° 其中 Q 11、Q 12、· · ·、Q 1 (m/2) ‘ Q 21、^ 22、· · ·、
θ 2(ffl/2) e
,假設
m/2M = 2^(cosi92i. - cos(9b.),
i=l
m/2N =- Ci + ay(cos(92i. - cos(9b.) + c. cos02j - cos6u\
i=l則旋轉變換后AB和AC距離關系保持穩定的阿基米德旋轉參數取值范圍《的生成 方法如下①M= 0,N = 0 時,《=(0, + α>);②M = 0,N 乒 0 時,允=(0, (ABl-ACX );③M > 0 樹,βΙ=(0,(-Ν-·^Ν2 -4M(AB2-AC2))/2M );④M < 0 時,^=(0,(-, +J,2 -4M(AB2-AC2))/2M);對AC ^ BC進行類似分析生成旋轉變換后AC和BC距離關系保持穩定的阿基米德旋轉參數取值范圍Λ2 l)M = 0,N = 0 時,/¢=(0,+00);
2)M=0,N ≠ 0時,
權利要求
1.一種隱私保護數據共享發布方法,其特征在于,包括如下步驟(1)用戶向服務器提交包含η條記錄的原始數據集D,D包含m個屬性列I1,12,…,Im;(2)若所述步驟(1)中的m為奇數,則轉到步驟(3),若m為偶數,則轉到步驟;(3)為D生成第m+1個屬性列Im+1,D中η條記錄在屬性列Im+1上的取值均為0;(4)將D中屬性列隨機兩兩分組,得到m/2或(m+1)/2個屬性列對(Ii, Ij),1≤i≠j≤m+1 ;(5)對D中任意三個滿足AB彡AC彡BC的不同的數據點A、B、C,生成基于阿基米德螺線 旋轉數據變換后保持所述三個數據點距離關系保持穩定的旋轉參數取值范圍0k,ke [1, 2,3,· · ·,Cn ];(6)生成原始數據集D的阿基米德螺線旋轉參數取值范圍β" ^o=I £ A;(7)選取滿足εX α e 的螺距參數ε與旋轉角度α,對D中各屬性對的投影數 據子集進行阿基米德螺線旋轉,生成變換后投影數據子集;(8)若m為奇數,將變換后Im+1屬性列及其配對屬性列合并,并與其它變換后投影數據 子集進行并操作,生成D的變換后數據集D';若m為偶數,對變換后所有投影數據子集進 行并操作,生成D的變換后數據集D'。
2.根據權利要求1所述一種隱私保護數據共享發布方法,其特征在于,所述步驟(5)中 旋轉參數取值范圍β k的生成方法為假設1、2屬性列組成一對,3、4屬性列組成一對,…, m-l、m屬性列組成一對,任意數據點A、B、C向量表示如下A (A1, A2, -,Am), B (B1, B2,…,Bm),C(C1; C2,-,Cm);其中線段ΑΑ、ΒΑ與原點0的夾角為θ n,A3A4^B3B4與0的夾角為θ 12,...,Am_1Am>Bm_1Bm 與0的夾角為θ工W2);線段A1AyC1C2與0的夾角為θ 21,A3A4、C3C4與0的夾角為θ四,…, Am—iAm、Cm—A 與0的夾角為 Q 2 (m/2) ° 其中 Q 11、Q 12、 .··、^ 1 (m/2),^ 21、^ 22、 .··、^ 2 (m/2) ^rp · cos (rp/ ε + δ ) = χ-0χ rp · sin(rp/ ε + δ ) = y-0yX'與y'由下式求得 χ ‘ = (rp+ ε α ) cos (rp/ ε + α + δ ) +Ox y ‘ = (rp+ ε α ) sin (rp/ ε + α + δ ) +Oy其中,rp表示P(x,y)到螺心坐標為(0X,Oy)的歐幾里德距離,
4.根據權利要求1所述一種隱私保護數據共享發布方法,其特征在于,所述步驟(8) 中,若m為奇數,對變換后Im+1屬性列及其配對屬性列合并方法如下Ilrt屬性列的配對屬性列為屬性列Ii, 1彡i彡m,生成屬性列對(Ii, Im+1),其投影數據子集對應阿基米德螺線螺心坐標為(Ox,0),假設Q' (x' ,y')為對該投影數據子集實施阿基米德螺線旋轉變換生成數據集中的任意數據記錄,則
全文摘要
本發明公開了一種隱私保護數據共享發布方法,包括如下步驟用戶通過服務器接口提交數據集,服務器判斷數據集維數,若為奇數,則增加一個屬性,該維數據屬性值置零,將屬性隨機兩兩分組;分析數據集中數據點間的距離關系,確定阿基米德螺線旋轉參數,借助阿基米德螺線的幾何性質,對原始數據中屬性值對進行阿基米德螺線旋轉變換,生成變換后數據集。本發明通過維持原始數據集任意三個數據記錄間距離關系穩定實現隱藏前后數據集聚類效果相同(或相似),實現有效兼顧聚類可用性和數據隱私安全性的隱私保護數據共享發布。
文檔編號G06F21/00GK102147814SQ20111009792
公開日2011年8月10日 申請日期2011年4月19日 優先權日2011年4月19日
發明者倪巍偉, 崇志宏, 陸介平, 黃茂峰 申請人:東南大學