基于小波變換的差分隱私數據發布方法
【技術領域】
[0001] 本發明涉及計算機數據挖掘、數據隱私保護技術領域,具體地,涉及一種基于小波 變化的差分隱私數據發布方法,用于解決差分隱私數據發布過程中噪音量過大的問題。
【背景技術】
[0002] 信息技術的飛速發展使得各類數據的發布、采集、存儲和分析變得方便快捷.例 如,醫院電子病例記錄病人基本信息、疾病信息及藥品購買記錄;人口普查記錄市民的家庭 住址以及收入情況;金融業務服務會記錄客戶私有信息及其交易行為等,而這些數據的收 集和發布直接給個人隱私造成威脅。
[0003] 隱私保護技術可以解決數據發布和數據分析帶來的隱私威脅問題,如何發布和分 析而又不泄露隱私信息是隱私保護技術的主要目的。已有的基于k匿名或者劃分的隱私保 護方法,只適應特定背景知識下的攻擊而存在嚴重的局限性。差分隱私作為一種新出現的 隱私保護框架,能夠防止攻擊者擁有任意背景知識下的攻擊并提供有力的保護。該模型不 關心攻擊者擁有多少背景知識,通過向查詢或者分析結果中添加適當噪音來達到隱私保護 效果,類似傳統的隱私保護技術,實施差分隱私保護技術主要考慮兩個方面的問題:(1)如 何保證設計的算法滿足差分隱私,以確保數據隱私不被泄露;(2)如何減少噪音帶來的誤 差,以提高數據的可用性。
[0004] 差分隱私的形式化定義如下:
[0005] 定義1:給定數據集D和D',二者互相之間至多相差一條記錄,S卩|D AD' I <1.給 定一個隱私算法A,Range(A)為A的取值范圍,若算法A在數據集D和D'上任意輸出結果 0(0 e Range (A))滿足下列不等式,則A滿足e差分隱私:
[0006]
【主權項】
1. 一種基于小波變換的差分隱私數據發布方法,其特征在于:把原始數據集的屬性取 值概括為預定義概括樹結構中最頂層的取值,再利用概括樹結構自頂向下的細分取值,逐 步把概括化的屬性值轉化為細分的屬性值,其中,在選擇屬性進行細分的選擇算法上,利用 已有的指數加噪方法,在葉子節點的加噪中引入小波變換的加噪方法,使得在滿足差分隱 私保護的前提下,盡量減少新發布數據集相對原始數據集的噪音。
2. 根據權利要求1所述的基于小波變換的差分隱私數據發布方法,其特征在于,該方 法具體包括W下步驟: 步驟1、初始化原始數據集;根據預定義的概括樹結構將原始數據集各個樣本中的屬 性值轉化為概括樹中最頂層的取值; 步驟2、自頂向下進行屬性值的細分,在所有屬性中選取一個屬性進行細分,根據細分 后的屬性取值,分割整個樣本; 步驟3、判斷細分次數是否達到上界,即細分到葉子節點,如是則進入步驟4,否則,返 回步驟2 ; 步驟4、加噪葉子節點:各個葉子節點上樣本的數目組合成一個分布,通過小波變換f, 將分布的取值,即葉子節點上樣本的數目,轉化為小波系數,對小波系數進行拉普拉斯加噪 后,利用小波變換的逆廣1把小波系數轉化為新的分布值,即最終加噪后的分布取值; 步驟5、發布新的數據集,該新數據集的屬性與原始數據集的屬性相同,其屬性的取值 為步驟4中各個葉子節點上該屬性的取值,對應的樣本數目則是各個葉子節點加噪后的分 布取值。
【專利摘要】本發明公開了一種基于小波變換的差分隱私數據發布方法。通過把原始數據集的屬性取值概括為預定義概括樹結構中最頂層的取值,再利用概括樹結構自頂向下的細分取值,一步一步把概括化的屬性值轉化為細分的屬性值。在選擇屬性進行細分的選擇算法上,利用已有的指數加噪方法;在葉子節點的加噪中引入了小波變換的加噪方法,使得在滿足差分隱私保護的前提下,盡量減少新發布數據集相對原始數據集的噪音。本發明結合小波變換和指數機制協同加噪,有效的減少了在對原始數據集加噪過程中噪音的累積,并且符合差分隱私保護的定義,減少了隱私保護的代價,有效提高了差分隱私保護后數據集的利用率。
【IPC分類】G06F21-62
【公開號】CN104573560
【申請號】CN201510041710
【發明人】管海兵, 姚建國, 馬汝輝, 李健, 鄧煜
【申請人】上海交通大學
【公開日】2015年4月29日
【申請日】2015年1月27日