一種基于移動用戶配置文件混淆的隱私保護系統及方法
【專利摘要】本發明公開了一種基于移動用戶配置文件混淆的隱私保護系統及方法,采用客戶端—服務器兩層體系架構,運用多種混淆技術保障移動廣告生態系統中用戶的隱私安全。客戶端應用可以獲取手機應用列表、應用程序的使用信息以及配置文件,然后發送給服務器。服務器根據收集到的信息分析、提取出用戶的偏好特征,生成對應的用戶偏好文件,還可以提醒用戶存在的潛在威脅。同時還提出了基于相似度、定制化以及隨機化的混淆策略,用戶可以根據實際情況選擇相應的混淆策略。混淆引擎根據用戶選擇的混淆策略來混淆用戶偏好分類,增加了配置文件中隱私偏好的噪音,減少了用戶隱私偏好的主導地位。既可以有效地保護用戶隱私,又不會影響廣告定向投放的效果。
【專利說明】
一種基于移動用戶配置文件混淆的隱私保護系統及方法
技術領域
[0001] 本發明屬于移動互聯網安全技術領域,涉及一種基于移動用戶配置文件混淆的隱 私保護系統及方法,尤其涉及一種運用多種混淆策略來保護移動用戶配置文件中用戶隱私 信息同時又保證了定向廣告投放效果的基于移動用戶配置文件混淆的隱私保護系統及方 法。
【背景技術】
[0002] 隨著移動設備的數量急劇增長,許多用戶傾向于使用移動設備,而且更加頻繁地 活躍在移動網絡上。由于Android采用開源的操作系統,其安全問題十分令人憂慮。尤其是 隨著現在指紋技術的不斷升級,用戶隱私安全更加突出。目前關于指紋技術的研究主要集 中在網站指紋攻擊、防御以及移動平臺的指紋識別上,而在移動廣告生態系統中利用指紋 攻擊、防御技術保護用戶隱私并不多見。
[0003] 移動應用中的配置文件在移動網絡環境中顯得極為重要,因為配置文件會收集用 戶的指紋信息并且發送到分析公司,如Google Analytics和Flurry等。由于配置文件能夠 增加廣告與用戶之間的契合度,定向廣告作為促進廣告生態系統發展的主要動力,因此會 愈發地依賴于用戶的配置文件。
[0004] 許多廣告服務商為了有針對性地投放廣告,并且讓投放的廣告產生最佳效益,不 得不花大量的時間去搜集用戶的指紋信息,然后對收集到的信息進行分析得出每個用戶的 偏好特征,最后根據用戶的偏好去投遞相應的廣告,如此一來才可以保證廣告與用戶之間 的契合度達到最佳。細細看來發現其間隱藏著一個十分令人憂慮的問題:指紋信息包括了 許多敏感信息,如性別、年齡、收入等,主要用來標識、識別每個用戶,如果廣告服務商獲取 了用戶的敏感信息并且不遵守隱私規范的話,用戶的隱私將面臨著極大的威脅。
[0005] 因此需要一種方法既可以保護移動廣告生態系統中用戶的隱私又不會影響定向 廣告投放的影響。
【發明內容】
[0006] 為了解決上述技術問題,本發明提出了一種運用多種混淆策略來保護移動用戶配 置文件中用戶隱私信息同時又保證了定向廣告投放效果的基于移動用戶配置文件混淆的 隱私保護系統及方法。
[0007] 本發明的系統所采用的技術方案是:一種基于移動用戶配置文件混淆的隱私保護 系統,其特征在于:采用客戶端、服務器兩層體系架構;所述客戶端用于收集用戶的應用列 表、應用程序的使用信息以及配置文件,并將這些信息上傳到服務器,同時自動化安裝、運 行應用程序;所述服務器對收集到的信息進行分析、提取出用戶的偏好特征,為每個用戶生 成對應的偏好文件,同時提醒用戶潛在的隱私威脅。
[0008] 本發明的方法所采用的技術方案是:一種基于移動用戶配置文件混淆的隱私保護 方法,其特征在于,包括以下步驟:
[0009] 步驟1:收集手機用戶的配置文件;
[0010] 步驟2:提取用戶的行為數據;
[0011]步驟3:對行為數據進行預處理;
[0012] 步驟4:對預處理后的行為數據建立用戶標簽,建立偏好預測模型,包括用戶性別 預測模型,年齡預測模型,收入預測模型以及興趣愛好預測模型;建立偏好預測模型采用了 邏輯回歸算法,因為邏輯回歸算法通過聚類分析將一些非線性特征轉化為線性特征;而且 比較抗噪,適用于數據特別大的場景,算法效率特別高;
[0013] 步驟5:通過建立的偏好預測模型提取用戶多個維度的興趣偏好特征,包括用戶維 度以及應用程序維度的興趣偏好特征;并判斷是夠提取成功;
[0014]若是,則執行下述步驟6;
[0015] 若否,則回轉執行上述步驟2,需要重新提取用戶行為數據,再次建立預測模型;
[0016] 步驟6:判斷用戶的偏好特征是否為用戶的隱私偏好特征;
[0017]若是,則執行下述步驟7;
[0018] 若否,則投放廣廣告,并回轉執行上述步驟1;
[0019] 步驟7:選擇混淆策略,包括基于相似度的混淆策略、基于隨機化的混淆策略以及 基于定制化的混淆策略;
[0020] 步驟8:對移動用戶配置文件進行混淆,降低用戶隱私偏好的優勢比,保護用戶隱 私。
[0021] 作為優選,步驟1中所述配置文件包括移動用戶信息、移動網絡服務信息、上下文 信息、移動用戶使用移動網絡服務的行為日志信息。
[0022] 作為優選,步驟2中是通過客戶端收集用戶的行為數據,所述用戶行為數據包括用 戶身份信息、用戶社會生活信息、用戶行為偏好信息、人口學特征信息,這些信息根據 Google提供的數據集分類標準來區分。
[0023]作為優選,步驟3中所述對行為數據進行預處理,即對原始數據進行ETL加工處理, 首先需要處理掉存儲的無效重復數據,對于用戶行為沒有影響或重復數據,對非結構化數 據和半結構化數據進行結構化處理,并對數據進行補缺、替換、數據合并、數據拆分、數據加 載和異常處理。
[0024]作為優選,步驟5中所述提取用戶多個維度的興趣偏好特征,具體實現包括以下步 驟:
[0025] 步驟5.1:對于步驟5中預處理后的數據,利用開源的機器學習分類包(CardMagic-Classifier)對數據進行分類;
[0026] 步驟5.2:根據Google設計的用戶偏好分類對用戶的行為特征計算特征值;
[0027] 步驟5.3:根據步驟5.2計算的特征值進行排序,選取排名靠前10個特征值為用戶 的偏好特征。
[0028]作為優選,步驟7中所述基于相似度的混淆策略,首先利用改進的TF-IDF算法,提 取出應用程序的關鍵詞;然后進行相似度判斷;最后找到相似應用,并進行混淆。
[0029]作為優選,所述改進的TF - IDF算法,其具體實現過程是:
[0030] (1)文本預處理;
[0031]首先對語料庫進行分詞,接著進行停用詞剔除;然后進行未登錄詞識別;最后統計 分析;統計詞語的詞頻、詞語位置及出現該詞語的段落數;
[0032] (2)計算跨度權值
;其中,Li表示詞語出現的段數,L代表段落總數。跨段數 越多,說明該詞越重要,全局性越強;
[0033] (3)計算逆文檔頻率IDF:
其中,心表示文檔中出現詞語i的文檔 數,β為經驗值;β-般取0 · 01、0 · 1、1;
[0034] (4)計算 TF-IDF:
[0036] 其中,fij表示詞語i在文檔dj中出現的頻率,mi詞語在文本中的位置權重,si是詞 語i在文檔中的跨度;
[0037] (5)根據TF-IDF提取出關鍵詞。
[0038]作為優選,所述進行相似度判斷,假設文本X和y,則其具體實現過程是:
[0039] (1)通過TF-IDF提取出文本X,y中的關鍵詞;
[0040] (2)列舉出所有出現的關鍵詞,得到集合S;
[0041] (3)標出集合S中,每個關鍵詞在文本X和y中各自的詞頻,得到兩個向量A[Ai,A2, Α3,···Αη]^ΡΒ[Β?,Β2,Β3,···Βη];
[0042] (4)利用下面改進的余弦相似度公式計算向量Α和Β之間的夾角,夾角越小越相似;
[0044] 其中ΝαΝβ表示Α,Β中公共的關鍵詞數量,而組以仏一表示六^中所含關鍵詞較少的 文本中的關鍵詞數
f就表示Α,Β兩個文本相互覆蓋的程度,其取值為[0,1 ],如果為0 貝1JA,B沒有交集,即相似度為0,若A中的關鍵詞在B中都出現了,那么其值就是1。
[0045] 作為優選,所述找到相似應用并進行混淆,其中混淆集合S。包含的應用都與當前 手機所安裝的應用程序33的相似度值大于70 %。
[0046] 對于單個混淆應用來說,基于單個私人應用分類0[)與私人偏好分類ΨΡ2間的對 應關系,混淆集合S。如下定義:
[0048] 其中,a°表示要混淆的應用,&^表示私人應用,aq, r表示非私人應用,Φ表示應用 分類,表示非私人應用分類,Sa表示當前用戶所安裝的應用集合。
[0049] 作為優選,步驟7中所述基于隨機化的混淆策略,首先從個人應用中得到應用程序 配置文件與偏好配置文件之間的匹配關系M;然后選擇已知的偏好候選混淆應用,而且所選 的混淆應用屬于特定用戶的偏好配置文件S g的偏好集合所表示的分類;
[0050] 假設單個混淆應用以及私人應用分類〇[),則混淆集合S。如下定義:
[0052] 其中,私人應用分類ΦΡ與私人偏好分類ΨΡ-致,a°為要混淆的應用,gk,r為非私人 偏好,a q,r為非私人應用,Sa為當前用戶所安裝的應用集合。
[0053] 作為優選,步驟7中所述基于定制化的混淆策略,是從任何非私有的個人應用分類 Φ j辛Φp中隨機選擇待選的混淆應用程序;混淆集合S。如下定義:
[0055] 其中,a°為要混淆的應用,aq,r為非私人應用,Sa為當前用戶所安裝的應用集合,Φτ 非私人應用分類,Φ4Α人應用分類。
[0056] 作為優選,步驟8中所述對移動用戶配置文件進行混淆,是通過隱私保護系統混淆 移動用戶配置文件,系統中包括應用程序、應用程序關鍵詞、配置文件、偏好配置文件、配置 文件與偏好文件之間的匹配關系、優勢比的表示方法;
[0057] 假設t/l表不移動應用程序集合,Φ表不應用分類,ai,j,i = l,. . .Aj來表不一個應 用,、表示屬于〇」,」=1,...,〇類別的應用程序數量,〇」代表應用市場中應用的所有分 類數;
[0058] 則所述應用程序的關鍵詞表示方法就是應用程序&^={{',^}:&^£4},其中 是根據移動應用市場中,開發者對每個應用所定義的描述信息得到,k m>1u中的m = 1,· · ·Μυ,Μυ代表應用程序ai,j,i = l,· · .Aj,j = l,· · ·,Φ的關鍵詞數量;
[0059] 所述應用配置文件表示方法就是用1={{{1,^},〇^}:&^£53}來表示配置文 件,其中Sa為市場應用集合4的子集,km, i,j是其對應的關鍵詞;
[0060] 所述偏好配置文件表示方法就是通過Ig = {{gk, i,Ψ i: gk, i e Sg}來表示偏好配置 文件,其中81<,1,1^=1,...,61,6 1表示屬于偏好分類%,1 = 1,...*中偏好的數量,*表示分 析公司定義的偏好分類數量,gk, 1是某種偏好分類中的某個偏好;
[0061] 所述應用配置文件和偏好配置文件之間的匹配關系就是用M:{Ka-Ig}來表示,其 中Φ』是應用程序分類,Ψ1是偏好分類;
[0062] 所述優勢比就是某個事件存在某個特定條件時的成功幾率和存在另一個條件時 的成功幾率的比率,用^>111111({|知-.4|}/{|你.,}|}):/¥/,¥; ?,盡^&來表示,屯?是配置文 件中用戶所選擇的分類,{|{gk,p}}是用戶所選擇的分類中的偏好數量與任意其他類別$1 中的最大偏好數量的比例。
[0063] 本發明采用客戶端一服務器兩層體系架構,運用多種混淆技術保障移動廣告生態 系統中用戶的隱私安全。客戶端應用可以獲取手機應用列表、應用程序的使用信息以及配 置文件,然后發送給服務器。服務器根據收集到的信息分析、提取出用戶的偏好特征,生成 對應的用戶偏好文件,還可以提醒用戶存在的潛在威脅。同時還提出了基于相似度、定制化 以及隨機化的混淆策略,用戶可以根據實際情況選擇相應的混淆策略。混淆引擎根據用戶 選擇的混淆策略來混淆用戶偏好分類,增加了配置文件中隱私偏好的噪音,減少了用戶隱 私偏好的主導地位。既可以有效地保護用戶隱私,又不會影響廣告定向投放的效果。
[0064] 本發明相比現有的技術,其優點和積極效果主要體現在以下幾個方面:
[0065] 1)本方案在移動廣告生態系統中既保護了用戶隱私信息的安全又維持了移動廣 告生態系統的平衡;
[0066] 2)改進了原有的TF-IDF和余弦相似度的算法,提高了相似度匹配的準確率;
[0067] 3)提出了基于相似度、定制化以及隨機化的混淆策略大大降低了配置文件中個人 隱私信息的優勢比;
[0068] 4)相比于傳統的針對移動廣告系統中的隱私保護方案,本文的方案更加方便、有 效而且成本低廉。
【附圖說明】
[0069]圖1為本發明實施的系統原理圖。
[0070] 圖2為本發明實施例的方法流程圖。
[0071] 圖3為本發明實施例的偏好特征提取流程圖。
[0072]圖4為本發明實施例中提出的改進的TF - IDF算法流程圖。
[0073] 圖5為本發明實施例的混淆模型示意圖。
[0074] 圖6為本發明實施例中應用程序與偏好配置文件之間匹配關系示意圖。
[0075]圖7為本發明實施例中三種混淆策略示意圖。
[0076] 圖8為本發明實施例中相似度策略流程圖。
[0077] 圖9為本發明實施例中定制化策略流程圖。
[0078] 圖10為本發明實施例中移動應用分類示意圖。
【具體實施方式】
[0079] 為了使本發明的目的、技術方案及有益效果更佳清楚明白,以下結合附圖即實施 例,對本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅用以解釋本發 明,并不限于本發明。
[0080] 請參閱圖1,本發明的系統架構,采用客戶端一服務器兩層體系架構,運用多種混 淆技術保障移動廣告生態系統中用戶的隱私安全。客戶端應用可以獲取手機應用列表、應 用程序的使用信息以及配置文件,然后發送給服務器。服務器根據收集到的信息分析、提取 出用戶的偏好特征,生成對應的用戶偏好文件,還可以提醒用戶存在的潛在威脅。同時還提 出了基于相似度、定制化以及隨機化的混淆策略,用戶可以根據實際情況選擇相應的混淆 策略。混淆引擎根據用戶選擇的混淆策略來混淆用戶偏好分類,增加了配置文件中隱私偏 好的噪音,減少了用戶隱私偏好的主導地位。
[0081] 請見圖2,本發明提供的一種基于移動用戶配置文件混淆的隱私保護方法,包括以 下步驟:
[0082] 步驟1:收集手機用戶的配置文件(移動用戶信息、移動網絡服務信息、上下文信 息、移動用戶使用移動網絡服務的行為日志信息);
[0083] 步驟2:提取用戶的行為數據(用戶身份信息、用戶社會生活信息、用戶行為偏好信 息、人口學特征信息);
[0084]步驟3:對行為數據進行預處理,即對原始數據進行ETL加工處理,首先需要處理掉 存儲的無效重復數據,對于用戶行為沒有影響或重復數據,對非結構化數據和半結構化數 據進行結構化處理,并對數據進行補缺、替換、數據合并、數據拆分、數據加載和異常處理; [0085]步驟4:對預處理后的行為數據建立用戶標簽,建立偏好預測模型,包括用戶性別 預測模型,年齡預測模型,收入預測模型以及興趣愛好預測模型;建立偏好預測模型采用了 邏輯回歸算法,因為邏輯回歸算法通過聚類分析將一些非線性特征轉化為線性特征;而且 比較抗噪,適用于數據特別大的場景,算法效率特別高。
[0086] 步驟5:通過建立的偏好預測模型提取用戶多個維度的興趣偏好特征,包括用戶維 度以及應用程序維度的興趣偏好特征;并判斷是夠提取成功;
[0087] 若是,則執行下述步驟6;
[0088] 若否,則回轉執行上述步驟2;需要重新提取用戶行為數據,再次建立預測模型。
[0089] 步驟6:判斷用戶的偏好特征是否為用戶的隱私偏好特征;
[0090] 若是,則執行下述步驟7 ;
[0091] 若否,則投放廣廣告,并回轉執行上述步驟1;
[0092] 步驟7:選擇混淆策略,包括基于相似度的混淆策略、基于隨機化的混淆策略以及 基于定制化的混淆策略;
[0093] 步驟8:對移動用戶配置文件進行混淆,降低用戶隱私偏好的優勢比,保護用戶隱 私。
[0094]本實施例的基于相似度的混淆策略,首先利用改進的TF-IDF算法,提取出應用程 序的關鍵詞;然后進行相似度判斷;最后找到相似應用,并進行混淆。
[0095]請參閱圖3,本發明實施例的偏好特征提取流程圖。首先獲取移動用戶信息、移動 網絡服務信息、上下文信息、移動用戶使用移動網絡服務的行為日志等信息;接著對數據進 行預處理計算;然后對預處理的數據進行建模分析,最后提取得出用戶的偏好特征。具體包 括如下步驟:
[0096] 步驟1:對于步驟5中預處理后的數據,利用開源的機器學習分類包(CardMagic-Classifier)對數據進行分類;
[0097] 步驟2:根據Google設計的用戶偏好分類對用戶的行為特征計算特征值;
[0098] 步驟3:根據步驟2計算的特征值進行排序,選取排名靠前10個特征值為用戶的偏 好特征。
[0099] 請參閱圖4,本發明實施例提出的改進的TF-IDF算法流程圖。改進的方法就是在 文本預處理中加入詞語段落標注技術。具體步驟如下:
[0100] 步驟1:文本預處理就是在執行過程中,使用四元組<?146,111 1,11>表示預處理后 的文本集,其中^是詞語,〖6是詞語的詞頻,ΠΗ是詞語在文本中的位置權重,h是文檔中出 現該詞語的段落數。
[0101 ]步驟1.1:對語料庫進行分詞。
[0102] 步驟1.2:停用詞剔除(去除文檔中出現頻率很高,但是對文章主題不具有代表性 或者代表性很小的詞。諸如的、也、嗎等一類的虛詞和逗號、頓號等一類的標點。
[0103] 步驟1.3:未登錄詞識別(未登錄詞是指文檔中那些不能由詞典識別的詞匯,包括 人名、地名、術語等。未登錄詞基本都是名詞,大多是專有名詞或新詞,往往說明該文章描述 的特定對象,是文章表達的特征詞,一般具有較高的重要性。
[0104] 步驟1.4:統計分析。統計詞語的詞頻、詞語位置及出現該詞語的段落數,得到<Wl, tfnmnh〉四元組。最后得到的四元組為改進文本預處理后的結果。
[0105] 步驟2:計算跨度權值,一個詞的跨段落情況說明這個詞是描述局部的還是表達全 文的。跨段數越多,說明該詞越重要,全局性越強。詞跨度公式:
[0107]其中,Li表示詞語出現的段數,L代表段落總數。
[0108]步驟3:計算逆文檔頻率(IDF),此時需要一個語料庫(corpus),用來模擬語言的使 用環境。如果一個詞出現的頻率比較高就越常見,那么分母就越大,逆文檔頻率就會越小甚 至接近〇。分母之所以要加1,是為了避免分母為〇 (即所有文檔都不包含該詞)。log表示對得 到的值取對數。
[0110] 其中K表示文檔中出現詞語i的文檔數,β為經驗值,β-般取0.01、0.1、1。
[0111] 步驟 4:計算 TF-IDF:
[0113] 其中fij表示詞語i在文檔dj中出現的頻率,mi詞語在文本中的位置權重,si是詞語i 在文檔中的跨度。
[0114]本實施例相似度判斷,假設文本X和y,則其具體實現過程是:
[0115] (1)通過TF-IDF提取出文本X,y中的關鍵詞;
[0116] (2)列舉出所有出現的關鍵詞,得到集合S;
[0117] (3)標出集合S中,每個關鍵詞在文本X和y中各自的詞頻,得到兩個向量 Α3,···Αη]^ΡΒ[Β?,Β2,Β3,···Βη];
[0118] (4)利用下面改進的余弦相似度公式計算向量Α和Β之間的夾角,夾角越小越相似;
[0120] 其中ΝαΝβ表示Α,Β中公共的關鍵詞數量,而Min(NA,B)表示Α,Β中所含關鍵詞較少的 文本中的關鍵詞數:
·就表示A,Β兩個文本相互覆蓋的程度,其取值為[0,1 ],如果為0 貝1JA,B沒有交集,即相似度為0,若A中的關鍵詞在B中都出現了,那么其值就是1。
[0121] 本實施例的混淆策略就是通過混淆系統混淆移動用戶配置文件。系統模型中包括 應用程序,應用程序關鍵詞,配置文件,偏好配置文件,配置文件與偏好文件之間的匹配關 系,優勢比的表示方法。假設4表示移動應用程序集合,Φ表示應用分類。aw,i = l,...、來 表示一個應用,其中、表示屬于Φ j,j = l,. . .,Φ類別的應用程序數量,Φ代表應用市場中 應用的所有分類數。
[0122] 應用程序的關鍵詞表示方法就是應用程序&^={{1^,」}^^},其中1^,^是 根據移動應用市場中,開發者對每個應用所定義的描述信息得到。k m>1,沖的πι=1,...Μ^, Mi,j代表應用程序ai,j,i = l,· · .Aj,j = l,· · ·,Φ的關鍵詞數量。
[0123] 應用配置文件表示方法就是用1= {{{Km,i, j},Φ j} : ai, j e Sa}來表示配置文件,其 中Sa為市場應用集合c/Z的子集,是其對應的關鍵詞。
[0124] 偏好配置文件表示方法就是通過Ig = {{gk, i,ψ i: gk, i e sg}來表示偏好配置文件, 其中gk,i,k=l, . . .,Gi,Gi表示屬于偏好分類Ψι,1 = 1, . . .ψ中偏好的數量,ψ表示分析公 司定義的偏好分類數量。giU簡單說來就是某種偏好分類中的某個偏好。
[0125] 應用配置文件和偏好配置文件之間的匹配關系就是用M:{KdIg}來表示,其中Φ」 是應用程序分類,Ψ1是偏好分類。
[0126] 優勢比就是某個事件存在某個特定條件時的成功幾率和存在另一個條件時的成 功幾率的比率
,i£Sg來表示,Ψρ是配置文件中 用戶所選擇的分類,{I {gk,p} |}是用戶所選擇的分類中的偏好數量與任意其他類別Ψ:* 的最大偏好數量的比例。
[0127] 請參閱圖5,本發明實施例的混淆模型示意圖。假設應用配置文件和偏好配置文件 具有一定的匹配關系,在此定義匹配函數M,M:{K a-Ig},其中包括應用程序分類Φ」與偏好 分類Ψι之間的匹配關系。混淆策略的目標就是最大限度降低用戶配置文件I g中選擇的私人 分類優勢比,主要是通過生成新的混淆配置文件1'8來實現。
[0128] 請參閱圖6,本發明實施例中應用程序與偏好配置文件之間匹配關系示意圖。首先 需要找到應用程序配置文件的表示方法,即從移動應用市場到應用分類在到具體的應用程 序,通過關鍵詞來表示應用程序,最后表示出應用程序配置文件。同樣地,應用偏好也是如 此,從偏好集合到偏好分類再到具體的偏好,最后得到偏好配置文件的表示方法。再通過匹 配關系Μ來表示應用程序與偏好配置文件之間的關系。
[0129] 請參閱圖7,本發明實施例中三種混淆策略示意圖。首先表示出應用程序配置文 件,根據用戶所選擇的混淆應用程序,在通過合適的混淆策略對應用進行混淆,降低私人偏 好在配置文件中的優勢比,即增加用戶隱私信息的噪音,從而達到保護用戶隱私的目的。
[0130] 請參閱圖8,本發明實施例中相似度策略流程圖。根據相似度的高低來選擇合適的 混淆應用。混淆集合S。包含的應用都與當前手機所安裝的應用程序5 3具有最高的相似度(基 于改進的余弦相似度來計算)。對于單個混淆應用來說,單個私人應用分類ΦΡ與私人偏好 分類Ψ Ρ2間的對應關系,可以如下定義:
[0132] 其中,a°為要混淆的應用,ai,P為私人應用,aq,r為非私人應用,Φ表示應用分類,Φτ 為非私人應用分類,Sa為當前用戶所安裝的應用集合。
[0133] 請參閱圖9,本發明實施例中定制化策略流程圖。假設可以從個人應用中得到應用 程序配置文件(關鍵詞和分類)與偏好配置文件之間的匹配關系M。實際上,有關特定應用的 一系列測試是根據用戶特定應用的偏好配置文件來設計的。然后選擇可以生成(已知的)偏 好的候選混淆應用,而且所選的混淆應用屬于特定用戶的偏好配置文件3 8的偏好集合所表 示的分類。假設單個混淆應用以及私人應用分類ΦΡ(與私人偏好分類Ψ Ρ-致):
[0135] 其中,a°為要混淆的應用,gk,r為非私人偏好,aq,r為非私人應用,Sa*當前用戶所安 裝的應用集合。
[0136] 然而,隨機策略旨在從任何非私有的個人應用分類Φ」#ΦΡ中隨機選擇待選的混 淆應用程序。
[0138] 其中,a°為要混淆的應用,aq,r為非私人應用,Sa為當前用戶所安裝的應用集合,Φτ 為非私人應用分類,ΦΡ為私人應用分類。
[0139] 請參閱圖10,本發明實施例中移動應用分類示意圖。選取了Google Play應用商店 中移動應用分類規則,具體包括財務、個性化、購物、教育等27中,此外還對家庭、游戲進行 了更加細膩度地分類。
[0140] 本發明從廣告商的角度出發來保護用戶的隱私信息,通過基于用戶配置文件的混 淆系統對用戶的配置文件進行混淆,增加了個人隱私信息的噪音。這避免了個人指紋信息 被泄露給廣告生態系統中的第三方,或者被移動分析平臺惡意使用。既達到了保護用戶隱 私的目的,又不會嚴重影響定向廣告投放的效果,在用戶隱私和廣告定向投放兩方面達到 合理平衡。
[0141] 本文中所描述的具體實施例僅僅是對本發明精神作舉例說明。本發明所屬技術領 域的技術人員可以對所描述的具體實施例做各種各樣的修改或補充或采用類似的方式替 代,但并不會偏離本發明的精神或者超越所附權利要求書所定義的范圍。
【主權項】
1. 一種基于移動用戶配置文件混淆的隱私保護系統,其特征在于:采用客戶端、服務器 兩層體系架構;所述客戶端用于收集用戶的應用列表、應用程序的使用信息W及配置文件, 并將運些信息上傳到服務器,同時自動化安裝、運行應用程序;所述服務器對收集到的信息 進行分析、提取出用戶的偏好特征,為每個用戶生成對應的偏好文件,同時提醒用戶潛在的 隱私威脅。2. -種基于移動用戶配置文件混淆的隱私保護方法,其特征在于,包括W下步驟: 步驟1:收集手機用戶的配置文件; 步驟2:提取用戶的行為數據; 步驟3:對行為數據進行預處理; 步驟4:對預處理后的行為數據建立用戶標簽,建立偏好預測模型,包括用戶性別預測 模型,年齡預測模型,收入預測模型W及興趣愛好預測模型; 步驟5:通過建立的偏好預測模型提取用戶多個維度的興趣偏好特征,包括用戶維度W 及應用程序維度的興趣偏好特征;并判斷是夠提取成功; 若是,則執行下述步驟6; 若否,則回轉執行上述步驟2; 步驟6:判斷用戶的偏好特征是否為用戶的隱私偏好特征; 若是,則執行下述步驟7; 若否,則投放廣告,并回轉執行上述步驟1; 步驟7:選擇混淆策略,包括基于相似度的混淆策略、基于隨機化的混淆策略W及基于 定制化的混淆策略; 步驟8:對移動用戶配置文件進行混淆,降低用戶隱私偏好的優勢比,保護用戶隱私。3. 根據權利要求2所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于:步 驟1中所述配置文件包括移動用戶信息、移動網絡服務信息、上下文信息、移動用戶使用移 動網絡服務的行為日志信息。4. 根據權利要求2所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于:步 驟2中是通過客戶端收集用戶的行為數據,所述用戶行為數據包括用戶身份信息、用戶社會 生活信息、用戶行為偏好信息、人口學特征信息。5. 根據權利要求2所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于:步 驟3中所述對行為數據進行預處理,即對原始數據進行ETL加工處理,首先需要處理掉存儲 的無效重復數據,對于用戶行為沒有影響或重復數據,對非結構化數據和半結構化數據進 行結構化處理,并對數據進行補缺、替換、數據合并、數據拆分、數據加載和異常處理。6. 根據權利要求2所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于:步 驟5中所述提取用戶多個維度的興趣偏好特征,具體實現包括W下步驟: 步驟5.1:對于步驟3中預處理后的數據,利用開源的機器學習分類包對數據進行分類; 步驟5.2:根據Google設計的用戶偏好分類對用戶的行為特征計算特征值; 步驟5.3:根據步驟5.2計算的特征值進行排序,選取排名靠前10個特征值為用戶的偏 好特征。7. 根據權利要求2所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于:步 驟7中所述基于相似度的混淆策略,首先利用改進的TF-IDF算法,提取出應用程序的關鍵 詞;然后進行相似度判斷;最后找到相似應用,并進行混淆。8. 根據權利要求7所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于:所 述改進的TF-IDF算法,其具體實現過程是: (1) 文本預處理; 首先對語料庫進行分詞,接著進行停用詞剔除;然后進行未登錄詞識別;最后統計分 析;統計詞語的詞頻、詞語位置及出現該詞語的段落數; f .· (2) 計算跨度權值S=^·;其中,Li表示詞語出現的段數,L代表段落總數。跨段數越多, 說明該詞越重要,全局性越強; (3) 計算逆文檔頻率多]其中,Ni表示文檔中出現詞語i的文檔數,β ? 為經驗值; (4) 計算 TF-IDF:其中,fu表示詞語i在文檔山中出現的頻率,mi詞語在文本中的位置權重,Si是詞語i在 文檔中的跨度; (5) 根據TF-IDF提取出關鍵詞。9. 根據權利要求7所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于:所 述進行相似度判斷,假設文本X和y,則其具體實現過程是: (1) 通過TF-IDF提取出文本X,y中的關鍵詞; (2) 列舉出所有出現的關鍵詞,得到集合S; (3) 標出集合S中,每個關鍵詞在文本X和y中各自的詞頻,得到兩個向量A[Ai,A2,A3,… An]和 B[Bl,B2,B3,...Bn]; (4) 利用下面改進的余弦相似度公式計算向量A和B之間的夾角,夾角越小越相似;其中NaNb表示A,B中公共的關鍵詞數量,而Min ( Να, B)表示A,B中所含關鍵詞較少的文本 中的關鍵詞數,-就表示A,B兩個文本相互覆蓋的程度,其取值為[0,1 ],如果為0則A, B沒有交集,即相似度為0,若A中的關鍵詞在B中都出現了,那么其值就是1。10. 根據權利要求7所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于: 所述找到相似應用并進行混淆,其中混淆集合S。包含的應用都與當前手機所安裝的應用程 序Sa的相似度值大于70 %; 對于單個混淆應用來說,基于單個私人應用分類Φρ與私人偏好分類Ψρ之間的對應關 系,混淆集合S。如下定義:其中,a°表示要混淆的應用,ai,p表示私人應用,aq,r表示非私人應用,Φ表示應用分類, Φτ表示非私人應用分類,Sa表示當前用戶所安裝的應用集合。11. 根據權利要求2所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于: 步驟7中所述基于隨機化的混淆策略,首先從個人應用中得到應用程序配置文件與偏好配 置文件之間的匹配關系M;然后選擇已知的偏好候選混淆應用,而且所選的混淆應用屬于特 定用戶的偏好配置文件Sg的偏好集合所表示的分類; 假設單個混淆應用W及私人應用分類Φ P,則混淆集合S。如下定義:其中,私人應用分類Φρ與私人偏好分類Ψρ-致,a°表示要混淆的應用,gk,r表示非私人 偏好,aq,r表示非私人應用,Sa表示當前用戶所安裝的應用集合。12. 根據權利要求2所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于: 步驟7中所述基于定制化的混淆策略,是從任何非私有的個人應用分類聲Φρ中隨機選擇 待選的混淆應用程序;混淆集合S。如下定義:其中,a°表示要混淆的應用,aq,r表示非私人應用,Sa表示當前用戶所安裝的應用集合, Φτ表示非私人應用分類,φρ表示私人應用分類。13. 根據權利要求2所述的基于移動用戶配置文件混淆的隱私保護方法,其特征在于: 步驟8中所述對移動用戶配置文件進行混淆,是通過隱私保護系統混淆移動用戶配置文件, 系統中包括應用程序、應用程序關鍵詞、配置文件、偏好配置文件、配置文件與偏好文件之 間的匹配關系、優勢比的表示方法; 假設?Λ表示移動應用程序集合,Φ表示應用分類,ai,j,i = l, . . .Aj來表示一個應用,Aj 表示屬于〇j,j = l,...,Φ類別的應用程序數量,Oj代表應用市場中應用的所有分類數; 則所述應用程序的關鍵詞表示方法就是應用程序化./=U心化,G 4,其中km,i,j是 根據移動應用市場中,開發者對每個應用所定義的描述信息得到;km,1,沖的Ml,J, Ml, j代表應用程序ai, j,i = 1,. . . Aj,j = 1,. . .,Φ的關鍵詞數量; 所述應用配置文件表示方法就是用1(3={{化。山山〇北曰1^門3}來表示配置文件,其 中Sa為市場應用集合^的子集,km,是其對應的關鍵詞; 所述偏好配置文件表示方法就是通過Ig = {{gk, 1,Ψ1}: gk, 1 e Sg}來表示偏好配置文件, 其中gk,i,k=l, . . .,Gi,G讀示屬于偏好分類Ψι,1 = 1, . . .Ψ中偏好的數量,Ψ表示分析公 司定義的偏好分類數量,gk, 1是某種偏好分類中的某個偏好; 所述應用配置文件和偏好配置文件之間的匹配關系就是用M:化a^Ig}來表示,其中Oj 是應用程序分類,Ψ1是偏好分類; 所述優勢比就是某個事件存在某個特定條件時的成功幾率和存在另一個條件時的成 功幾率的比率,用公可山?({|{巧.p}|}/{|{織.句}): νΨ? #¥f,gk, 1 e Sg來表示,ΨP是配置文件中 用戶所選擇的分類,{I {泌,p} I}是用戶所選擇的分類中的偏好數量與任意其他類別Ψι中 的最大偏好數量的比例。
【文檔編號】G06F21/62GK106096439SQ201610392798
【公開日】2016年11月9日
【申請日】2016年6月3日 公開號201610392798.8, CN 106096439 A, CN 106096439A, CN 201610392798, CN-A-106096439, CN106096439 A, CN106096439A, CN201610392798, CN201610392798.8
【發明人】陳晶, 杜瑞穎, 何琨, 劉亞國
【申請人】武漢大學