針對好奇推薦器的隱私保護的制作方法
【專利說明】
[0001] 相關申請的交叉引用
[0002] 本申請要求于2013年2月6日提交的、標題為"PRIVACYPROTECTIONAGAINST CURIOUSREC0MMENDERS"的美國臨時申請序列號61/761,330的優先權,通過引用將其并入 本文。
技術領域
[0003] 本發明涉及在允許推薦器(recommender)提供相關個性化推薦的同時保護隱私 信息。
【背景技術】
[0004] 若干最近的公開研宄從用戶生成的數據推斷人口統計學的威脅。與本發明最接 近的Weinsberg等人的 "Blurme:inferringandobfuscatingusergenderbasedon ragings"(ProceedingsoftheSixthACMConferenceonRecommenderSystems,2012 年)示出可以從電影評級推斷性別,并且提出減輕由此引起的隱私風險的啟發法。但是, Weinsberg提出的迷惑方法明確地以推斷性別的邏輯回歸方法作為目標。與此相反,本發明 追求原則性方法,使得證明是防任意推斷方法的有力的隱私保障。
[0005] 本發明中的隱私的定義受差分隱私(differentialprivacy)的概念激發,并且作 為差分隱私的概念的限制性情況。差分隱私已經應用于諸如數據挖掘、社交推薦和推薦器 系統這樣的領域。這些工作假設受信任的數據庫所有者并且集中在使應用的輸出是差分隱 私的。與此相反,在本發明中,研宄一種配置,其中推薦器是好奇的(curious),并且用戶希 望防范根據他們提交給推薦器的反饋對隱私信息進行統計推斷。
[0006] 存在若干在準確度約束下對防統計推斷的隱私進行建模的理論框架。這些方法假 設關聯隱私和非隱私變量的一般概率模型,并且通過在非隱私變量的發布之前使它們失真 來確保隱私。雖然具有一般性,但是這些框架的應用需要隱私數據和將發布的數據之間的 聯合分布的知識,這在實際設置中可能難以獲得。被實驗證據強有力地支持的本發明中的 線性模型的假設致使問題易于處理。更重要地,其允許本發明的方法表征在推薦器側所必 需的數據公開的程度,以實現最佳的隱私準確度權衡,這是所有前述工作中沒有的方面。
【發明內容】
[0007] 推薦器系統可以從用戶反饋推斷諸如性別、年齡或政治派別這樣的人口統計信 息。本發明提出一種推薦器與用戶之間的數據交換協議(步驟、動作)的框架,捕捉推薦的 準確度、用戶隱私與推薦器所公開的信息之間的權衡。
[0008] 本發明允許用戶以推薦器無法推斷用戶希望隱藏的一些人口統計信息的方式將 他/她的評級的失真版本傳達到推薦器系統,同時允許推薦器仍然向用戶提供相關的個性 化推薦。
[0009] 在線服務的用戶被常規地要求提供關于他們的經驗和偏好的反饋。該反饋可以是 隱式的或顯式的,并且可以采取許多形式,從完整評論到五星評級,到從菜單選擇。這樣的 信息常規地由推薦器系統使用,以提供有針對性的推薦并且個性化提供給用戶的內容。用 于生成推薦的統計方法往往產生用戶"簡檔(profile)"或特征向量。這樣的簡檔能夠暴露 用戶可能視為隱私的個人信息,諸如他們的年齡、性別和政治派別。這種可能性已經被廣泛 記載在公共數據集上。這種可能性要求允許具有隱私意識的用戶受益于推薦器系統,同時 還確保他們希望保護的信息不會通過他們的反饋而非有意地公開或泄露,從而鼓勵用戶參 與到服務中的機制。
[0010] 減少這樣的公開或泄露的通常的方法是通過使報告給推薦器的反饋失真。在推薦 質量和用戶隱私之間存在自然的權衡。更大的失真可以導致更好的迷惑但是也導致不太準 確的簡檔。本發明的貢獻是標識出在該權衡中存在第三項(athirdterm),其為推薦器公 開給用戶以便迷惑他們的隱私值的數據。為了例示這一點,注意到如果推薦器向用戶公開 用于產生用戶簡檔的所有數據和算法,則可以實現絕對隱私。然后,用戶能夠運行推薦系統 的本地拷貝,而不用總是向推薦器發送任何反饋。這顯然是隱私的。但是,從推薦器的角度 來看,這仍是不能維持的,無論出于實際的原因(效率和代碼維護),還是至關重要地出于 商業原因,因為推薦器可能正在收取費用、將它收集的數據以及它開發的算法這兩者貨幣 化。向用戶或可能的競爭者公開數據和算法顯然是不利的。
[0011] 另一方面,一些數據公開也是必要的。如果用戶在發布他/她的反饋之前希望隱 藏他/她的政治派別,用戶可以使用政治派別所帶來的任何偏向的知識來否定該效果。從 所收集的數據中檢測這樣的偏向的推薦器可以將其揭示給具有隱私意識的用戶。
[0012] 這種情況提出若干問題。推薦器需要公開給具有隱私意識的用戶以便鼓勵他們參 與的信息最小量和種類(nature)是什么?該信息如何可以用于使一個人的反饋失真以保 護一個人的隱私特征(諸如性別、年齡、政治派別等)同時允許推薦器估計剩余的非隱私特 征?當被應用于失真的反饋時,什么估計方法得到最高的準確度?
[0013] 本發明提出一種用于解決上述問題的形式化數學框架,其包括三個協議:
[0014] (a)推薦器參與的數據公開,
[0015] (b)被應用于用戶評級的迷惑方法,以及
[0016] (c)被應用以推斷非隱私用戶特征的估計方法。
[0017] 以上三個協議的具體實現方式提供對用戶隱私信息的完美保護,同時也確保推薦 器以最佳的可能的準確度來估計非隱私信息。至關重要地,推薦器的數據公開最小。沒有 更少的公開可以得到與所提出的實現方式相同或比其更好的準確度。
[0018] 所提出的協議在真實的數據集上評估,證實它們在實踐中確實提供出色的隱私保 障,而不顯著地影響推薦準確度。
[0019] 描述一種用于在推薦器系統中保護用戶隱私的方法和裝置,其包括:確定針對電 影將什么信息發布給用戶;將信息傳送給用戶;接受來自用戶的迷惑輸入;以及估計用戶 的非隱私特征向量。還描述一種用于在推薦器系統中保護用戶隱私的方法和裝置,其包括: 接收電影信息;接受用戶的電影反饋;接受用戶的隱私信息;計算迷惑值;以及傳送迷惑 值。
【附圖說明】
[0020] 根據下面的詳細描述,在結合附圖一起閱讀的情況下,本發明得以最好地理解。附 圖包括下面簡要描述的以下圖:
[0021] 圖1 (a)和1 (b)示出使用MovieLens數據集選擇和邏輯推斷的在迷惑之前、在標 準迷惑方案和選擇之后的男性和女性的推斷概率的分布;
[0022] 圖1(c)示出RMSE-AUC權衡;
[0023] 圖2是本發明的推薦器系統的流程圖;
[0024] 圖3是本發明的推薦器系統的推薦器部分的放大圖;
[0025] 圖4是本發明的推薦器系統的用戶部分的放大圖;
[0026] 圖5是本發明的推薦器系統的推薦器部分的框圖;以及
[0027] 圖6是本發明的推薦器系統的用戶部分的框圖。
【具體實施方式】
[0028] 在本發明中所考慮的配置包含推薦器和用戶。推薦器請求關于項目的用戶反饋, 為了具體性,將項目稱為"電影"。對每個項目的用戶反饋(例如,1-5星等級)從通過兩個 向量即電影簡檔\和用戶簡檔x來參數化的概率分布獨立地采樣。用戶簡檔x是(xMX) 的形式,其中是用戶希望保留隱私(例如,他/她的性別)的可區分的二元特征,并且x 是非隱私分量。應當注意,雖然用戶知道Xo,但是他/她并不知道x:在例如推薦器所使用 的特征對用戶是未知的、或者甚至是通過被稱為矩陣因子分解的處理來計算出并且因此是 潛在的情況下,這將是如此。
[0029] 推薦器知道電影簡檔Vi并且希望學習用戶的簡檔X。推薦器的目的是預測其他電 影的用戶反饋并且做出推薦。用戶希望受益于推薦,但是關于他/她的變量Xo是具有隱私 意識的,并且不希望將其發布給推薦器。為了鼓勵用戶的參與,本發明的目標是設計一種在 推薦器和用戶之間交換信息的協議,其具有三個突出的性質。非形式化地,三個突出的性質 是:
[0030] (a)在協議結束時,推薦器盡可能準確地估計X,即x的非隱私分量;
[0031] (b)關于x。,即用戶的隱私變量,推薦器什么也不學習;
[0032] (c)關于每個項目i的電影簡檔Vi,用戶盡可能少地學習。
[0033] 第一性質確保在協議結束時推薦器學習用戶簡檔的非隱私分量并且可以將其用 于向用戶建議新的電影,這使推薦器的主要功能成為可能。第二性質確保具有隱私意識的 用戶受益于推薦而不公開他/她的隱私變量,從而鼓勵參與。最后,第三性質確保電影簡檔 在其整體上不會變得公共可用。這確保推薦器的競爭者不能使用簡檔,簡檔的計算需要資 源并且通過推薦而被貨幣化。
[0034] 為了突出這三個性質之間的相互影響,討論三種"非解(non-solution) "。首先,考 慮用戶"以明文"向推薦器公開他/她的反饋的協議:這滿足(a)和(c),但是不滿足(b), 因為其將允許推薦器通過適當的推斷方法來估計x和X(l二者。在第二協議中,推薦器首先 向用戶揭示所有電影簡檔vi;推薦器再次通過推斷在本地估計X,并且隨后將其發送給推薦 器。這滿足(a)和(b),但是不滿足(c)。最后,"空(empty)"協議(沒有信息交換)滿足 (b)和(c),但是不滿足(a)。
[0035] 更具體地,假設用戶由特征向量jtei|d+1來表征。該特征向量具有對應于用戶想 要保持隱私的特性的一個分量。假設該特征是二元的,泛化成多個二元特征是直接了當的。 形式化地,x= (Xd,X),其中X= ,并且X# {+1,-1}是隱私特征。作為 運行的示例,可以假設用戶想要將他/她的性別保持隱私,其被編碼為{+1,-1}。
[0036] 推薦器請求對M個電影的反饋,其集合表示為[M] = {1,…,M}。具體地,每個電 影由特征向量Vl= 來表征,其中% = 主意被限制到 使得Vi# 〇。將所有這樣的向量的集合表示為dl產={(VftV)eM': 并且將請求 反饋的電影的特征向量表示為v= 麗^]。
[0037] 假設推薦器在數據庫中維護特征向量。常規地,構造這樣的數據庫通過推薦器算 法來完成。典型地,特征通過矩陣因子分解技術(并且因此是潛在的)以及電影