專利名稱:個性化搜索環境中用戶隱私數據的保護方法
技術領域:
本發明涉及個性化搜索系統與隱私保護技術,特別是涉及個性化搜索環境 中用戶隱私數據的保護方法。
背景技術:
隨著互聯網上數據的規模及復雜度以指數級增長,傳統搜索引擎對于不同用 戶呈現相同搜索結果的搜索方式已逐漸不能滿足人們的需求。個性化搜索方式 針對這一問題應運而生,目前研究機構以及大型互聯網公司已經將個性化搜索
技術作為研究的熱點,并推出相應的智能搜索產品,如Google和Yahoo分別提 出新一代的搜索產品(Google personalized search)和My Web 2.0等等。
雖然現在大部分個性化搜索系統能一定程度上提高個性化搜索質量,但是這 種用戶信息在服務器端在個性化處理的方式,使得用戶隱私得以泄露的問題變 得越來越嚴重。另一方面,搜索結果在客戶端處理的方式又加大了客戶端處理 的難度,使得諸如PDA這一類搜索環境十分受限制的移動設備的搜索變得很困難。
由于服務器端排序與客戶端排序的方式極為相似,而且用戶信息在語義上存 在概念上的層次關系,因此利用這些聯系可以設計出隱私安全的個性化搜索系 統。
發明內容
本發明的目的在于提供一種個性化搜索環境中用戶隱私數據的保護方法。 本發明解決其技術問題采用的技術方案的步驟如下
1) 選擇一種用戶興趣數據的建模方法,構建用戶興趣數據的基本數據結構; 建立用戶興趣模型表示用戶的興趣愛好;
2) 基于步驟l)定義衡量用戶隱私數據的尺度,以及基于該尺度下用戶對于隱 私的控制方法;
3) 定義個性化搜索結果的排序方法,結合用戶興趣模型實現搜索結果的個性
化;
4) 在步驟1)、步驟2)、步驟3)、步驟4)以及個性化搜索服務系統上,建立 分段式信息處理系統,實現隱私安全的個性化搜索。2、步驟l)中采用的建模方法應將原始的非結構化用戶興趣數據結構化,表
示成計算機系統易理解與處理的形式。建立的用戶興趣模型應具有以下特點
a)基于樹狀結構,具有語義的上下層次關系。b)可實現用戶興趣數據的動態更新。
4、 步驟3)中定義的隱私衡量方法應實現用戶隱私程度的模糊量化,以數值 區間的形式提供給用戶選擇。
5、 步驟4)中的個性化排序方法應利用用戶興趣模型并綜合考慮原始搜索結 果的排序情況以及個性化匹配的排序情況。
6、 步驟5)的具體實施應滿足如下需求
1) 所建立的層次化信息處理系統,應滿足搜索結果的個性化在服務器與客戶 端分別處理;
2) 所建立的層次化信息處理系統,應滿足服務器端對搜索結果進行第一次排 序。然后根據具體的應用需求,對中間搜索結果進行相應的選擇并傳送至客戶 端,進行再排序,確定最終排序結果;
3) 用戶興趣模型的使用a)在服務器端進行排序時,使用的只是經過用戶安 全認可的部分用戶興趣模型;b)在客戶端進行排序時,使用完整的用戶興趣模型。
本發明具有的有益效果是
對用戶興趣模型的動態更新,使得系統獲取的用戶興趣數據更加實時與準 確。提供了一種用戶隱私暴露程度的量化方法,用戶可實現隱私泄露的自我控 制,實現了個性化搜索質量與隱私保護的權衡。搜索結果在服務器與客戶端, 基于用戶興趣模型分別排序的方式,使得服務器根據需求在一定范圍內選擇與 調整中間搜索結果,可以有效地提高系統的性能并且適用于搜索環境受限制的 情況。
圖1是本發明的具體實施過程圖。 圖2是用戶興趣模型節點更新示例圖。 圖3是分段式信息處理系統結構圖。
具體實施例方式
現結合附圖和實施例對本發明作進一步說明。
1、如圖1所示,本發明具體實施過程和工作原理如下
1) 選擇一種用戶興趣數據的建模方法,構建用戶興趣數據的基本數據結構; 建立用戶興趣模型表示用戶的興趣愛好;
2) 基于步驟l)定義衡量用戶隱私數據的尺度,以及基于該尺度下用戶對于隱
4私的控制方法;
3) 定義個性化搜索結果的排序方法,結合用戶興趣模型實現搜索結果的個性
化;
4) 在步驟1)、步驟2)、步驟3)、步驟4)以及個性化搜索服務系統上,建立 分段式信息處理系統,實現隱私安全的個性化搜索。
步驟l)中采用的建模方法應將原始的非結構化用戶興趣數據結構化,表示 成計算機系統易理解與處理的形式。現在大部分搜索引擎采用的是基于關鍵字 的空間向量模型。
其具體實施應該滿足如下需求
1) 建立的用戶興趣模型必須具有語義上的層次關系,且為樹狀結構。下層節 點表示的概念在語義上必須是上層節點語義的子集合。比如上層節點是"疾病", 而下層節點是"傳染病",上層節點語義上包含了下層節點;
2) 用戶興趣模型應該能通過反饋得到不斷地更新。在每次更新中,系統根據 需要更新的內容確定相應的概念節點,然后判斷如果用戶興趣模型中存在這 個節點直接更新該節點;否則,將該節點添加到用戶興趣模型中。以疾病類 別的簡單關系為例,首先在用戶興趣模型中找到與新節點相似度最大的兩個節 點,如圖2所示,在用戶興趣模型中已經存在"健康"與"傳染病"的關系。 當新節點需要插入時(設定"健康"節點與"傳染病"節點的相似度,"健康" 節點與新節點的相似度,新節點與"傳染病"節點的相似度分別為S,,S2,S》
a) 如果新節點和這兩個節點的關系更近(S2>S,并且S一SO,比如新節點 為疾病這一概念節點,那么它應該作為一個節點的子節點和另外一個節點的父 節點;
b) 否則當新節點和父節點的相似度更小時(S3> S2),比如新節點為流感這一 概念節點,那么它應該作為這兩個節點的后代節點;
c) 否則其它情況,比如新節點為非傳染病這一概念節點時,那么它應該作為 父節點的子節點。
步驟2)中定義的隱私衡量方法應建立在步驟l)的基礎上,利用信息熵實現 用戶隱私程度的模糊量化,應該滿足子節點的隱私重要程度大于父節點的。并 且需要以數值區間的形式提供給用戶選擇,如健康、疾病和傳染病的關系,以
區間來表示(O為沒有任何隱私泄露,l表示完全的隱私泄露),那么一個可能的 關系為(健康,0.2),(疾病,0.4),(傳染病,0.6)。
步驟3)中的搜索排序方式,應利用用戶興趣模型與搜索結果進行相似度計算,并采用用戶興趣模型的結構信息(節點深度和用戶偏好程度),定義個性化的 排序結果,即節點深度與用戶偏好程度乘積的函數值和相似度值的乘積關系來 排序。考慮原始頁面的質量關系,應結合原始排序的結果順序,將兩個排序值
進行線性的組合。比如存在3個文檔dl, d2, d3,原始排序值2, 3, 1。將3 個文檔分別與用戶興趣模型進行相似度計算得到0.32, 0.36, 0.35。 0.32<0.35<0.36,那么個性化的排序值就為1, 3, 2。設個性化排序值比重占0.8, 那么最終的排序值為2*0.2+1*0.8=1.2, 3*0.2+3*0.8=3, 1*0.2+2*0.8=1.8。因此 最終的排序結果為dl, d3, d2。
步驟4)中建立分段式信息處理系統如圖3所示。在個性化搜索過程中,用 戶向搜索服務器提交查詢請求;根據用戶隱私保護的需要,部分用戶興趣信息 和査詢信息傳送到服務器端;經過服務器處理,中間搜索結果被傳回客戶端。 最后客戶端再利用完整的用戶興趣信息進行個性化處理,將最終搜索結果呈獻 給用戶;搜索活動完成后,用戶提交反饋給客戶端更新用戶信息模型。以用戶 的一次搜索場景為例,用戶輸入"設備"這個關鍵字,系統根據用戶的需求, 裁剪了用戶興趣模型中代表流感的概念節點,并隨査詢關鍵字傳送至服務器。 服務器根據關鍵字從文檔庫査詢出1000個相關文檔。并利用獲得的用戶興趣模 型,將搜索結果排序。根據系統及客戶端需求,將前100條記錄返回給客戶端。 客戶端利用完整的用戶興趣模型對結果進行再排序,將最終結果呈現給用戶。 之后,用戶可以通過交互的方式將相應的興趣愛好數據反饋給系統以更新用戶 興趣模型。
權利要求
1、一種個性化搜索環境中用戶隱私數據的保護方法,其特征在于,該方法的步驟如下1)選擇一種用戶興趣數據的建模方法,構建用戶興趣數據基本結構,建立用戶興趣模型表示用戶的興趣愛好;2)基于步驟1)中用戶興趣模型的基礎上,定義衡量用戶隱私數據的尺度,以及基于該尺度下用戶對于隱私的控制方法;3)基于步驟1)用戶興趣模型的基礎上在個性化環境中定義搜索結果的個性化排序方法,實現搜索結果的個性化;4)在步驟1)、步驟2)、步驟3)以及個性化搜索服務系統上,建立分段式信息處理系統,實現隱私安全的個性化搜索。
2、 根據權利要求1所述的一種在個性化搜索環境中用戶隱私數據的保護方法,其特征在于所述步驟l)中的建模方法將原始的非結構化用戶興趣數據結構化,表示成計算機系統易理解與處理的形式;建立的用戶興趣模型應具有以下特點a)基于樹狀結構,具有語義的上下層次關系;b)實現用戶興趣數據的動態更新。
3、 根據權利要求1所述的一種在個性化搜索環境中用戶隱私數據的保護方法,其特征在于所述步驟2)中衡量用戶隱私數據的尺度應實現用戶隱私程度的模糊量化,以數值區間的形式提供給用戶選擇。
4、 根據權利要求1所述的一種在個性化搜索環境中用戶隱私數據的保護方法,其特征在于所述步驟3)中的個性化排序方法應利用用戶興趣模型信息并綜合考慮原始搜索結果的排序情況以及個性化匹配的排序情況。
5、 根據權利要求1所述的一種在個性化搜索環境中用戶隱私數據的保護方法,其特征在于所述步驟4)的具體實施應滿足如下需求1) 所建立的層次化信息處理系統,應滿足搜索結果的個性化在服務器與客戶端分別處理;2) 所建立的層次化信息處理系統,應滿足服務器端對搜索結果進行第一次排序。然后根據具體的應用需求,對中間搜索結果進行相應的選擇并傳送至客戶端,進行再排序,確定最終排序結果;3) 用戶興趣模型的使用a)在服務器端進行排序時,使用的只是經過用戶安全認可的部分用戶興趣模型;b)在客戶端進行排序時,使用完整的用戶興趣模型。
全文摘要
本發明公開了一種在個性化搜索環境中用戶隱私數據的保護方法。通過構建基于上下層次結構的樹狀用戶興趣模型,在不改動原有搜索引擎的基礎上,實現了搜索結果在服務器端與客戶端分別排序。對用戶興趣模型的動態更新,使得系統獲取的用戶興趣數據更加實時與準確。提供了一種用戶隱私暴露程度的量化方法,用戶可實現隱私泄露的自我控制,實現了個性化搜索質量與隱私保護的權衡。搜索結果在服務器與客戶端,基于用戶興趣模型分別排序的方式,使得服務器根據需求在一定范圍內選擇與調整中間搜索結果,可以有效地提高系統的性能并且適用于搜索環境受限制的情況。
文檔編號G06F17/30GK101667199SQ200910152878
公開日2010年3月10日 申請日期2009年9月18日 優先權日2009年9月18日
發明者壽黎但, 皮俊波, 胡天磊, 剛 陳, 珂 陳 申請人:浙江大學