基于連續數標號子空間學習的檢索重排序方法
【專利摘要】本發明公開了一種基于連續數標號子空間學習的檢索重排序方法,其特征是按如下步驟進行:1輸入查詢詞獲得初始返回列表;2獲得初始返回列表中每個樣本所對應的連續數標號;3隨機獲取未標注樣本并提取所有樣本的特征表示矢量;4學習連續數標號子空間,獲取所述連續數標號子空間的投影矩陣;5對所有樣本進行特征降維;6對所有樣本進行重排序,返回重排序結果。本發明能有效地提高網頁/圖像/視頻檢索重排序的準確性。
【專利說明】基于連續數標號子空間學習的檢索重排序方法
【技術領域】
[0001]本發明屬于信息檢索【技術領域】,主要涉及一種基于連續數標號子空間學習的網頁/圖像/視頻檢索重排序方法。
【背景技術】
[0002]21世紀是信息時代,計算機和網絡技術進一步普及和快速發展,互聯網上的網頁、圖像、視頻等數據呈現爆炸式增長。然而目前的搜索引擎常將一些相關性較低的數據返回給用戶,主要因為當前的搜索引擎在進行檢索時過分依賴文本信息,但是對于網頁、視頻或者圖像來說,僅僅依賴文本信息無法很好地描述網頁、視頻或者圖像的內容。然而為了改善檢索的性能以提高用戶體驗和滿意度,在初始搜索結果上,結合數據信息進行檢索重排序變成了一個熱門研究點。
[0003]當前的重排序方法可以分為兩類:偽相關反饋和基于圖的重排序。這兩類重排序方法都依賴一個視覺特征空間。目前,很多重排序方法都是直接采用現有的特征提取方法提取樣本的特征表示矢量,這樣的特征往往包含較多冗余信息,給重排序帶來干擾。
[0004]子空間學習主要用于將高維數據信息映射到一個低維空間上,根據類別標號信息的是否使用,子空間學習通常分為無監督的方法、半監督的方法和監督的方法。無監督的子空間學習方法不需要數據的類別標號信息,半監督的子空間學習方法和監督的子空間學習方法需要使用數據的類別標號信息。
[0005]學習一個子空間,并且在該子空間上進行重排序應該可以獲得較好的效果。但是,傳統的子空間學習方法無法直接應用于網頁/圖像/視頻檢索重排序任務。這是因為無監督的子空間學習方法通常無法達到重排序所要求的相關度平滑的目標,而監督或半監督的子空間學習方法一般都建立在樣本有明確的分類標號信息的基礎之上。但是,在所研究的檢索重排序的問題中,僅有的先驗信息就是文本檢索返回的網頁/圖像/視頻樣本列表,即樣本在初始返回列表中排序信息,并沒有相應的分類標號信息。
[0006]因此,當前利用子空間學習來提高重排序效果的研究遇到瓶頸,而基于原有特征空間的網頁/圖像/視頻重排序方法的檢索精度較低,難以滿足實際應用中的需要。
【發明內容】
[0007]本發明旨在解決當前網頁/圖像/視頻檢索精度低的問題,提出了一種基于連續數標號子空間學習的檢索重排序方法,能有效地提高網頁/圖像/視頻檢索重排序的準確性。
[0008]本發明為解決技術問題采用如下技術方案:
[0009]本發明一種基于連續數標號子空間學習的檢索重排序方法的特點是按如下步驟進行:
[0010]步驟1、在搜索引擎上,輸入查詢詞q,返回由I個網頁/圖像/視頻樣本[T1,...,τ i, *.., T1]組成的初始返回列表;τ j表示在所述初始返回列表中第i個樣本;i為樣本τ i在初始返回列表中的位置;
[0011]步驟2:利用式⑴估計所述初始返回列表中每個樣本所對應的連續數標號[r”...,r”..., rj ;
[0012]T1 = a+be_l/c (I)
[0013]式⑴中:參數a、b和c通過均方誤差最小準則進行預先估算得到&表示在所述初始返回列表中排序為第i個樣本τ i與查詢詞q的相關度分數,所述相關度分數即為所述樣本的連續數標號;對所述初始返回列表中每個樣本所對應的連續數標號進行估計后,所述I個網頁/圖像/視頻樣本[T1,*.., Ti,..., τ J即為已標注樣本;
[0014]步驟3、從互聯網上隨機獲取U個未標注網頁/圖像/視頻樣本[τ1+1,τ1+2,...,τ 1+u],提取所述I個已標注樣本的特征表示矢量集合Xlj = [X1,..., Xi,..., X1]和所述u個未標注樣本的特征表示矢量集合Xu=Iixw,..., x1+J,..., x1+u] ;Xi為第i個已標注樣本的m維特征表示矢量;x1+j為第j個已標注樣本的m維特征表示矢量;
[0015]步驟4:學習連續數標號子空間,獲取所述連續數標號子空間的投影矩陣;
[0016]步驟4.1、最大化式⑵所表示的一維投影樣本集合y = Ly1, y2,..., yj與樣本連續數標號r = [r1; r2,..., T1]之間的相關性corr (y, r):
[0017]
【權利要求】
1.一種基于連續數標號子空間學習的檢索重排序方法,其特征是按如下步驟進行:步驟1、在搜索引擎上,輸入查詢詞q,返回由I個網頁/圖像/視頻樣本[T1,...,τ 1? *.., T1]組成的初始返回列表;τ j表示在所述初始返回列表中第i個樣本;i為樣本τ i在初始返回列表中的位置; 步驟2:利用式(I)估計所述初始返回列表中每個樣本所對應的連續數標號[IV...,
【文檔編號】G06F17/30GK103955527SQ201410196946
【公開日】2014年7月30日 申請日期:2014年5月9日 優先權日:2014年5月9日
【發明者】汪萌, 洪日昌, 李炳南, 劉學亮, 吳信東, 楊勛 申請人:合肥工業大學