一種信息檢索方法及系統的制作方法
【專利摘要】本發明一種信息檢索方法,包括如下步驟:S10:輸入用于排序學習的數據,對其進行特征提取;S20:輸入所得到的數據樣本特征,輸入樣本間的相似性信息,得到由查詢樣本-排序列表對組成的訓練數據集;S30:建立數學模型;S40:推導各參數的更新公式,迭代地更新布萊格曼距離函數的參數和模型的松弛變量,直至各參數收斂;S50:對新輸入的查詢樣本在數據集上進行檢索,將數據集中的各樣本按照與查詢樣本的距離以升序排列,輸出該排序作為檢索結果。本發明信息檢索方法結合了結構支持向量機和布萊格曼距離函數的優點,克服了傳統距離函數的局限,檢索準確率高。
【專利說明】一種信息檢索方法及系統
【技術領域】
[0001] 本發明涉及信息檢索【技術領域】,具體涉及一種信息檢索方法及系統。
【背景技術】
[0002] 在信息時代,各種形式的數據呈爆炸性增長,從海量的數據中檢索出用戶所需信 息的信息檢索技術顯得尤為重要。特別地,在信息檢索和數據挖掘領域中,排序學習是一個 活躍的研究主題。排序學習的目標在于學習一個排序函數以精確刻畫數據樣本間的相關關 系,也即,該排序函數對輸入的查詢樣本輸出一個排序列表,使得與查詢樣本相關的樣本盡 量排在前面,與查詢樣本不相關的樣本盡量排在后面。由于數據樣本間的關聯程度通常由 一個相似度或距離度量確定,因此排序學習的本質是學習一個相似度或距離度量函數,來 準確刻畫數據樣本之間的相關關系,使相似或相關的樣本距離近,不相似或不相關的樣本 距離遠。
[0003] 如何學習一個有效的距離函數來捕捉數據特征的內在模式和數據間的相關關系, 是數據挖掘中的一個基本問題。傳統的距離度量學習方法有兩個局限。第一,已有的距離 度量學習方法通常假設一個在全體特征空間中固定的度量,從而缺乏靈活性和泛化能力, 難以挖掘數據的局部模式。第二,對于高維的數據,傳統的度量學習方法的計算代價很高, 甚至難以處理。以最常用的瑪氏距離為例:
[0004] dM(xa, xb) = (xa-xb) tM (xa-xb)
[0005] 其中M是對稱半正定矩陣。度量矩陣M在整個輸入空間中是固定不變的,缺乏靈 活性,且待求解的矩陣M的變量維度是數據維度的平方,從而難以處理高維度的數據。此 夕卜,瑪氏距離可等價于將數據從原特征空間線性映射到另一個隱含子空間后的平方歐式距 離:
[0006] dM(xa, xb) = I I R (xa-xb) I I2
[0007] 其中RtR = M。因此瑪氏距離只能挖掘數據特征中的線性關聯模式,不能捕捉隱含 在數據特征中的復雜的非線性模式。綜上,我們需要開發一個新的距離函數學習方法以克 服上述傳統距離函數的局限。
【發明內容】
[0008] 為解決上述問題,本發明的目的在于提供一種信息檢索方法,能夠捕捉隱含在數 據中的復雜的非線性模式,并能高效地處理高維度數據,從而更精確地使相似或相關的樣 本距離更近,不相似或不相關的樣本距離更遠,提高檢索的效率和精確度。
[0009] 為實現上述目的,本發明的技術方案為:
[0010] 一種信息檢索方法,包括如下步驟:
[0011] SlO :輸入用于排序學習的數據,對其進行特征提取,將原始數據轉化為可用于機 器學習的數據樣本特征;
[0012] S20 :輸入所得到的數據樣本特征,輸入樣本間的相似性信息,得到由查詢樣 本-排序列表對組成的訓練數據集;
[0013] S30:基于結構支持向量機和布萊格曼距離函數,對所得到的由查詢樣本-排序列 表對組成的訓練數據集建立數學模型;
[0014] S40:根據所建立的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離 函數的參數和模型的松弛變量,直至各參數收斂;
[0015] S50:根據所得到的布萊格曼距離函數,對新輸入的查詢樣本在數據集上進行檢 索,將數據集中的各樣本按照與查詢樣本的距離以升序排列,輸出該排序作為檢索結果。
[0016] 進一步地,步驟S30中,以結構支持向量機為框架建立結構學習模型,優化基于布 萊格曼距離函數的總體排序結構代價,并添加正則項進行調節;
[0017] 其中,所建立的數學模型包括參數模型和非參數模型,模型中的布萊格曼距離函 數具有參數化形式或非參數化形式。
[0018] 進一步地,步驟S40包括有:
[0019] S401 :利用單松弛變量割平面法對所建立的數學模型作近似,使模型參數可解,并 推導模型參數的更新公式;
[0020] S402 :根據推導的更新公式,迭代地更新模型的參數,直至各參數收斂。
[0021] 本發明的另一技術方案為:
[0022] -種信息檢索系統,包括數據預處理模塊、模型輸入處理模塊、建模模塊以及參數 更新模塊與檢索模塊;其中,數據預處理模塊輸入用于排序學習的數據,對其進行特征提 取,輸出可用于機器學習的數據樣本特征;模型輸入處理模塊輸入由數據預處理模塊得到 的數據樣本特征,輸入樣本間的相似性信息,輸出由查詢樣本-排序列表對組成的訓練數 據集;建模模塊用于根據模型輸入處理模塊輸出的由查詢樣本-排序列表對組成的訓練數 據集,基于結構支持向量機和布萊格曼距離函數,建立數學模型;參數更新模塊用于根據建 模模塊輸出的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離函數的參數和 模型的松弛變量,直至收斂;檢索模塊用于根據參數迭代更新模塊得到的布萊格曼距離函 數,對新輸入的查詢樣本進行檢索,將數據集中的各樣本按照與查詢樣本的距離以升序排 列,輸出該排序作為檢索結果。
[0023] 進一步地,所述建模模塊還用于以結構支持向量機為框架建立結構學習模型,優 化基于布萊格曼距離函數的總體排序結構代價,并添加正則項進行調節。
[0024] 進一步地,所述建模模塊還用于參數模型和非參數模型的建模。
[0025] 進一步地,所述參數更新模塊利用單松弛變量割平面法對建模模塊輸出的數學模 型作近似,使模型參數可解,并推導模型參數的更新公式;根據推導的更新公式,迭代地更 新模型的參數,直至各參數收斂。
[0026] 本發明信息檢索方法結合了結構支持向量機和布萊格曼距離函數的優點,克服了 傳統距離函數的局限。相比于現有的排序學習方法和距離度量學習方法,本發明提出的方 法有更高的檢索準確率。
【專利附圖】
【附圖說明】
[0027] 圖1為本發明的方法流程圖示。
[0028] 圖2為本發明的建模參數更新流程圖。
[0029] 圖3為本發明信息檢索系統的模塊結構框圖。
【具體實施方式】
[0030] 本發明實施例提供了 一種信息檢索方法。
[0031] 為使得本發明的發明目的、特征、優點能夠更加的明顯和易懂,下面將結合本發明 實施例中的附圖,對本發明實施例中的技術方案進行清楚、完整地描述,顯然,下面所描述 的實施例僅僅是本發明一部分實施例,而非全部實施例。基于本發明中的實施例,本領域的 技術人員所獲得的所有其他實施例,都屬于本發明保護的范圍。
[0032] 本發明的說明書和權利要求書及上述附圖中的術語"第一"、"第二"等是用于區別 類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的術語在適當情 況下可以互換,這僅僅是描述本發明的實施例中對相同屬性的對象在描述時所采用的區分 方式。此外,術語"包括"和"具有"以及他們的任何變形,意圖在于覆蓋不排他的包含,以 便包含一系列單元的過程、方法、系統、產品或設備不必限于那些單元,而是可包括沒有清 楚地列出的或對于這些過程、方法、產品或設備固有的其它單元。
[0033] 以下分別進行詳細說明。
[0034] 參照圖1所不,本發明一種信息檢索方法以結構支持向量機為框架學習一個布萊 格曼距離函數,據此可對新的查詢樣本輸出其檢索結果排序。具體包括如下步驟:
[0035] SlO :輸入用于排序學習的數據,對其進行特征提取,將原始數據轉化為可用于機 器學習的數據樣本特征;
[0036] S20 :輸入所得到的數據樣本特征,輸入樣本間的相似性信息,得到由查詢樣 本-排序列表對組成的訓練數據集;
[0037] S30 :基于結構支持向量機和布萊格曼距離函數,對所得到的由查詢樣本-排序列 表對組成的訓練數據集建立數學模型;
[0038] 進一步地,步驟S30包括:
[0039] S301 :以結構支持向量機為框架建立結構學習模型,優化基于布萊格曼距離函數 的總體排序結構代價,并添加正則項進行調節;
[0040] 其中,所建立的數學模型包括參數模型和非參數模型,即模型中的布萊格曼距離 函數可具有參數化形式或非參數化形式。
[0041] S40:根據所建立的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離 函數的參數和模型的松弛變量,直至各參數收斂;
[0042] 進一步地,步驟S40包括:
[0043] S401 :利用單松弛變量割平面法對所建立的數學模型作近似,使模型參數可解,并 推導模型參數的更新公式;
[0044] S402 :根據推導的更新公式,迭代地更新模型的參數,直至各參數收斂。
[0045] S50:根所得到的布萊格曼距離函數,對新輸入的查詢樣本在數據集上進行檢索, 將數據集中的各樣本按照與查詢樣本的距離以升序排列,輸出該排序作為檢索結果。
[0046] 以含有類別標簽信息的圖像數據集、SIFT特征和非參數建模方法為例,對本發明 信息檢索方法進行說明。其中,包括如下步驟:
[0047] S100:輸入用于排序學習的圖像數據,對其提取SIFT特征,將圖像轉化為可用于 機器學習的數值型特征,記為X= [Xl,...,xn],其中,n是圖像樣本的個數,Xi e Rm(i = 1,...,n)是提取出的圖像數據特征,m是特征維度;
[0048] S200 :輸入由步驟SlOO中所得到的圖像數據特征X,輸入圖像樣本的類別標簽數 據,視具有相同標簽的兩個圖像樣本為相關,具有不同標簽的兩個圖像樣本為不相關,根據 與查詢樣本相關的樣本排在前、不相關的樣本排在后的原則,建立由查詢樣本-排序列表 對組成的訓練數據集,記為,其中,Xi表示第i個圖像樣本的特征,表示第 i個圖像樣本對應的真實排序列表;
[0049] S300 :基于結構支持向量機和布萊格曼距離函數,對步驟SlOO中所得到的SIFT圖 像特征和步驟S200中所得到的由查詢樣本-排序列表對組成的訓練數據集建立數學模型, 具體地,建立數學模型如下:
[0050] 首先,以對稱化的布萊格曼距離函數作為反映樣本間相關關系的距離度量:
[0051]
【權利要求】
1. 一種信息檢索方法,其特征在于,包括如下步驟: S10 :輸入用于排序學習的數據,對其進行特征提取,將原始數據轉化為可用于機器學 習的數據樣本特征; S20 :輸入所得到的數據樣本特征,輸入樣本間的相似性信息,得到由查詢樣本-排序 列表對組成的訓練數據集; S30 :基于結構支持向量機和布萊格曼距離函數,對所得到的由查詢樣本-排序列表對 組成的訓練數據集建立數學模型; S40 :根據所建立的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離函數 的參數和模型的松弛變量,直至各參數收斂; S50 :根據所得到的布萊格曼距離函數,對新輸入的查詢樣本在數據集上進行檢索,將 數據集中的各樣本按照與查詢樣本的距離以升序排列,輸出該排序作為檢索結果。
2. 如權利要求1所述的信息檢索方法,其特征在于:步驟S30中,以結構支持向量機為 框架建立結構學習模型,優化基于布萊格曼距離函數的總體排序結構代價,并添加正則項 進行調節; 其中,所建立的數學模型包括參數模型和非參數模型,模型中的布萊格曼距離函數具 有參數化形式或非參數化形式。
3. 如權利要求2所述的信息檢索方法,其特征在于,步驟S40包括有: 5401 :利用單松弛變量割平面法對所建立的數學模型作近似,使模型參數可解,并推導 模型參數的更新公式; 5402 :根據推導的更新公式,迭代地更新模型的參數,直至各參數收斂。
4. 一種信息檢索系統,其特征在于:包括數據預處理模塊、模型輸入處理模塊、建模模 塊以及參數更新模塊與檢索模塊;其中,數據預處理模塊輸入用于排序學習的數據,對其進 行特征提取,輸出可用于機器學習的數據樣本特征;模型輸入處理模塊輸入由數據預處理 模塊得到的數據樣本特征,輸入樣本間的相似性信息,輸出由查詢樣本-排序列表對組成 的訓練數據集;建模模塊用于根據模型輸入處理模塊輸出的由查詢樣本-排序列表對組成 的訓練數據集,基于結構支持向量機和布萊格曼距離函數,建立數學模型;參數更新模塊用 于根據建模模塊輸出的數學模型,推導各參數的更新公式,迭代地更新布萊格曼距離函數 的參數和模型的松弛變量,直至收斂;檢索模塊用于根據參數迭代更新模塊得到的布萊格 曼距離函數,對新輸入的查詢樣本進行檢索,將數據集中的各樣本按照與查詢樣本的距離 以升序排列,輸出該排序作為檢索結果。
5. 如權利要求4所述的信息檢索系統,其特征在于:所述建模模塊還用于以結構支持 向量機為框架建立結構學習模型,優化基于布萊格曼距離函數的總體排序結構代價,并添 加正則項進行調節。
6. 如權利要求5所述的信息檢索系統,其特征在于:所述建模模塊還用于參數模型和 非參數模型的建模。
7. 如權利要求6所述的信息檢索系統,其特征在于:所述參數更新模塊利用單松弛變 量割平面法對建模模塊輸出的數學模型作近似,使模型參數可解,并推導模型參數的更新 公式;根據推導的更新公式,迭代地更新模型的參數,直至各參數收斂。
【文檔編號】G06N5/02GK104376120SQ201410733635
【公開日】2015年2月25日 申請日期:2014年12月4日 優先權日:2014年12月4日
【發明者】皮特, 李璽, 張仲非 申請人:浙江大學