利用用戶交互的相似水文過程搜索方法
【技術領域】
[0001] 本發明涉及信息處理技術,具體涉及一種利用用戶交互的相似水文過程搜索方 法。
【背景技術】
[0002] 時間序列相似性查找就是在時間序列數據庫中查找和發現與給定模式相似的時 間序列,查找相似子序列的過程在實際問題中經常遇到,例如,在人類的基因組計劃中,從 DNA基因序列中查找出與給定的基因片段相似的子片段,根據遺傳的相似性進行研宄;根 據各種商品的銷售記錄,找出具有相似的商品銷售模式,根據相似產品的銷售模式來制定 相似的銷售策略等;找出自然災害發生的相同前兆,從而對預報自然災害進行決策研宄; 在水文領域,找出與當前洪水過程相似的歷史洪水過程,回答防汛指揮中經常會想到的"當 前水文過程與歷史上哪一時期的水文過程類似"等問題。
[0003] 相似性搜索在1993年由R.Agrawal首次提出,他是時間序列預測、分類、聚類以及 序列模式挖掘等等的重要基礎。時間序列相似性查找與傳統的精確查詢不同,由于時間序 列在數值上具有連續性以及有不同的噪聲影響,因此,大部分情況下不需要時間序列很精 確匹配。另一方面是時間序列相似性查詢不是針對時間序列中的某個具體的數值,而根據 給定的查詢序列來找查找是在一段時間內具有相似形態特征和變化趨勢的時間序列。在時 間序列相似性搜索中,需解決的問題包括時間序列特征提取、時間序列索引以及相似度量 等。針對相似度量,研宄人員提出了各種度量方法,如歐氏距離及其基于Lp準則的變種、動 態時間彎曲距離(DynamicTimeWarping,DTW)、編輯距離(EditDistance,ED)、模式距離 (PatternDistance,PD)以及最長公共子串(LongestCommonSubsequence,LCSS)等。
[0004] 目前時間序列相似性搜索主要關注于找到適合具體數據特征的特征提取方法,以 及相應領域的相似度量方法。然而,由于"相似"是用戶對序列的一種語義認知,而特征以 及相似度量都是基于序列底層的數據,這兩者之間存在一定的差異。因此,找到一種不變的 特征提取方法和相似度量方法來適應所有用戶對某時間序列的"相似"的認知是困難的。
[0005] 相關反饋的策略就是讓用戶參與到相似查詢過程中,讓用戶對每次的查詢結果進 行調整和標注,系統通過搜集用戶對結果的調整和標注,從而調整特征提取或者相似度量 的方法,以學習用戶對序列相似的語義認知,直到用戶滿意或放棄查詢。相關反饋最早被用 在基于內容的圖像檢索中,將圖像看做高維空間的矢量尺"J是從圖像中提取的顏色、 紋理、形狀等底層特征或者它們的組合,Rn通常被稱為特征空間。在特征空間上可以定義矢 量間的距離函數以衡量圖像之間的差異。由于特定特征空間中的距離并不能反映不同人對 不同圖像的感受的差異,采用固定特征提取以及距離函數衡量圖像間的相似程度在圖像檢 索中往往不能得到滿意的結果。為改善查詢結果,可以通過改變特征空間、改變距離的計算 方法以及相似度的衡量公式等使相似度更接近于人的感受,相關反饋技術便是通過與用戶 交互得到以上目標。在時間序列的相似搜索方面,1998年,EamonnJ.Keogh等提出一個基于 相關反饋的時間序列探索框架,并能夠分類和聚類,時間序列采用帶權重的逐段線性擬合 (PLR)方式描述,每段擁有一個描述該段重要性的權重,在檢索過程中通過用戶的交互修正 權重,但是PLR計算復雜度較高,同時在計算兩個子序列之間距離時,還需要進一步進行分 割對齊,同時PLR描述不能進行有效的索引。2002年,鄭斌祥等利用離散傅里葉變換對時間 序列進行降維,并利用R樹建立索引進行相似檢索,用戶對結果序列進行標注,并給出每個 結果序列的重要度,新的查詢序列為舊查詢序列和所有結果序列以重要度為系數的線性組 合,該方法不能考慮序列不同部分的重要程度,一般一段時間序列隱含的模式往往由序列 的一部分決定,而其他部分對序列的模式的影響相對較小。
【發明內容】
[0006] 發明目的:本發明的目的在于解決現有技術中存在的不足,提供一種提高水文時 間序列相似性分析準確率的利用用戶交互的相似水文過程搜索方法,本發明以帶權重的歐 式距離作為相似度量,對用戶指定的查詢序列進行相似搜索,用戶對查詢結果進行標注,根 據用戶對查詢序列模式的理解,對查詢結果設置相似或不相似程度;算法將相似和不相似 的序列特征進行合并,并調整權重,產生更加符合用戶要求的查詢序列,并循環進行查詢, 直到用戶結束查詢過程。。
[0007] 技術方案:本發明的一種利用用戶交互的相似水文過程搜索方法,包括以下步 驟:
[0008] (1)對水文過程時間序列(如洪水水位過程等)進行小波變換,并進行重構形成小 波水文時間序列,初步過濾掉時間序列中存在的噪聲數據;
[0009] (2)采用滑動窗口從小波水文序列中提取子序列;
[0010] (3)采用分段聚集近似法(PiecewiseAggregateApproximation,即PAA)對步驟 (2)所得子序列進行降維;
[0011] ⑷采用空間索引方法(如,R*-tree等)對步驟(3)中生成的子序列創建索引;
[0012] (5)對初始查詢序列采用步驟(3)中的分段聚集近似法進行降維處理;
[0013] (6)進行k-近鄰查詢,并將查詢結果按照與查詢序列的相似程度高低排序展示給 用戶;
[0014] (7)若用戶對查詢結果滿意,則本次查詢結果;否則,用戶對查詢結果進行標注, 識別出相似序列和不相似序列,并設置相似程度的高度,以及不相似程度的高低;
[0015] (8)系統獲取用戶標注的信息,進行反饋處理,利用用戶對結果的重新標注,計算 出新的查詢序列,并轉至步驟(5)。
[0016] 進一步的,所述步驟(1)中,水文過程時間序列為以為時間序列,且過濾時間序列 中的噪聲數據的具體步驟為:
[0017] (11)將水文過程時間序列進行小波分解;
[0018] (12)采用高頻系數的閾值量化,即確定小波變換的尺度;
[0019] (13)重構形成小波水文時間序列。
[0020] 進一步的,所述步驟(3)中對子序列進行降維處理的具體過程為:
[0021] 將步驟(2)所得的子序列分成N段,每段的最終取值為該段內包含的數據項的均 值;一個長度為m的子序列,通過分段聚集近似法處理后,被描述成N維空間中的一個點,對 應的向量為Z=xi,...,m義的第i個元素為:
【主權項】
1. 一種利用用戶交互的相似水文過程捜索方法,其特征在于:包括w下步驟: (1) 對水文過程時間序列進行小波變換,并進行重構形成小波水文時間序列,初步過濾 掉時間序列中存在的噪聲數據; (2) 采用滑動窗口從小波水文序列中提取子序列; (3) 采用分段聚集近似法對步驟(2)所得子序列進行降維; (4) 采用空間索引方法對步驟(3)中生成的子序列創建索引; (5) 對初始查詢序列采用步驟(3)中的分段聚集近似法進行降維處理; (6) 進行k-近鄰查詢,并將查詢結果按照與查詢序列的相似程度高低排序展示給用 戶; (7) 若用戶對查詢結果滿意,則本次查詢結果;否則,用戶對查詢結果進行標注,識別 出相似序列和不相似序列,并設置相似程度的高度,W及不相似程度的高低; (8) 系統獲取用戶標注的信息,進行反饋處理,利用用戶對結果的重新標注,計算出新 的查詢序列,并轉至步驟巧)。
2. 根據權利要求1所述的利用用戶交互的相似水文過程捜索方法,其特征在于:所述 步驟(1)中,水文過程時間序列為W為時間序列,且過濾時間序列中的噪聲數據的具體步 驟為: (11) 將水文過程時間序列進行小波分解; (12) 采用高頻系數的闊值量化,即確定小波變換的尺度; (13) 重構形成小波水文時間序列。
3. 根據權利要求1所述的利用用戶交互的相似水文過程捜索方法,其特征在于:所述 步驟(3)中對子序列進行降維處理的具體過程為: 將步驟(2)所得的子序列分成N段,每段的最終取值為該段內包含的數據項的均值;一 個長度為m的子序列,通過分段聚集近似法處理后,被描述成N維空間中的一個點,對應的 向量為X=三1,...Jw,方的第i個元素為:
上式中,子序列的段數N任意設置,每段包含的點數為"
4. 根據權利要求1所述的利用用戶交互的相似水文過程捜索方法,其特征在于:所述 步驟(2)中,采用長度為W的滑動窗口沿小波水文序列按照步長為1進行滑動,提取子序 列,長度為n的小波水文序列總共提取子序列的個數為n-w+1。
5. 根據權利要求1所述的利用用戶交互的相似水文過程捜索方法,其特征在于:所述 步驟巧)中,初始查詢序列為任意長度。
6. 根據權利要求1所述的利用用戶交互的相似水文過程捜索方法,其特征在于:所述 步驟(7)中,用戶對每個結果序列進行標注,給每個序列設定一個影響值,且用正數影響值 表示某個結果序列S與用戶期望的序列是相似的,用負數影響值表示某個結果序列S與用 戶期望的序列不相似,同時用戶采用影響值的數值大小來描述相似和不相似程度。
【專利摘要】本發明公開一種利用用戶交互的相似水文過程搜索方法,以帶權重的歐式距離作為相似度量,對用戶指定的查詢序列進行相似搜索,用戶對查詢結果進行標注,根據用戶對查詢序列模式的理解,對查詢結果設置相似或不相似程度;算法將相似和不相似的序列特征進行合并,并調整權重,產生更加符合用戶要求的查詢序列,并循環進行查詢,直到用戶結束查詢過程。本發明利用用戶交互調整查詢序列和權重,提高查詢的準確性以及水文序列相似搜索的準確性。
【IPC分類】G06F17-30
【公開號】CN104794153
【申請號】CN201510099145
【發明人】王繼民, 朱躍龍, 李士近, 張新華
【申請人】河海大學
【公開日】2015年7月22日
【申請日】2015年3月6日