護的范圍。
[0037] 本發明公開了一種魯椿機器錯誤檢索方法與系統,首先利用標簽估計方法對訓練 集數據進行預處理,估計出未標定機器數據的標簽,并得到一個初始投影分類器。基于訓練 樣本的類標簽信息,進行標簽一致字典學習,利用得到的判別稀疏編碼構造標簽估計中的 自適應重構權,進而更新訓練集中無標簽數據的類別信息和投影分類器。通過多次迭代訓 練,輸出一個判別的可重構字典,一個機器數據稀疏編碼矩陣和一個最優多類分類器。訓練 得到的多類分類器可用于新來數據的歸納和類別預測,根據軟標簽中的概率最大值對應的 問題,確定測試樣本的類別,完成機器錯誤分類。通過提出半監督標簽一致字典學習方法, 增加了有標定樣本的數量,豐富了監督的先驗信息,因此有效提高了機器錯誤檢索的精準 度。
[003引本發明在S個機器數據集的數據庫進行了測試;Rollingbearing database,Gearboxdataset和Motorelectricaldataset。Rollingbearingdatabase 包括4個機器數據集,本發明選取其中OHP和2HP進行測試,OHP包含400個樣本,其中包 含10個類別,每個類別40個樣本,2HP包含800個樣本,10個類別,每個類別80個樣本; Gearboxdataset包含 72個樣本,3個類別,每類24個樣本;Motorelectricaldataset包 含90個樣本,3個類別,每類30個樣本。該些數據庫從多方面收集,因而測試結果具有普遍 說明性。
[0039] 請參閱附圖1,為本發明實施例公開的一種機器錯誤檢索的方法流程圖。本發明實 施例公開的一種機器錯誤檢索方法,具體實施步驟為:
[0040] 步驟S101 ;利用標簽預測方法通過直推式方式估計得到訓練集中的未標定樣本 數據的類別標簽,生成包括所有有標定的樣本數據的新訓練集;
[0041] 利用訓練集中的所有訓練樣本,利用現有的預測方法(即拉普拉斯判別分析模 型)直推式估計得到訓練集中的未標定的樣本數據的類別標簽,生成包括所有有標定的樣 本數據的新訓練集;
[0042] 原始的樣本數據集合劃分為訓練集和測試集,所述訓練集中包含已標記的訓練樣 本和尚未標記的訓練樣本,已標記和未標記的機器數據向量集合義=[;X,,義。]€政其 中,n是機器數據的維度,1是已標記訓練樣本的數量,U是未標記訓練樣本數量),其中包 含有C(C〉。個類別標簽的訓練樣本集=扣.^2,...,別€化"^和無任何標簽的訓練樣本 集而=b+i,Xw,...,相Je吸"-(其中任意向量疋E吸是一個機器數據樣本),其中1+U=N,所述測試集中包含測試樣本,全部未標記。
[0043] 根據所述訓練集的已標記樣本,W及有標簽樣本數據與無標簽樣本數據間的內在 幾何結構,利用拉普拉斯判別分析方法進行標簽預測,具體模型為:
[0046] 其中,Am是權衡各項的參數,Em是估計各樣本間相似性的權值矩陣,可 用高斯函數來定義該項。Lm=Zm-Em是拉普拉斯矩陣,Zm是一個對角矩陣,其中
表示矩陣M的偽逆。fEirw可被定義為:
[0047]
[004引其中,1庫示第j類樣本的數量。
[004引 P為初始投影矩陣,同時可通過乂 =護X,.e化"I獲得樣本Xi的軟標簽。
[0050] 步驟S102 ;根據所述新訓練集中的機器錯誤數據及其標簽信息,進行標簽一致字 典學習,得到判別稀疏編碼,利用所述判別系數編碼構造自適應權重系數,得到自適應重構 系數矩陣,根據所述自適應重構系數矩陣得到一個投影分類器,利用所述投影分類器對訓 練集中的未標定的樣本數據的類別信息進行更新;
[0051] 步驟S103 ;通過多次迭代訓練,得到一個判別的可重構字典,一個機器錯誤數據 的判別稀疏編碼,W及一個最優的投影分類器;
[0052] 對機器數據進行標簽一致字典學習,所述問題為:
[0053]
[0054] SubjIIsjT。iGUIj= 1,2, . . .,N}
[00對其中,|義-公C是重構誤差,D=[今肢沾為學習得到的字典,Ti是稀疏約 束,5=h…是訓練數據集的稀疏編碼,Si可定義如下;
[0056]
[0057] 10-心I主為判別稀疏編碼誤差,其中0 = [g,…吸A'xw為訓練數據集的判別稀 疏編碼,a是該項的權衡參數。當訓練樣本Xi和Xj.屬于不同類別時,該兩個訓練樣本在Q 中對應的項為0,反之,為cos(Xi^Xj.).例如,X= 包含3個類別的數據,屬于類別 1,X3.X4屬于類別2,X5,Xe屬于類別3,Q可定義為;
[0058]
[0059]
量累積的鄰域重構誤差,e是該項的權衡參 數。11片義,-義|表示分類誤差,Pe吸'W代表一個多類投影分類器,戶Ty,e化-I最大元素對應 的位置表示Xi的軟標簽,yi表示Xi的調整參數,當訓練集中Xi的標簽已知時,對應的yi二 10,反之y;二 0。
[0060] 基于已提出的矩陣表達式,可朗尋上述問題重寫為:
[0061]
[006引SubjIIsj|0《T。iGUIj= 1,2, . . .,N}
[006引其中t/e化-Vx-v是一個對角矩陣,也二y1。
[0064] 由于在該模型中,包含多個主要變量值,S,A,P),且各變量相互影響,因此不能直 接解決。因此在求解該問題需要用到迭代求最優解策略,具體為:
[0065] 在S101步驟得到初始化的投影分類器P后,通過移除獨立于化A,S的各項可得到 如下目標函數:
[0066]
[0067]SubjIIsj|〇《T。iGUIj= 1,2, . . .,N}
[006引其中至=^|,至1,…化"XW是排序之后的訓練數據集,S表示屬于類別i的 所有訓練數據。計算時,該問題可轉化為如下問題:
[0069]
[0070] SubjIIsj|〇《T1,iGUIj= 1,2, . . .,N}
[007。 假廷
原問題 轉化為:
[0074] 該問題可歸結為KSVD問題,可有效的利用KSVD算法找到最優解,即dk和它相應 的系數(S第K行)在同一時刻更新,
4和Ek中舍棄0項之后的 表示為巧和鳥,可通過W下方法得到dk和4 :
[00巧]
[0076] 其中,&可利用SVD分解得到
[0077] 得到A,S之后,AS用作標簽估計方法中估計各個樣本之間相似性的權重矩陣,具 體為:
[0078] 移除獨立于P的各項,可得到如下目標函數:
[0082] 獲得此投影矩陣之后,可通過=pTj,E化"1更新樣本Xi的軟標簽。
[0083] 當
(其中5 = 1(T6)時,結束此迭代過程。
[0084] 具體算法如下:
[0085] -種機器錯誤檢索算法
[008引輸入;原始數據矩陣控制參數。,p,u,稀疏約束Ti,字典維度K,W及Y
[0087] 輸出;D,A,S,P,Q
[0088] 1).利用拉普拉斯判別分析方法直推式預測得到訓練集中無標簽樣本的類別信 息,完成初始化;
[008引 2).計算P做,Q做,;(日),D做,A腳,S做:
[0090] 用LC-KSVD訓練字典的方法計算D?保持各樣本類別與字典項目之間的相關性;
[0091] 更新原始數據矩陣fW
[009引用0MP算法計算玄W的稀疏編碼S(w;
[009引用定義Q的方法初始化qW;
[0094] 用LC-KSVD算法初始化A的方法初始化A?;
[0095] 用上述計算投影矩陣的方法初始化P?;
[009引 3).計算D,A,S
[0097] 當t= 0時;KSVD的迭代次數-1
[009引 初始仙
[009引用KSVD算法通過解決如下問題更新D。。,心哺S。。,心";
[0100]
[0101] 根據Djtw得到A(t+1哺D(t4)。
[0102] 通過解決如下問題更新投影分類器P<t+":
[0103]
[0104]通過解決如下問題更新未標定數據Xi的軟標簽;argmaxi<。+山,fi=P
[0105] 如昇
停止迭代,反之,繼續迭代