一種魯棒機器錯誤檢索方法與系統的制作方法
【技術領域】
[0001] 本發明設及數據挖掘及計算機視覺技術領域,具體來說,設及一種魯椿機器錯誤 檢索方法與系統。
【背景技術】
[0002] 隨著計算機技術和智能化的不斷發展,機器錯誤分類已經發展成為數據挖掘中非 常重要的一個研究課題。機器錯誤分類技術通過計算機將機器數據電子化,然后分析數據 結構,獲取數據特征,在機械故障診斷等領域有著重大的意義,一旦研究成功并投入應用, 將產生巨大的社會和經濟效益。
[0003] 目前的大部分研究工作都集中在全監督或者無監督方法用于提取機器數據特征 進行機器錯誤分類,且也已取得一定的成果。但是真實世界中的機器數據通常是少量有標 簽,而大多數無標簽,大多數研究表明全監督方法用于數據分類優于無監督方法,但應用全 監督方法獲取所有數據標簽需要很大的開銷,因此如何有效利用機器數據中的標簽提高分 類精度是需要深入探討的問題。
[0004] 近年來,K-SVD和D-KSVD值iscriminativeK-SVD)等經典的字典學習算法可通過 學習一個重構的字典,訓練得到數據集的稀疏編碼來表征數據的特征,并計算得到線性分 類器,可對數據進行分類。但當選取的訓練數據樣本較少時,數據的特征未能精確的表征, 所W分類的精度很低。為了克服此缺點,它們的推廣LC-KSVD(L油elConsistentK-SVD) 被提出,當已知全部數據樣本的標簽,LC-KSVD在學習判別的可重構字典時,有效的保持字 典各項與數據標簽的內在聯系,使得即使訓練樣本較少,通過學到的字典訓練得到的稀疏 編碼也能最大程度的表征數據的特征,從而通過計算得到的線性分類器精確的對機器錯誤 數據進行分類。LC-KSVD的目標是用全監督的方法去對數據進行分類,但獲得全部數據標簽 需要很大的開銷。
[0005] 因此,提供一種方便獲得數據標簽的機器錯誤分類方法W降低開銷,是本領域技 術人員亟待解決的問題。
【發明內容】
[0006] 有鑒于此,本發明提供了一種魯椿機器錯誤檢索方法及系統,W克服現有技術中 獲得數據標簽開銷大的問題。
[0007] 為實現上述目的,本發明提供如下技術方案:
[0008] -種魯椿機器錯誤檢索方法,包括:
[0009] 利用標簽預測方法通過直推式方式估計得到訓練集中的未標定樣本數據的類別 標簽,生成包括所有有標定的樣本數據的新訓練集;
[0010] 根據所述新訓練集中的機器錯誤數據及其標簽信息,進行標簽一致字典學習,得 到判別稀疏編碼,利用所述判別系數編碼構造自適應權重系數,得到自適應重構系數矩陣, 根據所述自適應重構系數矩陣得到一個投影分類器,利用所述投影分類器對訓練集中的未 標定的樣本數據的類別信息進行更新;
[0011] 通過多次迭代訓練,得到一個判別的可重構字典,一個機器錯誤數據的判別稀疏 編碼,W及一個最優的投影分類器;
[0012] 利用所述最優的投影分類器完成對待測機器錯誤數據的類別預測和檢索分類,得 到所述測試集中待測數據的軟類別標簽,根據所述軟類別標簽中的概率最大值找到對應的 位置,確定測試樣本的類別,得到所述機器錯誤數據的魯椿分類。
[0013] 優選地,利用標簽預測方法通過直推式方式估計得到訓練集中的未標定樣本數據 的類別標簽前還包括:
[0014] 獲取原始的樣本數據集合,將所述樣本數據集合劃分為訓練集和測試集,所述訓 練集中包含已標記的訓練樣本和未標記的訓練樣本,所述已標記的訓練樣本和所述未標記 的訓練樣本的機器數據向量集合義=[式,式;]e膝n是機器數據的維度,1是已標記 訓練樣本的數量,U是未標記訓練樣本數量,其中包含有c(c〉2)個類別標簽的訓練樣本集 Z王=h,X2,...,刮e吸和無任何標簽的訓練樣本集而=[和1,乂W,...,相,,]€吸"<",其中 任意向量X, €阪為機器數據樣本,1+U=N,所述測試集中的測試樣本全部未標記。
[0015] 優選地,根據所述新訓練集中的機器錯誤數據及其標簽信息,進行標簽一致字典 學習包括;預設D為學習得到的所述可重構字典,S是訓練集的所述判別稀疏編碼,AS為所 述自適應權重編碼,P代表一個所述投影分類器;
[0016]
[0017]Subjl|sj|〇《Ti,iG{j|j= 1,2,...,N}
[001引其中,||X-說?底是重構誤差,。=[4…屯-]€熙"-,Ti是稀疏約束,叫皮xw,[001引 Si定義如下;
[0020]
[00川 ||0-的I丘為判別稀疏編碼誤差,其中0 = [A…如]€化KXW為訓練數據集的判別稀 疏編碼,a是該項的權衡參數;
[0022] 當訓練樣本X郝Xj.屬于不同類別時,所述訓練樣本X郝Xj在Q中對應的項為0, 否則訓練樣本Xi和Xj在Q中對應的項為cos(Xi,Xj);
[0023]
曼累積的鄰域重構誤差,e是該項的權衡參 數;
[0024]
良示分類誤差,戶e岐"X%pT;c,.e胺"1最大元素對應的位置表示X;的軟 標簽,y康示Xi的調整參數,當訓練集中Xi的標簽已知時,對應的y1= 1〇1°,否則= 0。
[0025] 優選地,利用所述最優的投影分類器完成對待測機器錯誤數據的類別預測和檢索 分類,得到所述測試集中待測數據的軟類別標簽包括:
[002引得到測試樣本X。。內,利用PTx。。,將其嵌入計算得到多類投影分類器,所得向量 的最大元素對應的位置即為待測樣本X。。,的軟標簽,每個測試樣本的硬標簽可W被歸結為 argmaXi《。也Ji,其中eIRW,(f。J康示預測的軟標簽向量f。。,第i個元素位 置。
[0027] 本發明還提供了一種魯椿機器錯誤檢索系統,包括:
[0028] 訓練預處理模塊,用于利用標簽預測方法通過直推式方式估計得到訓練集中的未 標定樣本數據的類別標簽,生成包括所有有標定的樣本數據的新訓練集;
[0029] 訓練模塊,用于根據所述新訓練集中的機器錯誤數據及其標簽信息,進行標簽一 致字典學習,得到判別稀疏編碼,利用所述判別系數編碼構造自適應權重系數,得到自適應 重構系數矩陣,根據所述自適應重構系數矩陣得到一個投影分類器,利用所述投影分類器 對訓練集中的未標定的樣本數據的類別信息進行更新;
[0030] 迭代模塊,用于通過多次迭代訓練,得到一個判別的可重構字典,一個機器錯誤數 據的判別稀疏編碼,W及一個最優的投影分類器;
[0031] 測試模塊,用于利用所述最優的投影分類器完成對待測機器錯誤數據的類別預測 和檢索分類,得到所述測試集中待測數據的軟類別標簽,根據所述軟類別標簽中的概率最 大值找到對應的位置,確定測試樣本的類別,得到所述機器錯誤數據的魯椿分類。
[0032] 應用本發明提供的一種魯椿機器錯誤檢索方法與系統,首先利用標簽估計方法對 訓練集數據進行預處理,估計出未標定機器數據的標簽,并初始化一個投影分類器。基于訓 練樣本的類別信息,進行標簽一致字典學習,利用得到的判別稀疏編碼構造標簽預測模型 中的自適應重構權,通過計算新的投影分類器來更新無標簽訓練數據的類信息。通過多次 迭代訓練,輸出一個判別的可重構字典,一個稀疏編碼矩陣和一個最優多類分類器。訓練得 到的分類器可用于新來數據的歸納和類別預測,根據軟標簽中的概率最大值對應的位置, 確定測試樣本的類別,完成機器錯誤數據魯椿分類。通過提出半監督標簽一致字典學習方 法,豐富了監督的先驗信息,有效提高了機器錯誤檢索的精準度。
【附圖說明】
[0033] 為了更清楚地說明本發明實施例或現有技術中的技術方案,下面將對實施例或現 有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本 發明的實施例,對于本領域普通技術人員來講,在不付出創造性勞動的前提下,還可W根據 提供的附圖獲得其他的附圖。
[0034] 圖1為本發明實施例公開的一種機器錯誤數據分類方法的流程圖;
[00巧]圖2為本發明實施例公開的一種機器錯誤數據分類系統的結構示意圖。
【具體實施方式】
[0036] 下面將結合本發明實施例中的附圖,對本發明實施例中的技術方案進行清楚、完 整地描述,顯然,所描述的實施例僅僅是本發明一部分實施例,而不是全部的實施例。基于 本發明中的實施例,本領域普通技術人員在沒有做出創造性勞動前提下所獲得的所有其他 實施例,都屬于本發明保