專利名稱:一種基于半監督聚類的遷移學習方法
技術領域:
本發明涉及一種機器學習領域的方法,特別是涉及一種基于半監督聚類的遷移學習方法。
背景技術:
機器學習中傳統的分類器要求源數據與目標數據必須具備相同的分布,然而現代社會信息發展日新月異,這種假設在實際生活中很難實現。當出現不同分布的數據時,傳統分類器就要重新收集大量數據,由專家對這些數據進行分析、標簽。就要投入大量的人力、時間,這樣做不僅效率不高,而且代價也是很昂貴的。而遷移學習就能克服從零開始收集數據的缺點。它能從不同但相似領域,遷移其有用的方法、技術到目標領域,幫助目標領域數據進行分類。目前有一些對遷移學習方法的研究,但其主要是針對二分類的,即假設目標數據分類只分為兩類0或I。然而現實生活,數據復雜多樣,分類不可能如此單一,這顯然很不符合實際。對于多分類復雜分類器來說,該實驗算法可能就會失效。還有一些方法,通過建立源領域到目標領域的橋梁,通過橋梁實現標簽傳遞。標簽傳遞過程中不斷地修正由源領域訓練得到的模型在目標領域數據集中的預測,最終并不能形成一個分類器。對于新來的數據,只能重新進行橋接精化的過程,這對于整個遷移學習過程效率很低。此外,目前對遷移學習方法的研究都面臨著一個共同的問題精確度不高。我們可以通過一些算法實現方法、技術的遷移,產生最終分類器。但是由于知識、能力的限制,使得最終分類器的分類精度不高,即分類誤差比較大。
發明內容
本發明的目的在于提供一種將分類方法、技術從一個領域遷移到另一個領域的提高分類結果精確度的一種基于半監督聚類的遷移學習方法。本發明的目的是這樣實現的基于半監督聚類的遷移學習方法包括以下步驟(I)、計算目標數據與輔助數據各類中數據的相似度;(2)、計算目標數據與輔助數據各類的平均相似度;(3)、預分類由平均相似度得到目標數據與類標簽的一個相似度權重向量。取向量中權重最大的為目標數據的標簽;(4)、再分類以目標數據為質心,進行K-均值聚類。聚類成簇,每簇中以簇中數據占所屬類中總數據比例最大者的標簽為簇標簽;(5)、將再分類結果與預分類結果做對比。若兩者相同,則增大相似度權重向量中類標簽權重;若不相同,則減小類標簽權重;(6)、在最終形成的目標數據相似度權重向量中,挑選權重最大的數據標簽作為目標數據數據標簽,從而形成最終分類器。
本發明的有益效果是1.改進機器學習中傳統分類器,可以進行跨領域的知識、技術的遷移。2.不只是停留在實驗中二分類的情況,而是可以針對實際情況完成多分類的標簽遷移,對目標數據進行分類任務。3.最終可以產生分類器,該分類器可以是多類別分類器,符合實際,效率高,精確度也比較高。4、可以用于相似領域的文本分類、網頁分類、圖像分類等,甚至可實現文本到圖片或圖片到文本分類方法、技術的遷移。
圖1為基于半監督聚類的遷移學習方法的流程圖。
具體實施例方式本發明采用標準文本數據20Newsgroup作為實驗數據。20Newsgroup是一個包含20000個新聞組的文檔集,分為20個子類,7個頂層類。為使數據集滿足遷移場景,本發明對數據集進行了重構。由于該數據集包含分屬不同頂層類別的子類,可以將相同頂層類別的子類劃分出來與不同頂層的子類構成不同領域的數據集。基于這種重構,源領域數據與目標數據來源于不同分布,但由于其子類又有相同的頂層類,因此兩個領域數據又存在一定聯系。源領域、目標領域數據如下
權利要求
1. 一種基于半監督聚類的遷移學習方法,其特征在于包括以下步驟(1)、計算目標數據與輔助數據各類中數據的相似度;(2)、計算目標數據與輔助數據各類的平均相似度;(3)、預分類由平均相似度得到目標數據與類標簽的一個相似度權重向量,取向量中權重最大的為目標數據的標簽;(4)、再分類以目標數據為質心,進行K-均值聚類,聚類成簇,每簇中以簇中數據占所屬類中總數據比例最大者的標簽為簇標簽;(5)、將再分類結果與預分類結果做對比,若兩者相同,則增大相似度權重向量中類標簽權重;若不相同,則減小類標簽權重;(6)、在最終形成的目標數據相似度權重向量中,挑選權重最大的數據標簽作為目標數據數據標簽,從而形成最終分類器。
全文摘要
本發明提供的是一種基于半監督聚類的遷移學習方法。包括計算目標數據與輔助數據各類中數據的相似度、平均相似度;由平均相似度得到目標數據與類標簽的一個相似度權重向量,取向量中權重最大的為目標數據的標簽;以目標數據為質心,進行K-均值聚類,聚類成簇,每簇中以簇中數據占所屬類中總數據比例最大者的標簽為簇標簽;將再分類結果與預分類結果做對比;在最終形成的目標數據相似度權重向量中,挑選權重最大的數據標簽作為目標數據數據標簽,從而形成最終分類器。本發明提供一種將分類方法、技術從一個領域遷移到另一個領域的提高分類結果精確度的一種基于半監督聚類的遷移學習方法。
文檔編號G06F17/30GK103020122SQ20121046486
公開日2013年4月3日 申請日期2012年11月16日 優先權日2012年11月16日
發明者初妍, 陳曼, 沈潔, 夏琳琳, 王勇, 李麗潔, 高迪, 王興梅 申請人:哈爾濱工程大學