一種基于領域特征和隱語義分析的科技資源推薦方法
【技術領域】
[0001 ]本發明涉及科技資源數據處理領域,更具體地,涉及一種基于領域特征和隱語義分析的科技資源推薦方法。
【背景技術】
[0002]知識時代,科技資源在國民經濟發展中愈發重要,在科技活動中的共享和利用程度也得到相關部門和企業的高度重視,資源的多維大數據特征得以突顯。為改善科技創新環境,為廣大科技工作者和科技活動提供強有力的基礎條件支撐,該專利研究科技資源推薦方法,適用于科技資源共享平臺和科技資源查詢推薦系統,為科技資源使用者提供便利,有效提尚科技資源的利用率。
[0003]科技資源具有領域性強、數據分散、地域性強的特點,當前的通用性推薦算法(如用戶行為分析、協同過濾技術等)在實際的資源共享平臺中的應用效果不佳,資源推薦準確率偏低。隱語義分析技術是一種基于機器學習的一系列方法,具有比較好的理論基礎,目前部分算法在推薦系統中已經得到應用和肯定。但是,對于科技資源,目前尚無相關推薦模型,也沒有將領域與隱語義分析相結合的算法。
【發明內容】
[0004]本發明提供一種能夠有效避免隱語義分析算法存在的冷啟動問題的基于領域特征和隱語義分析的科技資源推薦方法。
[0005]為了達到上述技術目的,本發明的技術方案如下:
一種基于領域特征和隱語義分析的科技資源推薦方法,包括以下步驟:
S1:通過對科技資源進行領域聚類,將用戶和資源按領域進行有效分類,形得到用戶領域和資源領域,并進行預處理得到用戶-用戶領域數據集、用戶領域-資源領域數據集、資源領域-資源數據集;
S2:利用用戶領域和資源領域建立基于領域特征和隱語義分析的推薦模型;
S3:獲取用戶的需求信息,通過建立的基于領域特征和隱語義分析的推薦模型為用戶推薦所需的資源。
[0006]進一步地,所述步驟SI的具體過程如下:
定義活躍用戶、用戶領域、資源領域、熱點數據、關注數據、收藏數據、訂單數據、日志數據,采用去除稀疏數據,處理缺失值的數據處理技術,獲得用戶-用戶領域數據集、用戶領域-資源領域數據集、資源領域-資源數據集。
[0007]進一步地,所述步驟S2的具體過程如下:
對用戶-用戶領域數據集、用戶領域-資源領域數據集和資源領域-資源數據集進行初始化,并分別對用戶-用戶領域數據集、用戶領域-資源領域數據集和資源領域-資源數據集進行訓練得到用戶領域矩陣P、資源領域矩陣Q和用戶領域-資源領域矩陣L。
[0008]進一步地,所述步驟S2還包括: 通過計算公式L-LFM=P X L X Q,得到基于領域特征和隱語義分析的推薦算法模型(L-LFM) ο
[0009]進一步地,得到用戶領域矩陣P的過程如下:
將用戶-用戶領域數據集通過slope-one算法進行運算,形成用戶領域矩陣P[u][j],并獲得P矩陣的相關參數。
[0010]進一步地,得到用戶領域矩陣Q的過程如下:
將資源領域-資源數據集通過slope-one算法進行運算,形成資源領域矩陣Q[ j ][ i ],并獲得Q矩陣的相關參數。
[0011]進一步地,得到用戶領域矩陣L的過程如下:
將用戶領域-資源領域數據集通過slope-one算法進行運算,形成用戶領域-資源領域矩陣Q[i][s],并獲得Q矩陣的相關參數。
[0012]本發明方法通過對科技資源進行領域聚類,將用戶和資源的按領域進行有效分類,形成用戶領域和資源領域,再此基礎上,建立引入領域矩陣的推薦模型,改善了隱語義分析算法不太適用于資源數非常龐大的系統,有效提高推薦語義的可解釋性。并且,科技資源推薦不同于新聞推薦,對實時性要求不高,用戶群體相對固定,因此,能夠有效避免隱語義分析算法存在的冷啟動問題。
[0013]與現有技術相比,本發明技術方案的有益效果是:
本發明方法引入用戶領域和資源領域,尋找更適合描述用戶和資源的分類,更有利于隱語義分析算法形成有意義的主題分類,改善了隱語義分析算法無法解釋分類意義的現象,同時首先運用高效快速的slope-one算法對三大數據集進行運算,形成P、L、Q矩陣,改善了隱語義分析算法時間復雜度高的問題,適用于跨領域廣、數據量龐大、用戶群體相對固定的科技資源推薦,有效地避免隱語義分析算法存在的冷啟動問題。
【附圖說明】
[0014]圖1為本發明中基于領域特征和隱語義分析的推薦算法模型(L-LFM)的框圖。
【具體實施方式】
[0015]附圖僅用于示例性說明,不能理解為對本專利的限制;
為了更好說明本實施例,附圖某些部件會有省略、放大或縮小,并不代表實際產品的尺寸;
對于本領域技術人員來說,附圖中某些公知結構及其說明可能省略是可以理解的。
[0016]下面結合附圖和實施例對本發明的技術方案做進一步的說明。
[0017]實施例1
一種基于領域特征和隱語義分析的科技資源推薦方法,包括以下步驟:
S1:通過對科技資源進行領域聚類,將用戶和資源按領域進行有效分類,形得到用戶領域和資源領域,并進行預處理得到用戶-用戶領域數據集、用戶領域-資源領域數據集、資源領域-資源數據集;
S2:利用用戶領域和資源領域建立基于領域特征和隱語義分析的推薦模型;
S3:獲取用戶的需求信息,通過建立的基于領域特征和隱語義分析的推薦模型為用戶推薦所需的資源。
[0018]進一步地,所述步驟SI的具體過程如下:
定義活躍用戶、用戶領域、資源領域、熱點數據、關注數據、收藏數據、訂單數據、日志數據,采用去除稀疏數據,處理缺失值的數據處理技術,獲得用戶-用戶領域數據集、用戶領域-資源領域數據集、資源領域-資源數據集。
[0019]如圖1所示,步驟S2的具體過程如下:
對用戶-用戶領域數據集、用戶領域-資源領域數據集和資源領域-資源數據集進行初始化,并分別對用戶-用戶領域數據集、用戶領域-資源領域數據集和資源領域-資源數據集進行訓練得到用戶領域矩陣P、資源領域矩陣Q和用戶領域-資源領域矩陣L。
[0020]步驟S2還包括:
通過計算公式L-LFM=P X L X Q,得到基于領域特征和隱語義分析的推薦算法模型(L-LFM) ο
[0021 ]得到用戶領域矩陣P的過程如下:
將用戶-用戶領域數據集通過slope-one算法進行運算,形成用戶領域矩陣P[u][j],并獲得P矩陣的相關參數。
[0022]得到用戶領域矩陣Q的過程如下:
將資源領域-資源數據集通過slope-one算法進行運算,形成資源領域矩陣Q[ j ][ i ],并獲得Q矩陣的相關參數。
[0023]得到用戶領域矩陣L的過程如下:
將用戶領域-資源領域數據集通過slope-one算法進行運算,形成用戶領域-資源領域矩陣Q[i][s],并獲得Q矩陣的相關參數。
[0024]本發明方法引入用戶領域和資源領域,尋找更適合描述用戶和資源的分類,更有利于隱語義分析算法形成有意義的主題分類,改善了隱語義分析算法無法解釋分類意義的現象,同時首先運用高效快速的slope-one算法對三大數據集進行運算,形成P、L、Q矩陣,改善了隱語義分析算法時間復雜度高的問題,適用于跨領域廣、數據量龐大、用戶群體相對固定的科技資源推薦,有效地避免隱語義分析算法存在的冷啟動問題。
[0025]相同或相似的標號對應相同或相似的部件;
附圖中描述位置關系的用于僅用于示例性說明,不能理解為對本專利的限制;
顯然,本發明的上述實施例僅僅是為清楚地說明本發明所作的舉例,而并非是對本發明的實施方式的限定。對于所屬領域的普通技術人員來說,在上述說明的基礎上還可以做出其它不同形式的變化或變動。這里無需也無法對所有的實施方式予以窮舉。凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含在本發明權利要求的保護范圍之內。
【主權項】
1.一種基于領域特征和隱語義分析的科技資源推薦方法,其特征在于,包括以下步驟: S1:通過對科技資源進行領域聚類,將用戶和資源按領域進行有效分類,形得到用戶領域和資源領域,并進行預處理得到用戶-用戶領域數據集、用戶領域-資源領域數據集、資源領域-資源數據集; S2:利用用戶領域和資源領域建立基于領域特征和隱語義分析的推薦模型; S3:獲取用戶的需求信息,通過建立的基于領域特征和隱語義分析的推薦模型為用戶推薦所需的資源。2.根據權利要求1所述的基于領域特征和隱語義分析的科技資源推薦方法,其特征在于,所述步驟SI的具體過程如下: 定義活躍用戶、用戶領域、資源領域、熱點數據、關注數據、收藏數據、訂單數據、日志數據,采用去除稀疏數據,處理缺失值的數據處理技術,獲得用戶-用戶領域數據集、用戶領域-資源領域數據集、資源領域-資源數據集。3.根據權利要求2所述的基于領域特征和隱語義分析的科技資源推薦方法,其特征在于,所述步驟S2的具體過程如下: 對用戶-用戶領域數據集、用戶領域-資源領域數據集和資源領域-資源數據集進行初始化,并分別對用戶-用戶領域數據集、用戶領域-資源領域數據集和資源領域-資源數據集進行訓練得到用戶領域矩陣P、資源領域矩陣Q和用戶領域-資源領域矩陣L。4.根據權利要求3所述的基于領域特征和隱語義分析的科技資源推薦方法,其特征在于,所述步驟S2還包括: 通過計算公式L-LFM=P X L X Q,得到基于領域特征和隱語義分析的推薦算法模型。5.根據權利要求3所述的基于領域特征和隱語義分析的科技資源推薦方法,其特征在于,得到用戶領域矩陣P的過程如下: 將用戶-用戶領域數據集通過slope-one算法進行運算,形成用戶領域矩陣P[u][j],并獲得P矩陣的相關參數。6.根據權利要求3所述的基于領域特征和隱語義分析的科技資源推薦方法,其特征在于,得到用戶領域矩陣Q的過程如下: 將資源領域-資源數據集通過slope-one算法進行運算,形成資源領域矩陣Q[ j] [ i ],并獲得Q矩陣的相關參數。7.根據權利要求3所述的基于領域特征和隱語義分析的科技資源推薦方法,其特征在于,得到用戶領域矩陣L的過程如下: 將用戶領域-資源領域數據集通過slope-one算法進行運算,形成用戶領域-資源領域矩陣Q[i][s],并獲得Q矩陣的相關參數。
【專利摘要】本發明提供一種基于領域特征和隱語義分析的科技資源推薦方法,該方法引入用戶領域和資源領域,尋找更適合描述用戶和資源的分類,更有利于隱語義分析算法形成有意義的主題分類,改善了隱語義分析算法無法解釋分類意義的現象,同時首先運用高效快速的slope-one算法對三大數據集進行運算,形成P、L、Q矩陣,改善了隱語義分析算法時間復雜度高的問題,適用于跨領域廣、數據量龐大、用戶群體相對固定的科技資源推薦,有效地避免隱語義分析算法存在的冷啟動問題。
【IPC分類】G06F17/27, G06F17/30
【公開號】CN105512323
【申請號】CN201510962244
【發明人】羅亮, 林珠, 方少亮, 徐迪威, 李海威, 黃皓璇
【申請人】廣東省科技基礎條件平臺中心
【公開日】2016年4月20日
【申請日】2015年12月21日