一種數字教育資源推薦方法及系統的制作方法
【專利摘要】本發明公開了一種數字教育資源推薦方法,其特征在于,包括以下步驟:(1)提取教育資源的文本信息;(2)將文本信息數字化處理,得到文本數字矩陣;(3)將文本數字矩陣輸入預訓練得到的資源特征識別器,資源特征識別器輸出教育資源特征向量;(4)將教育資源特征向量與用戶特征向量相乘,得到學生對教育資源的興趣度。本發明從資源文本信息中提取教育資源特征,并結合學生特征判定學生對資源的興趣度,任何只要有部分文字說明的資源均可適用該方法,適用面廣,推薦滿意度高。
【專利說明】
一種數字教育資源推薦方法及系統
技術領域
[0001] 本發明涉及教育信息化領域,尤其涉及一種數字教育資源推薦方法及系統。
【背景技術】
[0002] 近十年來,互聯網規模和覆蓋面的迅速增長帶來了信息超載的問題,為了解決這 個問題推薦系統變得流行起來。推薦系統被用于很多場景,例如:電影、音樂、新聞、研究論 文等。在基于教育云的在線教育領域也采取了推薦系統去使得學生提升學習效率和體驗 度,并為學生提供個性化的學習服務。
[0003] 目前,實現推薦系統的方法有很多,這些方法主要可分為兩大類:協同過濾方法和 基于內容的推薦方法。協同過濾的基本思想是:找到與當前用戶相似(比如興趣和口味相 似)的其他用戶,并結合相似用戶的評價記錄進行推薦,在日常生活中,我們往往會利用好 朋友的推薦來進行一些選擇。協同過濾正是把這一思想運用到推薦系統中來。但是協同過 濾容易陷入"冷啟動"問題,在面對新資源或者冷門資源時不能正常工作。基于內容的推薦 是指根據用戶選擇的對象,推薦其他類似屬性的對象作為推薦。這一推薦策略首先提取推 薦對象的內容特征,和用戶模型中的用戶興趣偏好匹配,匹配度較高的推薦對象就可作為 推薦結果推薦給用戶,但是構建資源的內容特征往往需要大量的人工參與,并且很難得到 合適的特征。
【發明內容】
[0004] 針對現有技術中的缺陷,本發明的技術目的在于提供一種數字教育資源推薦方法 及系統,從資源文本信息中提取教育資源特征,并結合學生特征判定學生對資源的興趣度, 任何只要有部分文字說明的資源均可適用該方法,適用面廣,推薦滿意度高。
[0005] -種數字教育資源推薦方法,包括以下步驟:
[0006] (1)提取教育資源的文本信息;
[0007] (2)將文本信息數字化處理,得到文本數字矩陣;
[0008] (3)將文本數字矩陣輸入預訓練得到的資源特征識別器,資源特征識別器輸出教 育資源特征向量;
[0009] (4)將教育資源特征向量與用戶特征向量相乘,得到學生對教育資源的興趣度。
[0010] 進一步地,所述步驟(4)中的用戶特征向量按照如下方式確定:
[0011] 初始化用戶特征矩陣U,用戶特征矩陣U中的行表示用戶,列表示影響用戶興趣度 的隱含因子,記表示用戶特征矩陣U的第i行用戶特征向量;
[0012] 初始化資源特征矩陣V,資源特征矩陣V中的行表示教育資源,列表示影響用戶興 趣度的隱含因子,記f表示特征資源矩陣V的第j行資源特征向量;
[0013] 確定用戶-資源矩陣,用戶-資源矩陣中的元素〇」表示用戶i對資源j的興趣度分 值;
[0014]
為目標函數,計算確定用戶特征向量和特征資源向 量Κ/:,其中上標τ表示轉置。
[0015] 進一步地,所述步驟(2)將文本信息數字化處理得到文本信息矩陣的具體實現過 程為:對文本信息進行分詞處理,將所得的每一個詞采用向量表示,各詞向量組成為文本數 字矩陣。
[0016] 進一步地,采用選擇話題模型或分布式表達模型作為語言模型,將所得的每一個 詞采用向量表示。
[0017] 進一步地,所述資源特征識別器采用卷積神經網絡、時間遞歸神經網絡、循環神經 網絡中的任意一種訓練得到。
[0018] -種數字教育資源推薦系統,包括以下模塊:
[0019] 第一模塊,用于提取教育資源的文本信息;
[0020] 第二模塊,用于將文本信息數字化處理,得到文本數字矩陣;
[0021] 第三模塊,用于將文本數字矩陣輸入預訓練得到的資源特征識別器,資源特征識 別器輸出教育資源特征向量;
[0022] 第四模塊,用于將教育資源特征向量與用戶特征向量相乘,得到學生對教育資源 的興趣度。
[0023]進一步地,所述第四模塊包括:
[0024]第四一子模塊,用于初始化用戶特征矩陣U,用戶特征矩陣U中的行表示用戶,列表 示影響用戶興趣度的隱含因子,記q4表示用戶特征矩陣U的第i行用戶特征向量;
[0025] 第四二子模塊,用于初始化資源特征矩陣V,資源特征矩陣V中的行表示教育資源, 列表示影響用戶興趣度的隱含因子,記f表示特征資源矩陣V的第j行資源特征向量;
[0026] 第四三子模塊,用于確定用戶-資源矩陣,用戶-資源矩陣中的元素rij表示用戶i對 資源j的興趣度分值;
[0027] 第四四子模塊,
為目標函數,計算確定用戶特征向 量和特征資源向量巧,其中上標T表示轉置。
[0028]本發明的技術效果體現在:
[0029]在云教育環境下,產生了大量的學習資源,使得學生難以在其環境中找到合適的、 有幫助的學習資源,陷入"資源迷航"的困境中,而本發明教育資源推薦方法則是破除這一 困境的有效方法。相對于傳統的推薦方法,本發明能夠直接利用資源文本信息,預估其特征 值,結合學生特征直接做出推薦。高效地利用了資源文本信息,任何只要有部分文字說明的 資源均可適用該方法,適用面廣。試驗表明,推薦結果用戶滿意度高,克服了傳統推薦方法 中的"冷啟動"問題。
【附圖說明】
[0030]圖1是本發明方法流程圖;
[0031]圖2是卷積神經網絡的構造;
[0032] 圖3是卷積神經網絡訓練示意圖;
[0033] 圖4是訓練隱含因子模型的流程圖。
【具體實施方式】
[0034]為了使本發明的目的、技術方案及優點更加清楚明白,以下結合附圖及實施例,對 本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發明,并 不用于限定本發明。此外,下面所描述的本發明各個實施方式中所涉及到的技術特征只要 彼此之間未構成沖突就可以相互組合。
[0035]請參考圖1,本發明提供了一種數字教育資源推薦方法,包括以下步驟:
[0036]步驟1,提取教育資源的文本信息。
[0037]所述教育資源可以是譬如WorcUText的文本、網頁、音頻、視頻、PPT等各種類型。如 果是文本資源,可以直接提取文本全文內容或部分資源文字簡介,如果是文本以外的資源, 則提取資源文字簡介。
[0038]步驟2,文本信息數字化。
[0039] 將提取的文本信息進行分詞處理,按照分詞前的次序,形成一個有序的詞序列。使 用語言模型將每個詞用對應的向量表示,結合之前生成的詞序列,形成一個矩陣來表示原 文本信息。
[0040] 分詞處理采用的語言模型要單獨訓練,訓練資源推薦為大規模語料庫。可以采取 詞語的話題模型或者分布式表達模型作為語言模型。
[0041]如果選擇話題模型,則將一個詞表示成為多個話題上的從屬概率(向量),訓練方 法為LDA(見文南犬:D.M.Blei,A.Y.Ng, and Μ· I .Jordan,''Latent dirichlet allocation, the Journal of machine Learning research,vol·3,pp·993-1022,2003·)〇 [0042] 如果選擇分布式表達模型,則將一個詞語表不成為一個向量,訓練方法為CB0W或 ^Skip-Gram( :T.Mikolov,I.Sutskever,K.Chen,G.S. Corrado , and J · Dean, 〃 Distributed representations of words and phrases and their compositionality,^ in Advances in neural information processing systems,2013,pp·3111-3119·)〇
[0043] 步驟3,將文本數字矩陣輸入預訓練得到的資源特征識別器,資源特征識別器輸出 教育資源特征向量。
[0044] 所述資源特征識別器采用卷積神經網絡、時間遞歸(LSTM)神經網絡、循環神經網 絡或其他深度學習模型中的任意一種訓練得到。下面以卷積神經網絡為例詳細說明訓練過 程。
[0045] 卷積神經網絡作為近期在人工智能領域取得巨大成功的模型,本發明將其引入作 為推薦模型,其示意圖請見圖2。其作用方法為:將文本數字數據作為輸入,結合訓練的卷積 神經網絡模型,通過神經網絡的正向傳播,得到對應的學習資源特征向量
[0046] 其中神經網絡的訓練過程包括:將系統搜集到的教育資源文本信息數字化之后作 為卷積神經網絡輸入,再將對應的教育資源特征作為輸出。
[0047] 卷積神經網絡通常由三種模塊構成:卷積層、降采樣層、全連接層。其中卷積層、全 連接層由參數權重矩陣、偏置項與非線性映射函數構成。
[0048]訓練卷積神經網絡。其目標函數為均方誤差(MSE):
[0050] 其中,w,b代表了卷積神經網絡中的全部參數,即要優化的目標。yi'表示訓練庫中 第i個學習資源的特征向量,示卷積神經網絡的輸出值。
[0051] 其訓練方法為小批度隨機梯度下降,選取一定數量的樣本作為一次梯度下降的樣 本,結合神經網絡的前向后向傳導進行梯度下降。具體訓練過程見圖3。
[0052]步驟4,將教育資源特征向量與用戶特征向量相乘,得到學生對教育資源的興趣 度。
[0053]本發明使用向量來表示用戶以及資源的特征,將教育資源特征向量與學生特征向 量進行相乘,得到對應的興趣度預估值再根據設定的興趣度閾值決定是否要進行推薦操 作。
[0054]其中,學生特征向量按照如下方式確定:
[0055] 初始化用戶特征矩陣U,用戶特征矩陣U中的行表示用戶,列表示影響用戶興趣度 的隱含因子,記表示用戶特征矩陣U的第i行學生特征向量。
[0056] 初始化用戶特征矩陣U,用戶特征矩陣U中的行表示用戶,列表示影響用戶興趣度 的隱含因子,記表示用戶特征矩陣U的第i行學生特征向量。
[0057] 初始化資源特征矩陣V,資源特征矩陣V中的行表示教育資源,列表示影響用戶興 趣度的隱含因子,記f表示特征資源矩陣V的第j行資源特征向量;
[0058] 確定用戶-資源矩陣,用戶-資源矩陣中的元素^」表示用戶i對資源j的興趣度分 值;
[0059] 為目標函數,計算確定用戶特征向量W和特征資源向量 f,其中上標T表示轉置。上述計算過程可以采用梯度下降的方法進行求解,具體的求解過 程請見圖4。
[0060] 用戶特征矩陣U的列數與初始化資源特征矩陣V的行數相等,具體大小可根據訓練 樣本數確定,訓練樣本數越多則列數和行數越多,反之越小,可根據推薦結果調整。
[0061] 實例:
[0062] 計算學生甲對學習資源《數據挖掘導論》之間的興趣度,其過程為:首先獲取《數據 挖掘導論》的文本信息,將其轉化為數字化信息,得到《數據挖掘導論》的文本信息M,將Μ作 為訓練完成的卷積神經網絡的輸入,通過卷積神經網絡的正向轉播得到預測的《數據挖掘 導論》的特征向量Ν,再從學生特征庫中取出學生甲的特征向量S,將向量Ν與S相乘,得到生 甲對學習資源《數據挖掘導論》的興趣度預估值a,若a大于系統預設的閾值,則對其進行推 薦操作,反之則不進行推薦。
[0063]實例中,用戶-資源矩陣如表1所示
[0065]其中空缺的值表示該用戶對對應書籍未做出評價,在計算過程中對空缺值不進行 計算。通過目標函數計算得到的用戶特征矩陣U和資源特征矩陣V如表2和3所示:
[0067] 本例中潛在因子選取為20個。
[0068]本領域的技術人員容易理解,以上所述僅為本發明的較佳實施例而已,并不用以 限制本發明,凡在本發明的精神和原則之內所作的任何修改、等同替換和改進等,均應包含 在本發明的保護范圍之內。
【主權項】
1. 一種數字教育資源推薦方法,其特征在于,包括以下步驟: (1) 提取教育資源的文本信息; (2) 將文本信息數字化處理,得到文本數字矩陣; (3) 將文本數字矩陣輸入預訓練得到的資源特征識別器,資源特征識別器輸出教育資 源特征向量; (4) 將教育資源特征向量與用戶特征向量相乘,得到學生對教育資源的興趣度。2. 根據權利要求1所述的數字教育資源推薦方法,其特征在于,所述步驟(4)中的用戶 特征向量按照如下方式確定: 初始化用戶特征矩陣U,用戶特征矩陣U中的行表示用戶,列表示影響用戶興趣度的隱 含因子,記tc表示用戶特征矩陣U的第i行用戶特征向量; 初始化資源特征矩陣V,資源特征矩陣V中的行表示教育資源,列表示影響用戶興趣度 的隱含因子,記€表示特征資源矩陣V的第j行資源特征向量; 確定用戶-資源矩陣,用戶-資源矩陣中的元素表示用戶i對資源j的興趣度分值; ^為目標函數,計算確定用戶特征向量€和特征資源向量$, 其中上標T表示轉置。3. 根據權利要求1或2所述的數字教育資源推薦方法,其特征在于,所述步驟(2)將文本 信息數字化處理得到文本信息矩陣的具體實現過程為:對文本信息進行分詞處理,將所得 的每一個詞采用向量表示,各詞向量組成為文本數字矩陣。4. 根據權利要求3所述的數字教育資源推薦方法,其特征在于,采用選擇話題模型或分 布式表達模型作為語言模型,將所得的每一個詞采用向量表示。5. 根據權利要求1或2或3所述的數字教育資源推薦方法,其特征在于,所述資源特征識 別器采用卷積神經網絡、時間遞歸神經網絡、循環神經網絡中的任意一種訓練得到。6. -種數字教育資源推薦系統,其特征在于,包括以下模塊: 第一模塊,用于提取教育資源的文本信息; 第二模塊,用于將文本信息數字化處理,得到文本數字矩陣; 第三模塊,用于將文本數字矩陣輸入預訓練得到的資源特征識別器,資源特征識別器 輸出教育資源特征向量; 第四模塊,用于將教育資源特征向量與用戶特征向量相乘,得到學生對教育資源的興 趣度。7. 根據權利要求6所述的數字教育資源推薦系統,其特征在于,所述第四模塊包括: 第四一子模塊,用于初始化用戶特征矩陣U,用戶特征矩陣U中的行表示用戶,列表示影 響用戶興趣度的隱含因子,記g表示用戶特征矩陣U的第i行用戶特征向量; 第四二子模塊,用于初始化資源特征矩陣V,資源特征矩陣V中的行表示教育資源,列表 示影響用戶興趣度的隱含因子,記f表示特征資源矩陣V的第j行資源特征向量; 第四三子模塊,用于確定用戶-資源矩陣,用戶-資源矩陣中的元素表示用戶i對資源 j的興趣度分值; 第四四子模塊,用于b為目標函數,計算確定用戶特征向量W 和特征資源向量G,其中上標T表示轉置。
【文檔編號】G06F17/30GK105868317SQ201610179836
【公開日】2016年8月17日
【申請日】2016年3月25日
【發明人】劉海, 楊宗凱, 劉三女牙, 張昭理, 舒江波
【申請人】華中師范大學