一種獲取課程關聯度的方法及系統的制作方法
【專利摘要】本發明提供了一種獲取課程關聯度的方法及系統,該方法包括:將兩門課程的成績數據分別按照成績的分數劃分為預設的等級,得到兩門課程的離散化成績數據;將同一學生的兩門課程的離散化成績數據之間的等級關系生成對應的規則,計算每條規則對應的支持度,提取支持度大于或等于預設閾值的規則,得到原始規則集合;利用啟發式算法將所述原始規則集合劃分為正常規則集合和異常規則集合;分別計算異常規則集合中對應的異常規則的支持度的和以及正常規則集合中對應的正常規則的支持度的和,根據所述異常規則的支持度的和與所述正常規則的支持度的和計算兩門課程關聯度。本發明能夠準確獲取課程間的關聯度,為教學過程中課程推薦提供有效的技術支持。
【專利說明】一種獲取課程關聯度的方法及系統
【技術領域】
[0001] 本發明涉及數據挖掘【技術領域】,尤其涉及一種獲取課程關聯度的方法及系統。
【背景技術】
[0002] 隨著社會對于教育的重視,越來越來多的人開始參與到在校學習。于此同時帶來 的是大量的教學數據的產生,如何有效的利用這些教學數據成為了研宄的熱點問題。數據 挖掘技術是一種能夠在大量數據中發現規律的技術。由于數據本身的復雜性,所以一般普 適的算法無法直接應用到數據上,這就需要針對挖掘的目標提出新的數據挖掘方法或者新 的模型。
[0003]目前,對于關聯性分析,國內外已經有人提出了一些算法,主要包括:
[0004] Aporior算法:該算法是一種挖掘頻繁項集的算法。頻繁項集挖掘通過將已有的 頻繁項集合進行連接,不斷篩選滿足頻繁度的項集,通過迭代上面的過程最終得到所有的 頻繁項目集合。關聯規則挖掘是通過將每條頻繁項集進行分割得到關聯規則,根據最小置 信篩選出強關聯規則。關聯規則挖掘算法只能挖掘出關聯規則,無法給出兩個事物間的關 聯度。
[0005] FP-Tree算法:為了解決算法時間復雜度過高的問題,研宄人員提出了,通過將規 則壓縮到一個樹中,避免每次篩選的時候再次掃描數據庫,能夠有效的提高算法的效率。
[0006] 上述算法能夠挖掘關聯規則,但是無法對數據關聯度進行度量。
【發明內容】
[0007](一)要解決的技術問題
[0008] 本發明提供一種獲取課程關聯度的方法及系統,準確獲取課程間的關聯度,為教 學過程中課程推薦提供有效的技術支持。
[0009](二)技術方案
[0010] 為解決上述技術問題,本發明提供一種獲取課程關聯度的方法,該方法包括:
[0011] 將兩門課程的成績數據分別按照成績的分數劃分為預設的等級,得到兩門課程的 離散化成績數據;
[0012] 將同一學生的兩門課程的離散化成績數據之間的等級關系生成對應的規則,計算 每條規則對應的支持度,提取支持度大于或等于預設閾值的規則,得到原始規則集合;
[0013] 利用啟發式算法將所述原始規則集合劃分為正常規則集合和異常規則集合;
[0014] 分別計算異常規則集合中對應的異常規則的支持度的和以及正常規則集合中對 應的正常規則的支持度的和,根據所述異常規則的支持度的和與所述正常規則的支持度的 和計算兩門課程關聯度。
[0015] 優選地,在所述將兩門課程的成績數據分別按照成績的分數劃分為預設個等級之 前,所述方法還包括:
[0016] 將兩門課程的成績數據按照統一標準進行數據歸一化處理,得到兩門課程的標準 成績數據。
[0017] 優選地,規則對應的支持度的計算公式具體如下:
[0018] 支持度=規則對應的數量/規則集合的數量。
[0019] 優選地,在所述將兩門課程的成績數據分別按照成績的分數劃分為預設個等級之 后,所述方法還包括:
[0020] 對所述預設個等級進行排序。
[0021] 優選地,所述利用啟發式算法將所述原始規則集合劃分為正常規則集合和異常規 則集合,具體包括:
[0022] 步驟1 :分別計算所述原始規則集合中每個規則對應的交叉點的數量、等級差以 及每個規則的趨勢,其中,若兩條規則對應的等級是升降交叉關系,則兩條規則均存在交叉 點,等級差為同一學生的兩門課程的離散化成績數據之間的等級差的絕對值,規則的趨勢 包括同一學生兩門課程的離散化成績數據之間的等級的上升和下降;
[0023] 步驟2 :在所述原始規則集合中選取交叉點最多的規則加入到異常規則集合中, 如果集合中規則的交叉點相同,則在交叉點相同的規則中選擇等級差最大的規則加入到異 常規則集合中,如果集合中規則的等級差都相同,則選擇與大部分規則的趨勢相反的規則 加入到異常規則集合中,如果集合中規則的趨勢都相同,則選擇支持度最低的規則加入到 異常規則集合中;
[0024] 步驟3 :當有規則加入到異常規則集合時,再次執行步驟1,判斷剩余規則集合中 是否存在交叉點,若沒有,則跳轉到步驟4,否則再次執行步驟2。
[0025] 步驟4:遍歷異常規則集合,將任一個異常規則加入到正常規則集合中,如果所述 正常規則集合中不存在交叉點,那么繼續添加,如果存在交叉點,跳過該交叉點,如果存在 兩個異常規則都能使得正常規則集合繼續保持正常,且兩個異常規則同時加入正常規則集 合時會出現交叉點,則在所述兩個異常規則在選擇支持度高的規則加入正常規則集合中。
[0026] 優選地,所述根據所述異常規則的支持度的和與所述正常規則的支持度的和計算 兩門課程關聯度,具體公式如下:
[0027]
【權利要求】
1. 一種獲取課程關聯度的方法,其特征在于,所述方法包括: 將兩門課程的成績數據分別按照成績的分數劃分為預設的等級,得到兩門課程的離散 化成績數據; 將同一學生的兩門課程的離散化成績數據之間的等級關系生成對應的規則,計算每條 規則對應的支持度,提取支持度大于或等于預設閾值的規則,得到原始規則集合; 利用啟發式算法將所述原始規則集合劃分為正常規則集合和異常規則集合; 分別計算異常規則集合中對應的異常規則的支持度的和以及正常規則集合中對應的 正常規則的支持度的和,根據所述異常規則的支持度的和與所述正常規則的支持度的和計 算兩門課程關聯度。
2. 根據權利要求1所述的方法,其特征在于,在所述將兩門課程的成績數據分別按照 成績的分數劃分為預設個等級之前,所述方法還包括: 將兩門課程的成績數據按照統一標準進行數據歸一化處理,得到兩門課程的標準成績 數據。
3. 根據權利要求1或2所述的方法,其特征在于,規則對應的支持度的計算公式具體如 下: 支持度=規則對應的數量/規則集合的數量。
4. 根據權利要求1或2所述的方法,其特征在于,在所述將兩門課程的成績數據分別按 照成績的分數劃分為預設個等級之后,所述方法還包括: 對所述預設個等級進行排序。
5. 根據權利要求4所述的方法,其特征在于,所述利用啟發式算法將所述原始規則集 合劃分為正常規則集合和異常規則集合,具體包括: 步驟1 :分別計算所述原始規則集合中每個規則對應的交叉點的數量、等級差以及每 個規則的趨勢,其中,若兩條規則對應的等級是升降交叉關系,則兩條規則均存在交叉點, 等級差為同一學生的兩門課程的離散化成績數據之間的等級差的絕對值,規則的趨勢包括 同一學生兩門課程的離散化成績數據之間的等級的上升和下降; 步驟2 :在所述原始規則集合中選取交叉點最多的規則加入到異常規則集合中,如果 集合中規則的交叉點相同,則在交叉點相同的規則中選擇等級差最大的規則加入到異常規 則集合中,如果集合中規則的等級差都相同,則選擇與大部分規則的趨勢相反的規則加入 到異常規則集合中,如果集合中規則的趨勢都相同,則選擇支持度最低的規則加入到異常 規則集合中; 步驟3 :當有規則加入到異常規則集合時,再次執行步驟1,判斷剩余規則集合中是否 存在交叉點,若沒有,則跳轉到步驟4,否則再次執行步驟2。 步驟4:遍歷異常規則集合,將任一個異常規則加入到正常規則集合中,如果所述正常 規則集合中不存在交叉點,那么繼續添加,如果存在交叉點,跳過該交叉點,如果存在兩個 異常規則都能使得正常規則集合繼續保持正常,且兩個異常規則同時加入正常規則集合時 會出現交叉點,則在所述兩個異常規則在選擇支持度高的規則加入正常規則集合中。
6. 根據權利要求1所述的方法,其特征在于,所述根據所述異常規則的支持度的和與 所述正常規則的支持度的和計算兩門課程關聯度,具體公式如下:
其中,Sim表示關聯度,Sim值越小對應的關聯度越小,Sim值越大對應的關聯度越大,N表示正常規則集合,D表示異常規則集合,Support表示相應的規則集合中規則的支持度 和。
7. -種獲取課程關聯度的系統,其特征在于,所述系統包括: 數據離散化模塊,用于將兩門課程的成績數據分別按照成績的分數劃分為預設的等 級,得到兩門課程的離散化成績數據; 原始規則集合生成模塊,用于將同一學生的兩門課程的離散化成績數據之間的等級關 系生成對應的規則,計算每條規則對應的支持度,提取支持度大于或等于預設閾值的規則, 得到原始規則集合; 規則劃分模塊,用于利用啟發式算法將所述原始規則集合劃分為正常規則集合和異常 規則集合; 關聯度計算模塊,用于分別計算異常規則集合中對應的異常規則的支持度的和以及正 常規則集合中對應的正常規則的支持度的和,根據所述異常規則的支持度的和與所述正常 規則的支持度的和計算兩門課程關聯度。
8. 根據權利要求7所述的系統,其特征在于,所述系統還包括: 數據歸一化模塊,用于在將兩門課程的成績數據分別按照成績的分數劃分為預設個等 級之前,將兩門課程的成績數據按照統一標準進行數據歸一化處理,得到兩門課程的標準 成績數據。
9. 根據權利要求7或8所述的系統,其特征在于,規則對應的支持度的計算公式具體如 下: 支持度=規則對應的數量/規則集合的數量。
10. 根據權利要求7或8所述的系統,其特征在于,所述系統還包括: 等級排序模塊,用于在將兩門課程的成績數據分別按照成績的分數劃分為預設個等級 之后,對所述預設個等級進行排序。
【文檔編號】G06F19/00GK104484554SQ201410693920
【公開日】2015年4月1日 申請日期:2014年11月26日 優先權日:2014年11月26日
【發明者】高小鵬, 阮帥, 季書帆, 姜博, 萬寒, 龍翔 申請人:北京航空航天大學