一種多標簽學習資源關聯度定量計算方法
【專利摘要】本發明公開了一種多標簽學習資源關聯度定量計算方法,1)學習資源語義化模型的建立;2)學習資源的相似性、相關性評估;3)多標簽學習資源學習資源間相似度、相關度計算。本發明本文通過分析多知識點標引學習資源的結構特點,從學習資源間包含相同知識點的重合度計算相似度;從異同知識點間的語義、結構等屬性計算相關度,從而形成學習資源間的關聯度定量評估和計算方法,為學習資源的關聯分析和關聯檢索奠定了研究基礎。
【專利說明】
-種多標簽學習資源關聯度定量計算方法
技術領域
[0001] 本發明設及混凝±橋面板技術領域,更具體地說設及一種多標簽學習資源關聯度 定量計算方法。
【背景技術】
[0002] 本發明屬于關聯度評估及定量計算的一種方法,本專利主要設及對象為多知識點 標引的學習資源W及教育領域知識本體等。利用資源關聯度、相似性評估W及相關性評估 等方法,將教育領域中教材、習題集、試題、試卷、教學視頻、錄音等不同類型的資源,利用知 識點進行標注,通過分析多知識點標引學習資源的結構特點,從學習資源間包含相同知識 點的重合度計算相似度;從異同知識點間的語義、結構等屬性計算相關度,從而形成學習資 源間的關聯度定量評估和計算方法。
[0003] 隨著IT技術在教育教學領域中的廣泛應用,互聯網上積累了各種類型的數字化教 學資源,例如試題、試卷、錄音、動畫、教學視頻、課件等,形成了大小不一的各類教育教學資 源庫,但是現有的技術并未實現將運些資源進行高效的整合與相互關聯,而現有的研究主 要集中在本體概念、詞語、文本的相似度或相關度方面,關于知識點關聯度相關計算方法相 對匿乏。本文若要實現對多標簽學習資源關聯度定量計算,首先需要將學習資源的語義進 行建模,其次明確怎樣對學習資源的相似性、相關性進行評估,最后完成多標簽學習資源學 習資源間相似度、相關度計算。
【發明內容】
[0004] 為解決上述技術問題,本發明提供一種多標簽學習資源關聯度定量計算方法。
[0005] 為了實現上述技術目的,本發明采取如下技術方案:一種多標簽學習資源關聯度 定量計算方法,其特征在于:其計算方法如下: 1) 明確學習資源的多標簽屬性: 貝1J,其形式化描述為:7?= [{(知,瓜),(知,瓜),……,(缸,先)},缸年0] 其中:Ki表示資源R包含的知識點i;Ai表示知識點i在資源帥的權重; 2) 學習資源的語義建模: 將學習資源的語義建模框架分為學習資源層、語義描述層、教育本體層; 其中,語義描述層對學習資源的語義信息進行了描述,是對跨媒體形態的異構學習資 源的抽象; 教育本體層描述了教育領域中固有的概念W及概念之間的關聯; 給定本體庫的關系集合巧日知識點集合片不失一般性,對任意關系C形成的有向無環 圖,可表示為知化Ce),其中Aj, fe,…,AwG偽本體知識結點,<缸,仁〉G Cc為本體知識 結點i和J之間的關系屬性; 當兩個知識點間直接關聯時,兩者之間的路徑可W表示為: path(Cc,缸,Aj')=< 缸,仁'〉,其中,< 缸,仁'〉GCc; 當兩個知識點間接關聯時,兩者之間的路徑可W表示為: 恥 ki, kn)二 <ki, h,---, kn>,其中 <ki, h〉,<k2, ks〉,…,<kn-i, kn>ECc; 3) 相似性評估: 學習資源的相似性評估,從形式化上,多知識點標簽表現為學習資源模型的分量,兩 個學習資源在多知識點標簽上的"重合"部分,即相同知識點,直接預示了學習資源之間在 內容上的語義相似性,用集合Ke表示;另一方面,相同知識點的A?分量部分,則進一步體現了 對應知識點對學習資源的權重; 其中,學習資源相似性計算公式如下: SinAri,r2)二 Simeiri,r2) * Weieiri,r2) 其中,況化(17,〇)£[0,1]表示相同知識點的數目占總標注知識點數目的比例;/^立6 (17,〇) G [0,1],表示相同知識點在總標注資源中的綜合權重; 4) 相關性評估: 將從資源間異同知識點在本體庫中保持直接關聯關系及間接關聯關系兩個方面計算 學習資源相關度,計算公式如下: Rel(ri,r2)二 Rel(Kdi而2) 其中,TfeJ體yj,估?;G [0,1]表示基于異同知識點標簽的語義相關度; 5) 多標簽學習資源的相似度計算: 相同知識點占總標注知識點比例的資源相似度計算如下:
其中,化btm幼資源n與n相同知識點的個數掀舶班錯為資源ri與含所有知 識點個數。
[0006] 知識點對資源的權重,假設(心片,)為標注資源n與O相同知識點對,并且片在資 源n與O中的權重為(兒,兒),則資源中相同知識點的綜合權重相計算如下:
其中,W(勒表示資源n與r沖相同知識點的編號。
[0007] 6)多標簽學習資源的知識點間相關度計算: 多標簽學習資源的相關度,考察資源間異同知識點在知識點本體庫中的相關程度; 對教育領域知識本體庫O及關系集巧日知識點集片知識點片和相關度計算存在兩種 情況,分別為缸和存在直接關聯和存在間接關聯; 7)學習資源間相關度計算: 對于多知識點標簽資源n和通過映射知識點的相關度到資源間的相關度,映射公 式如下:
其中,尼為僅在資源r域r沖標注的知識點集;函數distO定義知識點標簽心,W和心心 的語義距離,用歐氏距離公式計算。 r 00081 而傘n維向冨 r'化1 1 k" , kin)與 n 化21 , k22 , , k2n)間的歐氏距離:c/j.st=
進一步地,步驟6的直接關聯和間接關聯計算如下:其中{( Ai E爲or(Aj' EKd2, kiEKeUKdiYU (I)直接關聯,即$path(Cc,Ai,Aj') 當知識點<缸,直接關聯,即$path (Ce,缸,仁')=<缸,仁〉ECe;
函數,缸,Aj)描述在特定的關系條件 下,兩知識本體之間的關聯度;由于不同的關系的語義含義的差別,函數7?6山心,片,A,)的定 義也會不同; 首先定義Afe tajR/(A)函數如下: MetaKUiCc,k) = {<k,ki~> \ SpathiCc,k,ki) MmiCc,ki)=Q A<k,k/> E Ce) 其中,0D(Cc,A)表示知識本體A的度; 對于不同的語義關系,計算公式為:
公式中,湯為衰減系數。當C分別為蘊含、層次、兄弟、依賴關系時,參數湯取0.8、0.85、 0.9、0.95,W保證知識點間路徑擴散到3條后,仍然有0.5、0.6、0.7、0.8 W上的相關度。
[0009] (2)間接關聯,即$path(仿,缸,Aj') 當知識點缸,間接關聯;$path(Ge,缸,仁〇=<缸,缸4,..?,心。,心。4,..?,仁W,仁〉,其中 ^ki, ki+i〉,…,^ki+ti, ki+ti+i〉,…,^kj-I, kjy E Ce; 公式中貨%知識本體最大路徑長度,mJ'nU)為知識點缸,在知識本體庫中的最短路徑 長度。
[0010] 本發明的技術特點和效果為:學習資源語義化模型的建立; 學習資源所蘊含的知識點之間存在復雜的關聯,此外,學習資源具有海量、獨立和變化 快等特點,無法從資源層面有效描述資源間的關聯關系,因此,需要將學習資源的語義進行 建模。本文學習資源的語義模型框架分為學習資源層、語義描述層、教育本體層3個部分。 [001。 1、學習資源的相似性、相關性評估; 對于學習資源,兩個概念在詞形、語義上可能完全不同,即沒有公共特性,但是在實際 應用中,常常由于兩者是關聯出現或具有外在聯系,兩者之間是相關的。所W在計算過程 中,除了考慮上下位關系外,還應對其他類型進行考慮,故需要對學習資源的相似性、相關 性評進行估。
[001^ 2、多標簽學習資源學習資源間相似度、相關度計算。
[0013]根據領域本體的相關理論和方法,教育領域的知識點、知識體系可W形成教育領 域知識本體。教育領域的知識體系的內部結構特點,W及知識點之間存在的各類關聯關系, 則為知識點間的相似性和相關性評估方法的設計提供了思路。因此結合教育領域知識本 體,研究多標簽學習資源的關聯度評估方法,具有重要意義。
[0014] 本文通過分析多知識點標引學習資源的結構特點,從學習資源間包含相同知識點 的重合度計算相似度;從異同知識點間的語義、結構等屬性計算相關度,從而形成學習資源 間的關聯度定量評估和計算方法,為學習資源的關聯分析和關聯檢索奠定了研究基礎。
【附圖說明】
[0015] 圖1是本發明學習資源語義化模型結構圖。
[0016] 圖2是本發明知識本體庫的結構圖。
[0017] 圖3本發明資源相關度考察對象的結構圖。
【具體實施方式】
[0018] 為了使本發明的目的、技術方案及優點更加清楚明白,W下結合附圖及實施例,對 本發明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用W解釋本發明,并 不用于限定本發明。
[0019] 請參照圖1,本發明提供本專利的目的是將互聯網上積累的各種類型的數字化教 學資源,例如試題、試卷、錄音、動畫、教學視頻、課件等具體相似知識點的資源進行關聯,希 望最大程度的衡量學習資源的內涵,同時為定量刻畫學習資源之間的關聯程度提供依據。
[0020] 本專利的計算方法步驟如下: 第一步:明確學習資源的多標簽屬性。
[0021] 為了明確該學習資源與知識點在語義內容上的關聯程度,給教師、學生提供個性 化的學習服務及資源的關聯檢索。但學習資源蘊含了一個或者多個知識點,因此,為了有 效、準確傳遞學習資源的知識蘊含信息,往往需要對學習資源進行標引,運時,學習資源便 具有了多標簽屬性。
[0022] 鑒于此,本文提出了多知識點標簽的學習資源的概念,其形式化描述為: R= [{( ki, Ai),{ k2, A2),......,(仁,先)},仁年 0] 其中:斯隸示資源施含的知識點i;先隸示知識點i在資源7?中的權重(知識點在資源中 的重要程度在本文稱為權重)。
[0023] 第二步:學習資源的語義建模。
[0024] 學習資源所蘊含的知識點之間存在復雜的關聯,此外,學習資源具有海量、獨立和 變化快等特點,無法從資源層面有效描述資源間的關聯關系,因此,將學習資源的語義建模 框架分為學習資源層、語義描述層、教育本體層3個部分,如圖1左部所示。其中,語義描述層 對學習資源的語義信息進行了描述,是對跨媒體形態的異構學習資源的抽象,具體描述形 式如圖1右部所示。教育本體層描述了教育領域中固有的概念W及概念之間的關聯。
[0025] 給定本體庫的關系集合巧日知識點集合片不失一般性,對任意關系C形成的有向無 環圖,可表示為&=化Ce),其中Aj,杉,…,Awg偽本體知識結點,<仁,G Cc為本體知 識結點i和J之間的關系屬性。
[0026] 當兩個知識點間直接關聯時,兩者之間的路徑可W表示為: ki, kj)=< ki, kj >,某中,< ki, kj >ECc', 當兩個知識點間接關聯時,兩者之間的路徑可W表示為: 恥 ki, kn)二 <ki, h,---, kn>,其中 <ki, h〉,<k2, ks〉,…,<kn-i, kn>ECc', 第=步:相似性評估。
[0027] 學習資源的相似性評估,從形式化上,多知識點標簽表現為學習資源模型的仁'分 量。兩個學習資源在多知識點標簽上的"重合"部分,即相同知識點,直接預示了學習資源之 間在內容上的語義相似性,用集合Ke表示;另一方面,相同知識點的A?分量部分,則進一步體 現了對應知識點對學習資源的權重。
[0028] 依據上述討論,學習資源相似性計算公式如下: SinAri,r2)二 Simeiri,r2) * Weieiri,r2) 其中,況化(17,〇)£[0,1]表示相同知識點的數目占總標注知識點數目的比例;/^立6 (17,〇) G [0,1],表示相同知識點在總標注資源中的綜合權重。
[0029] 第四步:相關性評估。
[0030] 學習資源的相關性評估,重點從資源間不同知識點間的語義相關度進行計算。
[0031] 從形式化上,學習資源之間在上的"非重合"部分,實際也可能存在間接的語義 關系,運種關系可通過教育領域知識本體庫進行本體推理而計算出來,用集合估表示。
[0032] 學習資源本體庫中,學習資源之間的關聯關系,顯性給出了學習資源之間的關聯 性及其關聯的定量程度,可W用于學習資源關聯度的衡量。
[0033] 本文將從資源間異同知識點在本體庫中保持直接關聯關系及間接關聯關系兩個 方面計算學習資源相關度,計算公式如下: Rel(ri,r2)二 Rel(Kdi而2) 其中,TfeJ體yj,估?;G [0,1]表示基于異同知識點標簽的語義相關度。
[0034] 第五步:多標簽學習資源的相似度計算。
[0035] 相同知識點占總標注知識點比例的資源相似度計算如下:
其中,化1為資源打與O相問知識點的個數,刃資源rj與1:?包曾所有知識點個數。
[0036] 知識點對資源的權重,假設(片,片,)為標注資源n與O相同知識點對,并且片在資 源n與O中的權重為(兒,兒),則資源中相同知識點的綜合權重相計算如下:
其中,ic/(載)表不資源n與O中相問知識點的編號。
[0037] 第六步:多標簽學習資源的知識點間相關度計算 多標簽學習資源的相關度,考察資源間異同知識點在知識點本體庫中的相關程度。
[003引對教育領域知識本體庫O及關系集巧日知識點集片知識點仁和仁相關度計算存在兩 種情況,分別為和仁存在直接關聯和存在間接關聯。現將兩種情況的計算方法總結如下, 其啼 WkiEKdi, kjEKeUKd2)w[kjEKd2, kiEKeUKdiVU (I)直接關聯,即$path(Cc,仁,仁') 當知識點<仁,直接關聯,即$pa1:h(Cc,仁,Aj') 二, kj〉ECe;
)函數,片,Aj)描述在特定的關系條件 下,兩知識本體(主要是知識點)之間的關聯度。由于不同的關系的語義含義的差別,函數 TfeJck,缸,仁?)的定義也會不同。
[0039] 首先定義#6(3足£/(0函數如下: Me化 KlKCc,k) = {<k,ki'>\%path(Cc,k,ki) ;\m(Cc,ki)=Q;\<k, ki>ECc} 其中,0D(Cc,A)表示知識本體A的度。
[0040] 對于不同的語義關系,計算公式為:
公式中,湯為衰減系數。當C分別為蘊含、層次、兄弟、依賴關系時,參數湯取0.8、0.85、 0.9、0.95,W保證知識點間路徑擴散到3條后,仍然有0.5、0.6、0.7、0.8 W上的相關度。
[0041 ] (2)間接關聯,即$path(仿,仁,Aj') 當知識點仁,Aj'間接關聯;$path(Gc, Ai,仁')=< Ai,Aiw,...,Ai+。,Aiwj,...,Ajw, kj〉,英奪處i,ki+i〉,...,^ ki+ti, ki+ti+i〉,...,處ECcoiVd) 公式(10)中貨%知識本體最大路徑長度,mJ'nU)為知識點Ai,仁在知識本體庫中的最短 路徑長度。
[0042]第屯步:學習資源間相關度計算 對于多知識點標簽資源n和r?,通過映射知識點的相關度到資源間的相關度,映射公 式如下:
其中,枯為僅在資源n或中標注 的知識點集;函數dist()定義知識點標簽心,W和心,的語義距離,用歐氏距離公式計算。 [00創兩個n維向量打化ll,kl2,…,kin)與n化21,k22,…,k2n)間的歐氏距離:
O
[0044] 因此本發明1、為了有效、準確傳遞學習資源的知識蘊含信息,往往需要對學習資 源進行標引,學習資源便具有了多標簽屬性。本文提出了多知識點標簽的學習資源的概念。
[0045] 2、學習資源所蘊含的知識點之間存在復雜的關聯,此外,學習資源具有海量、獨立 和變化快等特點,無法從資源層面有效描述資源間的關聯關系,因此,本文將學習資源的語 義建模框架分為學習資源層、語義描述層、教育本體層3個部分,并給出模型圖。具體從資源 層面有效描述資源間關聯關系。
[0046] 3、針對知識點間接、直接關聯時,給出路徑表示方法。
[0047] 4、從多標簽學習資源自身特點出發,相似性計算重點考慮資源間包含相同知識點 的個數和相同知識點在兩個資源中的權重;相關度計算重點考慮資源間異同知識點間的關 耳關關系。
[0048] 5、面對不同知識點,考察資源間異同知識點在知識點本體庫中的相關程度(包括 直接關聯和間接關聯)。
[0049] 6、面對不同學習資源,對多知識點標簽資源n和通過映射知識點的相關度到資 源間的相關度,進行學習資源間相關度計算。
[0050] 正確評估學習資源的關聯度,主要從資源的相似度和相關度入手,在實際應用中 具有廣泛的應用前景。本文在了解教育領域本體庫和學習資源本體描述模型的基礎下,面 向學習資源查詢與檢索、個性化推薦W及資源庫的更新維護等應用場景,研究了學習資源 的多知識點標引形式,詳細分析了影響學習資源相似性和相關性的主要因素,提出了基于 多知識點標簽綜合評價學習資源間的相似度和相關度的方法,并給出了相應的定量計算公 式。運些計算公式嚴格依據客觀數據進行推理計算,從而使得計算的主觀性大大減少,提高 了計算的準確性。
[0051] 其中,學習資源的標注結果如下 學習資
部分教育領域的知識本體的關系屬性定義
W上所述僅為本發明的較佳實施例而已,并不用W限制本發明,凡在本發明的精神和 原則之內所作的任何修改、等同替換和改進等,均應包含在本發明的保護范圍之內。
【主權項】
1. 一種多標簽學習資源關聯度定量計算方法,其特征在于:其計算方法如下: 1) 明確學習資源的多標簽屬性: 貝1J,其形式化描述為:友=[{(幻,A),( Λ?),......,(女i, A')},fc'在0] 其中:K i表示資源R包含的知識點i ; A i表示知識點i在資源R中的權重; 2) 學習資源的語義建模: 將學習資源的語義建模框架分為學習資源層、語義描述層、教育本體層; 其中,語義描述層對學習資源的語義信息進行了描述,是對跨媒體形態的異構學習資 源的抽象; 教育本體層描述了教育領域中固有的概念以及概念之間的關聯; 給定本體庫的關系集合αρ知識點集合a不失一般性,對任意關系c形成的有向無環 圖,可表示為&=U,Cc),其中女1,權…,l/i/e偽本體知識結點,<fc·,為本體知識 結點i和J之間的關系屬性; 當兩個知識點間直接關聯時,兩者之間的路徑可以表示為: pathlCc, ki,kj)=〈 ki,kj >,其中,〈ki,kj ~>已 C。·, 當兩個知識點間接關聯時,兩者之間的路徑可以表示為: pathXGc,ki,kn) = <ki,k2,···,kn〉,實中<ki,k2>,<k2,k3>,…入 kn-i,kt^ECc·, 3) 相似性評估: 學習資源的相似性評估,從形式化上,多知識點標簽表現為學習資源模型的h分量,兩 個學習資源在多知識點標簽上的"重合"部分,即相同知識點,直接預示了學習資源之間在 內容上的語義相似性,用集合Ke表示;另一方面,相同知識點的兒分量部分,則進一步體現了 對應知識點對學習資源的權重; 其中,學習資源相似性計算公式如下: Sim(n,r2) = Sime(ri,r2) * Weie(ri,r2) 其中,5?/^(η,e [〇,1 ]表示相同知識點的數目占總標注知識點數目的比例;;feie (ri,ri?) e [〇,1],表示相同知識點在總標注資源中的綜合權重; 4) 相關性評估: 將從資源間異同知識點在本體庫中保持直接關聯關系及間接關聯關系兩個方面計算 學習資源相關度,計算公式如下: Rel(ri,r2) = Rel(Kdi,Kd2) 其中,[〇, 1]表示基于異同知識點標簽的語義相關度; 5) 多標簽學習資源的相似度計算: 相同知識點占總標注知識點比例的資源相似度計算如下:其中,i?Co u/3 ?為資源r 1與相同知識點的個數,為資源ri與包含所有知 識點個數; 知識點對資源的權重,假設(fc,fc,)為標注資源?與β相同知識點對,并且幻在資源ri與 β中的權重為(兒,兒,),則資源中相同知識點的綜合權重相計算如下:其中,ic/( A)表示資源D與β中相同知識點的編號; 6)多標簽學習資源的知識點間相關度計算: 多標簽學習資源的相關度,考察資源間異同知識點在知識點本體庫中的相關程度; 對教育領域知識本體庫0及關系集_知識點集Α知識點MPb相關度計算存在兩種情 況,分別為h和b存在直接關聯和存在間接關聯; 7 )學習資源間相關度計算: 對于多知識點標簽資源D和β,通過映射知識點的相關度到資源間的相關度,映射公式 如下:其中Α為僅在資源?或r沖標注的知識點集;函數dist()定義知識點標簽和心^ 的語義距離,用歐氏距離公式計算; 兩個η維向量_T2(kii,ki2,…,kin)與(k2i,k22,…,k2n)間的歐氏距離:c/is2.根據權利要求1所述的一種多標簽學習資源關聯度定量計算方法,其特征在于:步驟 6的直接關聯和間接關聯計算如下:其中{ Ui ^兄/1,幻(島· e幾β, h el U Kdl)}·. (1) 直接關聯,即$path(Cc,fc',Aj') 當知識點<fc',島'>直接關聯,即$path(Cc,fc',島')=〈fc,島'> ECc; TtWKfc·,D=島'))函數島')描述在特定的關系條件下, 兩知識本體之間的關聯度;由于不同的關系的語義含義的差別,函數幻)的定義 也會不同; 首先定義函數如下: Me taKU{ Cc,k) = { <k, ki> \ %path(Cc,k,ki) A〇O(Cc,ki)=0 A<k, ki? e Cc\ 其中,OD(G,幻表示知識本體礎勺度; 對于不同的語義關系,計算公式為:公式中,f為衰減系數; 當c分別為蘊含、層次、兄弟、依賴關系時,參數遂取0.8、0.85、0.9、0.95,以保證知識點 間路徑擴散到3條后,仍然有0.5、0.6、0.7、0.8以上的相關度; (2) 間接關聯,即Spathl;^,^,^ 當知識點Uj'間接關聯;$path ((?c,Uj')=〈女i,fc'+i,…,女如,女如+2,…,Ajw,Aj'>,其中 ^ki, ki+iy, * * *, ^ki+n, ki+n+iy j * * * j ^kj-i, kjy ^Cc X 公式中沒為知識本體最大路徑長度,《i/3( I)為知識點hh在知識本體庫中的最短路徑 長度。
【文檔編號】G06F17/30GK105956144SQ201610314413
【公開日】2016年9月21日
【申請日】2016年5月13日
【發明人】吳雷, 阮懷偉, 昌磊, 孫智驍
【申請人】安徽教育網絡出版有限公司