一種基于irt的自適應在線測評系統及其方法
【專利摘要】本發明公開了一種基于IRT的自適應在線測評系統,該在線測評系統包括:測評題庫組建模塊、在線測試模塊和統計分析模塊;測評題庫組建模塊用于收集試題信息建立測評題庫,根據不同的篩選規則從測評題庫中輸出測試試卷;在線測試模塊用于根據測試試卷進行包含基于IRT自適應在線測試在內的多種測試,并自動生成測試數據,該基于IRT自適應在線測試為基于兩級記分模型進行的動態自適應在線測試;統計分析模塊用于根據測試數據及預置的評分標準自動統計結果并生成評價報告。本發明還公開了一種基于IRT的自適應在線測評方法。
【專利說明】一種基于IRT的自適應在線測評系統及其方法
【技術領域】
[0001]本發明涉及在線測評技術,特別涉及一種基于IRT的自適應在線測評系統及其方法。
【背景技術】
[0002]傳統的紙筆測評已經不能滿足教學測評的需求,不能正確的反應學生們的知識掌握和認知情況。隨著項目反應理論(IRT)的發展,基于IRT的計算機自適應測評技術越來越受到關注和推崇,尤其是計算機和網絡技術的成熟發展,為基于IRT的計算機自適應測評提供了發展的基礎條件,更加推動了基于IRT的計算機自適應測評在教育領域的發展。
[0003]傳統的測評技術是由專家將標準的測試試題根據測量群體對像估算難易度,將試題組合成預估的區分度試卷來給測量對像進行測量,根據測量結果來判別該試卷針對測量群體的測量信度。如果信度不可靠,則不能對測量結果進行評價,因為評價毫無意義。如果是可靠的信度范圍內,專家評價才有指導意義。為了解決傳統的測評技術與人為預估測量基礎的誤差,提高測量數據的精準程度,所以在這里引進了基于IRT理論與計算機相結合應用的自適應測評技術。
[0004]與CTT理論和GT理論相比,IRT具有以下優點:
[0005]首先介紹下IRT (Item Response Theory, IRT)理論與其它理論相比具有哪些優
點.[0006]第一,項目反應理論深入測驗的微觀領域,將被試特質水平與被試在項目上的行為關聯起來并將其參數化,模型化,是通過統計調整控制誤差的最好方法。若模型成立并且項目參數均已知,則模型在測驗中為項目性質調整數據,可生成獨立于測驗項目性質的特質水平測量,這是項目反應理論建立項目反應模型的最大優點。也就是通常所說的被試能力估計不依賴于測驗項目的特殊選擇。
[0007]第二,IRT模型項目參數的估計獨立于被試樣本。項目特征曲線是被試作答正確的概率對其潛在特質水平的回歸。而回歸曲線并不依賴于回歸變量本身的次數分布。對于項目反應函數來說,已知特質水平面為Θ O的被試在項目上正確作答的概率僅僅依賴于其值Θ0,并不依賴于具有Θ O水平的人數有多少,也不依賴于其它Θ取值上的人次數。所以,在求取項目特征曲線的各種參數時,由于回歸線的形狀、位置都不依賴于被試的分布,所以它的參數,包括難度、區分度和猜測參數也都是不變的。
[0008]第三,IRT是能力參數與項目難度參數的配套性,亦即項目難度參數與能力參數是定義在同一個量表上的。這樣,對一個能力參數已知的被試,配給一個項目參數已知的試題,我們可以立刻通過模型預測被試正確作答的概率。如果估出被試的能力,我們可以在題庫中選出難度與其能力相當的項目進行新一輪的測試,使得能力估計更為精確。這一特點為自適應測評奠定了基礎。
[0009]第四,IRT是通過模型測得的被試能力水平,可以精確估計其測量誤差。這一優良特性得益于伯恩鮑姆的工作。他把費嘯的描寫測驗信息結構的測度引進了項目反應模型。他提出的在項目反應模型下,能力參數未定的被試在η個測驗項目上的信息測度公式由后文給出。
[0010]IRT理論與計算機應用結合測評技術介紹:
[0011]測試(measurement and test)是測量與試驗的概括,是人們借助于一定的裝置,獲取被測對象有相關信息的過程。測試包含兩方面的含義:一是測量,指的是使用測試裝置通過實驗來獲取被測量的量值;二是試驗,指的是在獲取測量值的基礎上,借助于人、計算機或一些數據分析與處理系統,從被測量中提取被測量對象的有關信息。測試分為動態測試和靜態測試。如果被測量不隨時間變化,稱這樣的量為靜態量,相應的測試成為靜態測試,反之為動態測試。
[0012]測評是把測試的結果予以客觀的評價,用客觀統一的標準述語評價從而站在實事求是的測試數據基礎上客觀科學的評述,并給出健康且有建設性的建議作為參考,進而有方向的改善測試對象。
[0013]當前,測量理論分經典測量理論、概化理論和項目反應理論三大類,或稱三種理論模型。
[0014]真分數理論是最早實現數學形式化的測量理論。它從十九世紀末開始興起,二十世紀30年代形成比較完整的體系而漸趨成熟。50年代格里克森的著作使其具有完備的數學理論形式,而1968年洛德和諾維克的《心理測驗分數的統計理論》一書,將經典真分數理論發展至顛峰狀態,并實現了向現代測量理論的轉換。所謂真分數是指被測者在所測特質(如能力、知識、個性等)上的真實值,即(True Score)真分數。而我們通過一定測量工具(如測驗量表和測量儀器)進行測量,在測量工具上直接獲得的值(讀數),叫觀測值或觀察分數。由于有測量誤差存在,所以,觀察值并不等于所測特質的真實值,換句話說,觀察分數中包含有真分數和誤差分數。
[0015]凡測量都有誤差,誤差可能來自測量工具的不標準或不適合所測量的對象,也可能來自工具的使用者沒有掌握要領,也可能是測量條件和環境所造成,也可能是測量對象不合作所引起。總之產生測量誤差的原因是多種多樣的,而CTT理論僅以一個E就概括了所有的誤差,并不能指明哪種誤差或在總誤差中各種誤差的相對大小如何。這樣對于測量工具和程序的改革沒有明確的指導意義,只能根據主試自己的理解去控制一些因素,針對性并不強。鑒于此種情況,二十世紀六十至七十年代初,克倫巴赫(Cronbach)等人提出了概化理論(Generalizability Theory)簡稱 GT 理論。
[0016]GT在研究測量誤差方面有更大的優越性,它能針對不同測量情境估計測量誤差的多種來源,為改善測驗,提高測量質量有用的信息。其缺陷是統計計算相當繁雜,如果借助一些統計分析軟件可以解決這一問題。GT理論目前在我國還處于實驗研究階段,在面試、考核等主觀性測評中有一些應用。
[0017]無論是CTT還是GT,其測驗內容的選擇、項目參數的獲得和常模的制定,都是通過抽取一定的樣本(行為樣本或被試樣本),因此可以說二者都建立在隨機抽樣理論基礎之上。它們的局限性主要表現在以下四個方面:
[0018]I)測量結果的應用范圍有限。一般來說,對測量誤差的控制有三種方法:配對或標準化、隨機化、統計調整。配對或標準化技術的應用使得誤差變量的影響不能解釋測量結果的差異,隨機化技術的應用可使誤差變量的影響不能在測量結果上形成系統誤差。統計調整技術建立在數學模型基礎上,將誤差變量的影響參數化,從而在測量中調整參數估計值,減少誤差變量的影響。經典測驗理論主要應用的是配對或標準化技術和隨機化技術。然而,使用配對或標準技術的測量結果僅僅能在相同的測量條件下成立,卻不能將其拓展到非標準化的環境之中去,使得測量的應用受到很大的限制。
[0019]2)測量分數依賴于具體的測驗(內容)。經典測量理論控制誤差應用標準化技術,但其標準化的對象是測驗的各種外部變量,對測驗的內部變量即測驗的項目的“性質”這一變量卻沒有也不可能實現標準化。這就造成了測驗分數對具體測驗的依賴性,迫使經典測驗理論要么使用統一的試卷,要么使用實際上并不平行的所謂“平行試卷”。這種處理方法,即給實際操作帶來困難,也給結果的解釋帶來較大的誤差。
[0020]3)測量參數依賴于被試樣本。經典測量理論構造了一個完整的理論體系,同時設計了一套參數指標來刻劃測量各方面的特性。如測驗的信度、效度、項目的難度、區分度等。但是這些參數的估計對樣本的依賴性是很大的。測驗的信度和效度采用相關分析法,同樣受到樣本的影響。為避免抽樣誤差對參數估計的影響,經典測量理論特別強調樣本對總體的代表性。但經典理論所應用的是隨機抽樣,隨機抽樣總是偏差存在。何況在實際工作中,由于客觀條件的限制,還不能做到隨機抽樣。因此,參數估計值對樣本的依賴性使得所估參數對測驗的分析的價值是有限的。
[0021]4)信度估計的精確性不高。測量的重要目標就是降低測量誤差,提高測量的精度。在經典測量理論中,信度被定義為真分數的變異在總變異(觀測分數)中所占的比例。然而,真分數的方差是 無法求取的,誤差的方差也無法計算。為了估計信度,CTT就提出了平行測驗的概念,并在此基礎上推演出了若干個信度估計公式。但是嚴格的平行測驗是不存在的,等價測驗也很難獲得的,在此基礎上估計的測驗信度很難達到比較高的精確程度。另外,經典測量理論中的信度估計值也是一個籠統值,即假定對不同能力水平的被試來說,測量的誤差是相同的。而事實是,一份測驗只有在施測于能力水平與測驗難度相當的被試時容易獲得比較高的測量精確度。當測驗施測于能力水平高于(或低于)測驗難度的被試時就容易產生較大的測量誤差。而且測量誤差值會隨著被試水平與測驗難度距離的增加而變大。
[0022]現有的傳統測評技術一般是基于CTT或GT來進行測試,然后以測試結果進行評價。既然是基于CTT或GT,那就會有CTT或GT存在的缺點。
[0023]任何一種理論都不可能是完美無缺的,作為測量初期發展起來的理論更是不可避免地存在著一些缺陷。項目反應理論則是在反對和克服傳統測量理論的不足之中發展起來的一種現代測量理論。
[0024]傳統的測評技術基于上述的局限性,所以測試出來的結果會存在誤差。而本技術(基于IRT的自適應在線測評技術)則是基于最新興起的IRT理論加現有的計算機與網絡應用相結合的技術彌補在傳統測評技術上的不足,提高了在測試結果上的精確度,科學、標準、精確的依椐最接近真實的并且最小的誤差測試對結果進行評價,得到我們最優的評述?艮告。
【發明內容】
[0025]本發明所要解決的技術問題在于提供一種基于IRT的自適應在線測評系統及其方法,以克服現有技術中的在線測評系統存在的依賴性高,精度低的問題。[0026]為達上述目的,本發明提供了一種基于IRT的自適應在線測評系統,其特征在于,所述在線測評系統包括:
[0027]測評題庫組建模塊:用于收集試題信息建立測評題庫,根據不同的篩選規則從所述測評題庫中輸出測試試卷;
[0028]在線測試模塊:用于根據所述測試試卷進行包含基于IRT自適應在線測試在內的多種測試,并自動生成測試數據,所述基于IRT自適應在線測試為基于兩級記分模型進行的動態自適應在線測試;
[0029]統計分析模塊:根據所述測試數據及預置的評分標準,自動統計結果,生成評價報
生口 ο
[0030]上述基于IRT的自適應在線測評系統,所述兩級記分模型包括:單參數Logistic模型和兩參數Logistic模型。
[0031]上述基于IRT的自適應在線測評系統,其特征在于,所述在線測試模塊還包括:
[0032]IRT自適應在線測試模塊:用于根據預置的試卷參數動態的根據當前個人能力值,在線動態抽取試題進行測試;
[0033]上述IRT自適應在線測試模塊還包括:
[0034]初始化模塊:用于進行考生的初始化設置,形成電子試題;
[0035]當前個人能力值估計模塊:根據考生初步測試完成預定答題數量的情況,采用EAP (Effect Assessment Put in practice:實施效果評估)方法評估當前個人能力值;
[0036]精確估計模塊:以所述當前個人能力值作為起點值,每完成一道試題進行一次所述兩級記分模型方法精確評估當前個人能力值,根據所述當前個人能力值,動態選取下一道測試試題,當所述當前個人能力值發生收斂時,以當前個人能力值作為當前自適應測試的個人能力值;
[0037]分數顯示模塊:將所述當前自適應測試個人能力值轉換為標準的個人能力分,提
供給考試。
[0038]上述基于IRT的自適應在線測評系統,其特征在于,所述測評題庫模塊還包括:
[0039]試題信息收集模塊:用于對試題信息進行管理,建立所述測評題庫;
[0040]子題庫管理模塊:用于將所述測評題庫劃分為相互關聯的多個子題庫,試題通過審核后進入不同的子題庫,生成測試試卷,所述子題庫包括:新題題庫、優良題庫、模擬題庫、作業題庫和錨題題庫;
[0041]篩選試卷模塊:根據所述不同的篩選規則生成最終面向測試對象的測試試卷,所述篩選規則包括:測試專家預置規則、是否等值評比分析和是否手動組卷;
[0042]所述子題庫管理模塊還包括:
[0043]作業題庫模塊:用于將任課教師所出的試題,存入所述作業題庫;
[0044]新題題庫模塊:用于將命題專家所出的試題,存入所述新題題庫;
[0045]模擬題庫模塊:用于將所述新題題庫和所述作業題庫中的試題經過挑選審核后進入所述模擬題庫;
[0046]優良題庫模塊:用于將所述模擬題庫中的試題經過多次模擬測試后,根據考生答題情況生成統計信息,選擇所述模擬題庫中的考題進入所述優良題庫;
[0047]錨題題庫模塊:用于命題專家從所述優良題庫中選取優秀級別的試題進入所述錨題題庫。
[0048]上述基于IRT的自適應在線測評系統,所述在線測試模塊還包括:
[0049]考務管理模塊:用于根據收集導入的考生信息創建測試信息,并根據所述測試信息將測試與測試試卷關聯,并進行考生考務管理和監考管理;
[0050]在線測試與練習模塊:用于根據所述作業題庫進行課后練習、根據所述模擬題庫進行模擬測試和根據預先設置的固定考卷進行的傳統在線測試;
[0051]考生答題結果評閱模塊:用于對考試的答題結果進行自動評分或根據預先設置的評分標準進行人工評分,得出最終標準得分;
[0052]基礎數據管理模塊:用于管理和維護多種基礎數據信息;
[0053]成績與積分管理模塊:用于管理測試成績相關數據;
[0054]問卷調查模塊:用于對考生進行影響學習因素的調查。
[0055]上述基于IRT的自適應在線測評系統,所述統計分析模塊還包括:
[0056]教研分析模塊:用于進行教研信息分析,并生成教研分析報告;
[0057]教學分析模塊:用于進行教學信息分析,并生成教學分析報告;
[0058]學業分析模塊:用于進行學業信息分析,并生成學業分析報告。
[0059]本發明還一種基于IRT的自適應在線測評方法,采用如所述基于IRT自適應在線測評系統,所述在線測評方法包括:
[0060]測評題庫建立步驟:用于收集試題信息建立測評題庫,根據不同的篩選規則從所述測評題庫中輸出測試試卷;
[0061]在線測試步驟:用于根據所述測試試卷進行包含基于IRT自適應在線測試在內的多種測試,并自動生成測試數據,所述基于IRT自適應在線測試為基于兩級記分模型進行的動態自適應在線測試;
[0062]統計分析步驟:根據所述測試數據及預置的評分標準,自動統計結果,生成評價報
生口 ο
[0063]上述基于IRT的自適應在線測評方法,其特征在于,所述在線測試步驟還包括:
[0064]IRT自適應在線測試步驟:用于根據預置的試卷參數動態的根據當前個人能力值,在線動態抽取試題進行測試。
[0065]考務管理步驟:用于根據收集導入的考生信息創建測試信息,并根據所述測試信息將測試與測試試卷關聯,并進行考生考務管理和監考管理;
[0066]在線測試與練習步驟:用于根據所述作業題庫進行課后練習、根據所述模擬題庫進行模擬測試和根據預先設置的固定考卷進行傳統在線測試;
[0067]考生答題結果評閱步驟:用于對考試的答題結果進行自動評分或根據預先設置的評分標準進行人工評分,得出最終標準得分;
[0068]基礎數據管理步驟:用于管理和維護多種基礎數據信息;
[0069]成績與積分管理步驟:用于管理測試成績數據;
[0070]問卷調查步驟:用于對考生進行影響學習因素的調查;所述IRT自適應在線測試步驟還包括:
[0071]初始化步驟:用于進行考生的初始化設置,形成電子試題;
[0072]當前個人能力值估計步驟:根據考生初步測試完成預定答題數量的情況,采用EAP方法評估當前個人能力值;
[0073]精確估計步驟:以所述當前個人能力值作為起點值,每完成一道試題進行一次所述兩級記分模型方法精確評估當前個人能力值,根據所述當前個人能力值,動態選取下一道測試試題,當所述當前個人能力值發生收斂時,以當前個人能力值作為當前自適應測試的個人能力值;
[0074]分數顯示步驟:將所述當前自適應測試個人能力值轉換為標準的個人能力分,提
供給考生。
[0075]上述基于IRT的自適應在線測評方法,其特征在于,所述測評題庫步驟還包括:
[0076]試題信息收集步驟:用于對試題信息進行管理,建立所述測評題庫;
[0077]子題庫管理步驟:用于將所述測評題庫劃分為相互關聯的多個子題庫,試題并通過審核后進入不同的子題庫,生成測試試卷,所述子題庫包括:新題題庫、優良題庫、模擬題庫、作業題庫和錨題題庫;
[0078]篩選試卷步驟:根據所述不同的篩選規則生成最終面向測試對象的測試試卷,所述篩選規則包括:測試專家預置規則、是否等值評比分析和是否手動組卷;
[0079]所述子題庫管理步驟還包括:
[0080]作業題庫步驟:用于將任課教師所出的試題,存入所述作業題庫;
[0081]新題題庫步驟:用于將命題專家所出的試題,存入所述新題題庫;
[0082]模擬題庫步驟:用于將所述新題題庫和所述作業題庫中的試題經過挑選審核后進入所述模擬題庫;
[0083]優良題庫步驟:用于將所述模擬題庫中的試題經過多次模擬測試后,根據考生答題情況生成統計信息,選擇所述模擬題庫中的考題進入所述優良題庫;
[0084]錨題題庫步驟:用于命題專家從所述優良題庫中選取優秀級別的試題進入所述錨題題庫。
[0085]上述基于IRT的自適應在線測評方法,其特征在于,所述統計分析步驟還包括:
[0086]教研分析步驟:用于進行教研信息分析,并生成教研分析報告;
[0087]教學分析步驟:用于進行教學信息分析,并生成教學分析報告;
[0088]學業分析步驟:用于進行學業信息分析,并生成學業分析報告。
[0089]與現有技術相比,本發明的有益效果在于:
[0090]1、本發明采用基于IRT的測量理論,從而測量的精準度較高,在測試中,本發明使IRT與計算機結合工作充分的利用計算機優勢來測試被試者的真實能力水平情況,并給出健康且有建設性的評述。
[0091]2、IRT理論與計算機應用結合測評技術是基于動態測試,而傳統的測評技術是基于靜態測試;所以本發明的關鍵是如何將IRT理論與計算機相結合應用,動態的鎖定被試者真實能力水平進而自動發現被試者的能力薄弱點,給出正確評價指導被試者學習。
【專利附圖】
【附圖說明】
[0092]圖1為本發明基于IRT的自適應在線測評系統結構示意圖;
[0093]圖2為本發明一實施例系統結構示意圖;
[0094]圖3為本發明單參數Logistic模型的項目特征曲線示意圖;[0095]圖4為本發明典型的兩參數Logistic模型的項目特征曲線示意圖;
[0096]圖5為本發明基于IRT的自適應在線測評系統結構詳細示意圖;
[0097]圖6為本發明試題信息示意圖;
[0098]圖7為本發明子題庫管理模塊結構示意圖;
[0099]圖8為本發明子題庫關系不意圖;
[0100]圖9為本發明IRT自適應在線測試模塊結構示意圖;
[0101]圖10為本發明基于IRT的自適應在線測評方法步驟示意圖;
[0102]圖11為本發明方法具體實施例步驟流程示意圖;
[0103]圖12為本發明子題庫管理步驟流程示意圖;
[0104]圖13為本發明基于IRT自適應在線測試步驟流程示意圖;
[0105]圖14為本發明實施例1RT自適應能力測試步驟流程示意圖。
[0106]附圖標記說明:
[0107]I測評題庫組 建模塊2在線測試模塊
[0108]3統計分析模塊
[0109]11試題信息收集模塊12自題庫管理模塊
[0110]13篩選試卷模塊
[0111]21基于IRT自適應在線測試模塊 22考務管理模塊
[0112]23在線測試與練習模塊24考生答題結果評閱模塊
[0113]25基礎數據管理模塊26成績與積分管理模塊
[0114]27問卷調查模塊
[0115]31教研分析模塊32教學分析模塊
[0116]33學業分析模塊
[0117]SI ~S3、S11 ~S13、S21 ~S27、S31 ~S33、S100 ~S700、S121 ~S125、S211 ~S214:本發明各實施例的施行步驟
【具體實施方式】
[0118]下面給出本發明的【具體實施方式】,結合圖示對本發明做出了詳細描述。
[0119]本發明提供的一種基于IRT的自適應在線測評系統,圖1為本發明基于IRT的自適應在線測評系統結構示意圖,如圖1所示,該在線測評系統包括:
[0120]測評題庫組建模塊1:用于收集試題信息建立測評題庫,根據不同的篩選規則從所述測評題庫中輸出測試試卷;
[0121]在線測試模塊2:用于根據所述測試試卷進行包含基于IRT自適應在線測試在內的多種測試,并自動生成測試數據,所述基于IRT自適應在線測試為基于兩級記分模型進行的動態自適應在線測試;
[0122]統計分析模塊3:根據測試數據及預置的評分標準,自動統計結果,生成評價報
生口 ο
[0123]圖2為本發明一實施例系統結構示意圖,如圖2所示,該系統包括:
[0124]測評題庫組建模塊I中命題由命題老師(專家)使用,主要提供試題命制功能。供命題老師填寫試題描述、試題屬性和收集試題素材,根據主觀還是客觀題類設置評分標準,并為測試準備標準的試卷結構信息。
[0125]在線測試模塊2,該模塊由考務管理老師收集報考生信息,創建測試信息并將測試與考卷進行關聯,接著進行編排考生入考場生成考次。編排監考老師,進入監考,主要提供監考考試功能。其中監考功能供監考老師使用,用于監考及處理考試過程中各種情況。考試功能供考生使用,用于考生實際基于IRT的自適應在線測試及作答,最后產出考生作答數據。
[0126]統計分析模塊3,該模塊一般由教研員設好統計的條件參數,系統獲取考生作答數據及卷面卷題信息根據設好的統計條件參數來進行統計輸出報表,根據統計數據分析自動生成一些評價報告輸出。
[0127]其中,兩級記分模型包括:單參數Logistic模型和兩參數Logistic模型。
[0128]單參數Logistic 模型(One-Parameter Logistic Model)
[0129]單參數Logistic模型的數學公式如下所示:
[0130]Pij ( Θ ) = I/ (1+exp (-1.7 ( Θ j-bj)))(公式一)
[0131]其中i=l, 2...m; j = 1,2...Ν,Ρυ( Θ )表示第j個能力為Θ的被試答對試題i或在試題i上正確反應的概率九表示試題難度參數;N是該測驗的試題總數;exp代表以底為2.718的指數;且?^( Θ )是一種S形曲線,其值介于O與I之間。圖3為本發明單參數Logistic模型的項目特征曲線示意圖,如圖3所示。
[0132]在項目反應理論中,試題難度的定義是:試題難度參數b的位置正好落在正確反應概率為0.5時能力量尺(ability scale)上的位置點;換言之,當能力和試題難度相等時(即θ-4 = 0),被試答對某試題的機會是百分之五十。當能力小于試題難度時(即θ-、<0),被試答對某試題的機會便低于百分之五十;反之,當能力大于試題難度時(即θ-、> 0),被試答對某試題的機會便高于百分之五十。匕值愈大,被試答對該試題的難度越大,此時,被試要想有百分之五十答對某試題的機會,被試便需要有較高的能力才能辦到。愈困難的試題,其項目特征曲線愈是在能力量尺的右方;反之,愈簡單的試題,其項目特征曲線愈是在能力量尺的左方。如圖3所示,四條項目特征曲線的試題難度參數的位置分別為,其值的大小,分別決定該四條曲線在能力量尺上的相對應位置。因此,試題難度參數有時又叫做位置參數(location parameter)。理論上,b值的大小介于土 00之間,但實際應用上,通常只取±4之間的范圍;由圖3所示,如前所述,b值愈大表示試題愈困難,b值愈小表示試題愈簡單。
[0133]兩參數Logistic 模型(two-parameter Logistic model)
[0134]兩參數Logistic模型的數學公式如下所示:
[0135]Pij = I/(1+exp (-1.7..( Θ ^bi)))(公式二)
[0136]其中i=l,2…m;j = 1,2...N,各符號的定義與公式(公式一)相同,只是多了一個參數試題區分度(item discrimination)參數ai;它的涵義與經典測量理論中的涵義相似,用來描述試題i所具有鑒別力大小的特性。圖4為本發明典型的兩參數Logistic模型的項目特征曲線示意圖,如圖4 所示。
[0137]試題區分度參數a的值,剛好與在b點的項目特征曲線的斜率(slope)。項目特征曲線愈陡的試題比曲線稍平滑的試題,具有較大的區分度參數值。換句話說,區分度愈大的試題,其區別出不同能力水平被試的功能愈好,即分辨的效果愈好。事實上,該試題能否有效區別出以能力水平為Θ的上下兩組(即高于Θ和小于等于Θ)被試的差異,是與對應于Θ量尺的項目特征曲線的斜率成某種比例。
[0138]由圖4亦可知,這些曲線的下限值都是零,即兩參數Logistic模型并不把被試的猜題因素考慮在內,這點假設與單參數Logistic模型相同。
[0139]當項目參數已知,只需估計被試能力,屬于能力條件估計。這時根據每個被試作答反應現象一一估計被試的能力估計值,其似然方程為:
[0140]兩邊取對數為:
【權利要求】
1.一種基于IRT的能力自適應在線測評系統,其特征在于,所述在線測評系統包括: 測評題庫組建模塊:用于收集試題信息建立測評題庫,根據不同的篩選規則從所述測評題庫中輸出測試試卷; 在線測試模塊:用于根據所述測試試卷進行包含基于IRT自適應在線測試在內的多種測試,并自動生成測試數據,所述基于IRT自適應在線測試為基于兩級記分模型進行的動態自適應在線測試; 統計分析模塊:根據所述測試數據及預置的評分標準,自動統計結果,生成評價報告。
2.根據權利要求1所述 基于IRT的能力自適應在線測評系統,其特征在于,所述兩級記分模型包括:單參數Logistic模型和兩參數Logistic模型結合現代計算機運算能力形成程序提供應用。
3.根據權利要求1所述基于IRT的自適應在線測評系統,其特征在于,所述在線測試模塊還包括: IRT自適應在線測試模塊:用于根據預置的試卷參數動態的根據當前個人能力值,在線動態抽取試題進行測試; 所述IRT自適應在線測試模塊還包括: 初始化模塊:用于進行考生的初始化設置,形成電子試題; 當前個人能力值估計模塊:根據考生初步測試完成預定答題數量的情況,采用EAP方法評估當前個人能力值; 精確估計模塊:以所述當前個人能力值作為起點值,每完成一道試題進行一次所述兩級記分模型方法精確評估當前個人能力值,根據所述當前個人能力值,動態選取下一道測試試題,當所述當前個人能力值發生收斂時,以當前個人能力值作為當前自適應測試的個人能力值; 分數顯示模塊:將所述當前自適應測試個人能力值轉換為標準的個人能力分,提供給考試。
4.根據權利要求1所述基于IRT的自適應在線測評系統,其特征在于,所述測評題庫組建模塊還包括: 試題信息收集模塊:用于對試題信息進行管理,組建所述測評題庫; 子題庫管理模塊:用于將所述測評題庫劃分為相互關聯的多個子題庫,試題通過審核后進入不同的子題庫,生成測試試卷,所述子題庫包括:新題題庫、優良題庫、模擬題庫、作業題庫和錨題題庫; 篩選試卷模塊:根據所述不同的篩選規則生成最終面向測試對象的測試試卷,所述篩選規則包括:測試專家預置規則、是否等值評比分析和是否手動組卷; 所述子題庫管理模塊還包括: 作業題庫模塊:用于將任課教師所出的試題,存入所述作業題庫; 新題題庫模塊:用于將命題專家所出的試題,存入所述新題題庫; 模擬題庫模塊:用于將所述新題題庫和所述作業題庫中的試題經過挑選審核后進入所述模擬題庫; 優良題庫模塊:用于將所述模擬題庫中的試題經過多次模擬測試后,根據考生答題情況生成統計信息,選擇所述模擬題庫中的考題進入所述優良題庫;錨題題庫模塊:用于命題專家從所述優良題庫中選取優秀級別的試題進入所述錨題題庫。
5.根據權利要求1所述基于IRT的自適應在線測評系統,其特征在于,所述在線測試模塊還包括: 考務管理模塊:用于根據收集導入的考生信息創建測試信息,并根據所述測試信息將測試與測試試卷關聯,并進行考生考務管理和監考管理; 在線測試與練習模塊:用于根據所述作業題庫進行課后練習、根據所述模擬題庫進行模擬測試和根據預先設置的固定考卷進行的傳統在線測試; 考生答題結果評閱模塊:用于對考試的答題結果進行自動評分或根據預先設置的評分標準進行人工評分,得出最終標準得分; 基礎數據管理模塊:用于管理和維護多種基礎數據信息; 成績與積分管理模塊:用于管理測試成績相關數據; 問卷調查模塊:用于對考生進行影響學習因素的調查。
6.根據權利要求1所述基于IRT的自適應在線測評系統,其特征在于,所述統計分析模塊還包括: 教研分析模塊:用于進 行教研信息分析,并生成教研分析報告; 教學分析模塊:用于進行教學信息分析,并生成教學分析報告; 學業分析模塊:用于進行學業信息分析,并生成學業分析報告。
7.一種基于IRT的自適應在線測評方法,米用如權利要求1-6中任一項所述基于IRT自適應在線測評系統,其特征在于,所述在線測評方法包括: 測評題庫組建步驟:用于收集試題信息建立測評題庫,根據不同的篩選規則從所述測評題庫中輸出測試試卷; 在線測試步驟:用于根據所述測試試卷進行包含基于IRT自適應在線測試在內的多種測試,并自動生成測試數據,所述基于IRT自適應在線測試為基于兩級記分模型進行的動態自適應在線測試; 統計分析步驟:根據所述測試數據及預置的評分標準,自動統計結果,生成評價報告。
8.根據權利要求7所述基于IRT的自適應在線測評方法,其特征在于,所述在線測試步驟還包括: IRT自適應在線測試步驟:用于根據預置的試卷參數動態的根據當前個人能力值,在線動態抽取試題進行測試。 考務管理步驟:用于根據收集導入的考生信息創建測試信息,并根據所述測試信息將測試與測試試卷關聯,并進行考生考務管理和監考管理; 在線測試與練習步驟:用于根據所述作業題庫進行課后練習、根據所述模擬題庫進行模擬測試和根據預先設置的固定考卷進行傳統在線測試; 考生答題結果評閱步驟:用于對考試的答題結果進行自動評分或根據預先設置的評分標準進行人工評分,得出最終標準得分; 基礎數據管理步驟:用于管理和維護多種基礎數據信息; 成績與積分管理步驟:用于管理測試成績數據; 問卷調查步驟:用于對考生進行影響學習因素的調查;所述IRT自適應在線測試步驟還包括: 初始化步驟:用于進行考生的初始化設置,形成電子試題; 當前個人能力值估計步驟:根據考生初步測試完成預定答題數量的情況,采用EAP方法評估當前個人能力值; 精確估計步驟:以所述當前個人能力值作為起點值,每完成一道試題進行一次所述兩級記分模型方法精確評估當前個人能力值,根據所述當前個人能力值,動態選取下一道測試試題,當所述當前個人能力值發生收斂時,以當前個人能力值作為當前自適應測試的個人能力值; 分數顯示步驟:將所述當前自適應測試個人能力值轉換為標準的個人能力分,提供給考生。
9.根據權利要求7所述基于IRT的自適應在線測評方法,其特征在于,所述測試題庫組建步驟還包括: 試題信息收集步驟:用于對試題信息進行管理,建立所述測評題庫; 子題庫管理步驟:用于將所述測評題庫劃分為相互關聯的多個子題庫,試題并通過審核后進入不同的子題庫,生成測試試卷,所述子題庫包括:新題題庫、優良題庫、模擬題庫、作業題庫和錨題題庫; 篩選試卷步驟:根據所述不同的篩選規則生成最終面向測試對象的測試試卷,所述篩選規則包括:測試專家預置規則、是否等值評比分析和是否手動組卷; 所述子題庫管理步驟還包括: 作業題庫步驟:用于將任課教師所出的試題,存入所述作業題庫; 新題題庫步驟:用于將命題專家所出的試題,存入所述新題題庫; 模擬題庫步驟:用于將所述新題題庫和所述作業題庫中的試題經過挑選審核后進入所述模擬題庫; 優良題庫步驟:用于將所述模擬題庫中的試題經過多次模擬測試后,根據考生答題情況生成統計信息,選擇所述模擬題庫中的考題進入所述優良題庫; 錨題題庫步驟:用于命題專家從所述優良題庫中選取優秀級別的試題進入所述錨題題庫。
10.根據權利要求7所述基于IRT的自適應在線測評方法,其特征在于,所述統計分析步驟進一步包括: 教研分析步驟:用于進行教研信息分析,并生成教研分析報告; 教學分析步驟:用于進行教學信息分析,并生成教學分析報告; 學業分析步驟:用于進行學業信息分析,并生成學業分析報告。
【文檔編號】G09B7/02GK103942993SQ201410099314
【公開日】2014年7月23日 申請日期:2014年3月17日 優先權日:2014年3月17日
【發明者】孔令崢 申請人:深圳市承儒科技有限公司