认知诊断知识追踪综述

认知诊断

一、模型总结

知识追踪/认知诊断常用模型总结 – 知乎 (zhihu.com)

不论认知诊断还是知识追踪,他们的核心目的都是”测评“,也就是通过学生的做题记录,来对学生的状态进行评价,然后可以针对这些评价,进行后续的操作。

最初,教育测评还没有依赖智能教育的时候,对学生进行测评主要是通过经典测验模型(Classical Test Theory, CTT),简单来说,就是给学生们统一出了一份卷子,固定好每道题的分值,然后单纯的通过学生对这一份卷子的答题结果进行评价,学生得多少分就代表他的能力。同样,卷子难度的评价也是通过学生对这道题的答题情况分布来进行的。

但是,这显而非常不够客观,如何能够更快更精确的评价学生的能力呢?

这时,项目反应理论(Item Response Theory, IRT)应运而生,它的核心思想是综合考虑学生的能力与试卷的题目情况(难度、区分度、猜测性等),而不是两个单独的计算过程。IRT建立了一个学生能力和作答正确率的模型函数,其中包括了题目的难度、区分度、猜测性参数。

针对IRT模型,我们将学生的作答数据输入,通过参数估计,可以得到题目的参数、学生的能力值。

在不断的研究中,对IRT的扩展也越来越多,比如我们希望不只考虑学生单一的能力,想要将能力值体现在更多维度,于是出现了多维项目反应理论(Muti Item Response Theory,MIRT)。

进一步的,0/1计分模型已经无法满足我们的测评需求,比如一道题可能会有多个得分,或者是分部计分的,然后就出现了等级反应模型GR、广义分部评分模型GPCM、评定量表模型RSM等。

上面的这些模型理论只能给出一个学生的能力值,不能表示出学生具体的知识掌握状态,因此认知诊断理论发展了起来。

认知诊断理论,认知诊断模型大多都是基于Q矩阵,加入了认知属性(知识点),常用的有规则空间模型、DINA模型、NIDA模型。

以上认知诊断模型存在一定的限制,比如知识掌握状态只有0/1两种,还有当知识点数过多计算会相当困难,适合小样本。

后面就进入了新一代的测验理论,主要也是基于上述思想的改进:

(1)传统知识追踪。

  • ① 贝叶斯知识追踪(Bayesian knowledge tracing, BKT);
  • ② 表现因子分析(Performance Factors Analysis, PFA);
  • ③ 学习因子分析(Learning Factors Analysis, LFA);
  • ④ (Knowledge Proficiency Tracing, KPT)模型;

(2)深度知识追踪。深度知识追踪就是把学生的做题记录当成一个序列,目前主要基于RNN模型进行训练。

  • ① 深度知识追踪(Deep Knowledge Tracing, DKT)模型:一种seq2seq的循环神经网络模型, 每一个时刻的输出是对下一个时刻学习者表现情况的预测;
  • ② DKT-Tree通过决策树加入了更多的题目属性;
  • ③ DKT+forgetting向DKT中引入了三种遗忘特征;
  • ④ PDKT-C 融合了知识点先后序关系;
  • ⑤ DKVMN(Dynamic Key-Value Memory Networks)将学习者的学习过程建模为读和写两个过程;
  • ⑥ EERNN(Exercise-Enhanced Recurrent Neural Network)提出用试题文本来增强深度知识追踪;
  • ⑦ EKT(Exercise-aware Knowledge Tracing) 添加了题目的知识点属性,使用了内存网络衡量学习者在学习每一个练习题时,对其多维知识掌握的影响程度,其精确性和可解释性都很大程度优于以往的模型。

二、发展历程

认知诊断理论的前世今生——AI 论坛 (qq.com)

1、测验理论

早在1961年,测验理论的本质是讨论测试结果与测试指标之间的关系,关注的是所得的结果对各个指标的解释性。经过了上百年的发展,诞生了许多经典的测验理论,比如经典测量理论(Classical Test Theory,CTT)、概化理论(Generalizability Theory,GT)和项目反映理论(Item Response Theory,IRT)。尤其是项目反映理论,在很多领域方向比如计量模型、项目分析、等值测验、项目功能差异侦查、项目自动生成、测验组成、题库构建、自适应测试等都有大量的应用,开辟了测量理论的新纪元。测量理论的发展阶段分为两个部分:标准测验理论阶段和新一代测验理论阶段。

2、标准测验理论

标准测验理论阶段又包含两类研究范式:能力水平研究范式和认知水平研究范式。

能力水平研究范式:强调对被试宏观层次的能力水平测量和评估,其中的代表性工作为经典测量理论(classical test theory,CTT)、概化理论 (generalizability theory,GT)和项目反应理论(item response theory,IRT)。经典测量理论是第一代应用广泛的心理与教育测量学理论,其直接使用被试对项 目的应答得分(观察分数)衡量被试的心理状态,并认为观察分数等于真分数加 上误差分数。经典测量理论简单易懂且效果良好,但被试的测量结果依赖于测试 项目集合的选择,获取的参数不具有迁移性,且从被试水平到作答结果之间缺少 内在的关联通道。而概化理论则主要解决测量误差问题,引入测量情境关系。
能力水平研究范式中,最经典的应该就是项目反映理论,最早是由Rasch在1960年提出IRT的函数形式;后来在Rasch的基础上,Fischer等人对IRT进行了扩展,提出了线性逻辑斯蒂特质模型(linear logistic trait model,LLTM),这也是IRT最经典以及使用最广泛的形式之一,由于LLTM只使用了一个难度参数来描述测试项,因此被称为单参数(1PL)模型。在1PL模型的基础上,又由Birnbaum及Lord等人进一步提出了2PL和3PL模型,引入了测试项区分度和猜测度等因素。


随着心理测量学和认知心理学的发展,大家越来越不满足于只关注宏观层次的水平评估,希望进一步了解微观角度的心理过程,这种研究的角度被称为认知水平研究范式。

认知水平研究范式:强调理解个体内部微观层次的认知加工过程,对被试的认知状态做出细致诊断。有学者将 IRT 向多维扩展(multidimensional IRT,MIRT) ,如三参数模型的多维补偿型扩展和半补偿型扩展,但是项目的多维参数是隐式的,不同的能力维度用属性进行概括时,属性的定义无法深入到认知过 程的细节,不具有实际的解释意义。
认知水平研究范式中,比较典型的应该是DINA (deterministic inputs, noisy “and” gate)模型和NIDA(noisy inputs, deterministic “and” gate)模型。DINA和NIDA的发展也是得益于Q矩阵理论的提出,它将被测者的能力水平与测量指标之间关联了起来。随后,de la Torre等人又提出了DINA的一般化模型G-DINA,具有补偿性和饱和性的特点。

3、新一代测验理论

在新一代测量理论中,认知诊断是核心,尤其是在当前大数据背景下,基于机器学习的认知诊断被推到了风口浪尖。在此背景下,认知诊断技术可被分为静态和动态两类。

静态认知诊断:目标是对学习者某一给定段时间的学习数据进行整体研究, 综合分析这些数据得到且仅得到学生当前的知识掌握度水平,进而预测学生在未 观测的题目上的表现情况。静态认知诊断方法主要可以分为三种类别:矩阵分解、用户画像和机器学习优化的认知诊断方法。矩阵分解中最典型的应该是PMF以及NMF;用户画像中典型的方法是LDA(Latent Dirichlet Allocation);而机器学习优化的方法则以近年来提出的FuzzyCDM(Fuzzy Cognitive Diagnosis Model)、KPGRM(Knowledge Plus Gaming Response Model)以及NeuralCD(Neural Cognitive Diagnose)。

动态认知诊断:学习过程是动态而不是静态的,学习者会不间断做大量的习题,学习大量新的知识,因而他们的认知水平也在随着学习过程在动态变化。为了能够在任意时刻,及时给出对学习者认知水平诊断情况的反馈,从而及时调整学习资料以及学习方案,动态地对学生认知水平进行诊断是迫切需要的。动态认知诊断又被称为知识追踪(Knowledge Tracing, KT),已有的研究主要可以分为两类:传统知识跟踪与深度知识追踪。

4、知识追踪

传统知识追踪:贝叶斯知识追踪(Bayesian knowledge tracing, BKT)是一 个在1994年最早被提出来的知识追踪模型。它是一个两阶段的动态贝叶斯网络, 学习者的表现情况看作可观测变量,学习者的知识状态看作隐变量,并且假设每 一个知识点都只被一个试题所测试。表现因子分析(Performance Factors Analysis, PFA)是另一种传统知识跟踪方法,着重于对学习者进行建模,它由 学习因子分析(Learning Factors Analysis, LFA)重构而来,对学习者的表现情 况有高度的敏感性,并且PFA还可以很大程度上取代BKT,并不需要BKT中所作 的假设,能够实现多知识点测试。近年来,Chen等人 设计了(Knowledge Proficiency Tracing, KPT)模型,以教育心理学领域的学习 曲线和遗忘曲线为基础,建模学习和遗忘因素,更加精准度对学习者进行诊断, 并且有着良好的可解释性。

深度知识追踪:传统知识跟踪模型虽然取得了不错的实验效果,然而难以满 足当前教育大数据需求,应用场景单一。2015年提出了第一个深度知识追踪DKT(Deep Knowledge Tracing, DKT)模型。DKT是一种seq2seq的循环神经网络模型, 每一个时刻的输出是对下一个时刻学习者表现情况的预测。由于DKT的效果完全碾压了传统知识追踪方法,表现突出,后来有越来越多的DKT变体不断提出。比如有DKT-Tree通过决策树加入了更多的题目属性;DKT+forgetting向DKT中引入了三种遗忘特征;PDKT-C融合了知识点先后序关系;DKVMN(Dynamic Key-Value Memory Networks)将学习者的学习过程建模为读和写两个过程;还有EERNN(Exercise-Enhanced Recurrent Neural Network)提出用试题文本来增强深度知识追踪;EKT(Exercise-aware Knowledge Tracing) 使用了内存网络衡量学习者在学习每一个练习题时,对其多维知识掌握的影响程度,其精确性和可解释性都很大程度优于以往的模型。

三、参考资料

1、文献


[1] Piech C , Spencer J , Huang J , et al. Deep Knowledge Tracing[J]. Computer Science, 2015, 3(3):págs. 19-23.
[2] Liu Q , Wu R , Chen E , et al. Fuzzy Cognitive Diagnosis for Modelling Examinee Performance[J]. ACM Transactions on Intelligent Systems and Technology, 2018, 9(4):1-26.
[3] Wang F , Liu Q , Chen E , et al. Neural Cognitive Diagnosis for Intelligent Education Systems:, 2019.
[4] 刘铁园,陈威,常亮,古天龙.基于深度学习的知识追踪研究进展[J].计算机研究与发展,2022,59(01):81-104.
[5] 黄振亚. 面向个性化学习的数据挖掘方法与应用研究[D].中国科学技术大学,2020.DOI:10.27517/d.cnki.gzkju.2020.000400.

2、R包

[1] GDINA: The Generalized DINA Model Framework. https://cran.r-project.org/web/packages/GDINA/index.html
[2] irt: Item Response Theory and Computerized Adaptive Testing Functions. https://cran.r-project.org/web/packages/irt/index.html
[3] mirt: Multidimensional Item Response Theory. https://cran.r-project.org/web/packages/mirt/index.html

3、BigData Lab

USTC 中科大大数据实验室(http://base.ustc.edu.cn/resources)
[1] https://github.com/bigdata-ustc/EduCDM
[2] https://github.com/bigdata-ustc/EduData
[3] https://github.com/bigdata-ustc/Neural_Cognitive_Diagnosis-NeuralCD]

留下评论