开启成长之旅!这是我参加「日新计划 12 月更文应战」的第6天,点击检查活动概况

深度常识追寻 Deep Knowledge Tracing

摘要

在核算机支撑的教育中,常识盯梢是一个众所周知的问题。在核算机支撑的教育中,机器对学生与课程互动时的常识进行建模。尽管有效地对学生的常识进行建模会发生很高的教育影响,但这项使命存在许多内涵的应战。在这篇文章中,咱们探究运用递归神经网络(RNN)来模仿学生的学习。与曾经的办法比较,RNN模型家族具有重要的优势,由于它们不需求对人类范畴常识进行显式编码,而且能够捕获更杂乱的学生常识标明。运用神经网络能够明显进步对一系列常识盯梢数据集的猜测功用。此外,学习的模型能够用于智能课程设计,并答应直接解说和发现学生使命中的结构。这些成果为常识追寻提出了一条很有出路的新研讨路线,并为RNN供给了一个示范性的运用使命。

1 介绍

核算机辅助教育承诺敞开获取世界级的教育,并下降日益增长的学习本钱。咱们能够经过在Khan Academy、Coursera和EdX等盛行的教育平台上构建大规模学生盯梢数据模型来开发这一承诺。

常识追寻是对学生的常识进行建模的使命,这样咱们就能够准确地猜测学生在未来的互动中将怎么体现。这项使命的改善意味着能够依据学生的个人需求向他们建议资源,并能够跳过或推迟模型猜测太容易或太难的常识点/标题。人工调整的智能教导体系试图定制内容,已经显现出令人振奋的。1对1的人类教导能够为普通学生带来大约两个规范差的学习收益,而机器学习处理方案能够免费为世界上的任何人供给高质量的个性化教育的这些优点。由于人类学习的根底是人脑和人类常识的杂乱性,所以常识追寻问题本质上是困难的。因而,运用丰厚的模型似乎是合适的。但是,曾经的教育作业大多依赖于具有受限函数方式的一阶马尔可夫模型。

在本文中,咱们提出了一种称为深度常识盯梢(DKT)的公式,其间咱们将灵敏的递归神经网络在时刻上“深度”运用到常识盯梢使命中。这一系列模型运用大型人工神经元向量来标明潜在的常识状况及其时刻动态,并答应从数据中学习学生常识的潜在变量标明,而不是硬编码。这项作业的首要奉献是:

1.一种将学生互动编码为递归神经网络输入的新办法。

2.在常识盯梢基准上,AUC比之前最好的成果进步了25%。

3.证明咱们的常识追寻模型不需求专家注释。

4.发现操练影响并生成改善的操练课程。

《Deep Knowledge Tracing》2015 NIPS论文翻译
常识追寻的使命能够方式化为:经过查询学生在特定的学习使命中采取的交互​…​,猜测他们下一次交互的值​ 。在常识追寻遍及的实例中,交互选用​= { ​}元组的方式, 它结合了判断操练是否被答复的标签​和操练是否答复正确的标签​。 在进行猜测时,模型会被供给正在答复的操练的标签​,而且有必要猜测学生是否会正确地完结操练​。图1显现了学习8年级数学的单个学生的盯梢常识的可视化。该学生首先正确答复了两个平方根问题,然后答复过错一个求x截距的问题。在接下来的47次互动中,该学生完结了一系列的x-截取、y-截取和作图操练题。每次学生答复操练时,咱们都能够猜测她是否会在下一次互动中正确答复每种类型的操练。在可视化中,咱们只显现跟着时刻的推移对相关操练类型子集的猜测。在大多数曾经的模型作业中,操练标签标明人类专家分配给操练的单个“概念”。咱们的模型能够利用但不需求这种专家注释。咱们证明了在没有注释的情况下,该模型能够自主学习内容子结构。

2 相关作业

教育学、心理学、神经科学和认知科学等不同范畴都为建模和猜测人类怎么学习的使命供给了信息。从社会科学的视点来看,学习被以为遭到杂乱宏观层面互动的影响,包括情感、动机甚至社会身份。现在的应战在微观层面上进一步露出。学习本质上是人类认知的反映,是一个高度杂乱的进程。认知科学范畴中两个特别相关的主题是,人类思维及其学习进程是递归的,并由类比驱动。

常识追寻问题开始被提出,并在智能教育社区中得到了很多研讨。面对上述应战,咱们的首要方针是树立一个模型,该模型或许无法捕捉一切的认知进程,但依然是有用的。

2.1 贝叶斯常识追寻

贝叶斯常识追寻(BKT)是树立学生学习时刻模型的最盛行的办法。BKT将学习者的潜在常识状况建模为一组二进制变量,每个变量代表对单个概念的了解或不了解 。当学习者正确或过错地答复给定概念的操练时,隐马尔可夫模型(HMM)被用来更新这些二进制变量中的每一个的概率。开始的模型公式假定,一旦学会了一项技能,它就永久不会被忘掉。这个模型最近的扩展包括猜测和滑动估量的情境化,估量个体学习者的先验常识,以及估量问题难度。

不管有没有这样的扩展,常识追寻都会遇到几个困难。首先,用二进制标明学生是否了解或许是不切实际的。其次,躲藏变量的意义及其在操练中的映射或许是模糊的,很少满足模型对每个操练只要一个概念的期望。已经研讨开发了几种技能来创建和完善概念类别和概念-操练的映射。现在的黄金规范,认知使命剖析是一个困难而迭代的进程,在这个进程中,范畴专家要求学习者在处理问题的一起议论他们的思维进程。最后,用于建模转化的二元呼应数据对能够建模的操练类型施加了束缚。

2.2其他动态概率模型

部分可观测马尔可夫决策进程(POMDP)已被用来模仿学习者跟着时刻的推移的行为,在学习者沿着敞开路径到达解的情况下。尽管POMDP供给了一个非常灵敏的结构,但它们需求探究指数级大的状况空间现在的完成也被束缚在离散状况空间,关于潜在变量具有硬编码的意义。这使得它们在实践中变得难以处理或僵化,尽管它们有或许战胜这两个束缚。

来自绩效因素剖析(PFA)结构和学习因素剖析(LFA)结构的简略模型显现出与BKT适当的猜测才能。为了获得比独自运用任何一个模型更好的猜测成果,已经运用了各种集成办法来结合BKT和PFA。AdaBoost、随机森林、线性回归、Logistic回归和前馈神经网络支撑的模型组合都显现出独自供给比BKT和PFA更好的成果。但由于它们所依赖的学习者模型,这些集成技能面临着相同的束缚,包括对准确的概念标签的要求。

最近的作业探究了将项目呼应理论 (IRT) 模型与切换非线性卡尔曼滤波器以及常识盯梢相结合。尽管这些办法很有远景,但现在它们在功用方式上都比咱们这儿介绍的办法更受束缚而且更昂贵(由于潜在变量的揣度)。

2.3递归神经网络

递归神经网络是一类灵敏的动态模型,跟着时刻的推移将人工神经元连接起来。信息的传播是递归的,由于躲藏的神经元依据体系的输入和之前的激活进行进化 。与教育中呈现的隐马尔可夫模型(也是动态的)不同,RNN具有高维、接连的潜在状况标明。 RNN的更丰厚标明的一个明显优势是它们能够在更晚的时刻点将来自输入的信息用于猜测。关于长期短期记忆(LSTM)网络–一种盛行的RNN类型–尤其如此。

关于具有很多操练数据的几个时刻序列使命,例如语音转文本、翻译和图像字幕,递归神经网络是竞争性的或最早进的。这些成果标明,假如咱们将使命描绘为时态神经网络的一个新运用,咱们能够更成功地追寻学生的常识。

3.深度常识追寻

咱们以为,人类的学习遭到许多不同特点的分配–材料、布景、呈现的时刻进程和触及的个人–其间许多特点很难量化,只依托第一原则为操练分配特点或构建图形模型。在这儿,咱们将运用两种不同类型的RNN-一个带有S型单位的普通RNN模型和一个长短期记忆(LSTM)模型-来依据学生曩昔的活动来猜测学生对操练的反响。

3.1模型

传统的递经网络(RNN)将一组的输入向量…向量映射到一组输出向量…。这是经过核算一系列躲藏状况…可被视为曩昔观测的相关信息的接连编码,对未来的猜测有用。 有关颜色插图,请参见图 2。这些变量运用由方程界说的简略网络进行关联:

ht=tanh(Whxxt+Whhht+bh)h_t = tanh(W_{hx}x_t + W_{hh}h_t+b_h)
yt=(Wyhht+by)y_t =\delta (W_{yh}h_t+b_y)

《Deep Knowledge Tracing》2015 NIPS论文翻译

其间,tanh和Sigmoid函数()都是按元素运用的。该模型由输入权重矩阵、循环权重矩阵 ​、初始状况 ​ 和输出权重矩阵 ​ 来参数化。躲藏单元和输出单位的误差由 ​ 和​ 给出。

长短期记忆(LSTM)网络是RNN的一种更杂乱的变体,通常被证明是更强壮的。在LSTM中,躲藏单元保留它们的值,直到经过“忘掉门”的动作明确清除停止。因而,它们更自然地在许多时刻步长内坚持信息,这被以为使它们更容易操练。此外,躲藏单元运用乘法交互进行更新,因而它们能够对相同数量的躲藏单元执行更杂乱的转化。LSTM的更新公式比RNN杂乱得多,能够在附录A中找到。

3.2 输入和输出时刻序列

为了操练关于学生交互的RNN或LSTM,有必要将这些交互转化成固定长度的输入向量xtx_t的序列。依据这些交互的性质,咱们运用两种办法来完结此操作: 关于具有少数 M 特别的操练的数据集,咱们将xtx_t设置为学生交互元组hth_t= {qtq_t, ata_t} 的 one-hot 编码,标明答复了哪个操练以及是否正确答复了操练的组合,所以xtx_t∈ {0, 1 }^{2M} 。咱们发现,对qtq_tata_t有独自的标明会下降功用。 关于大的特征空间,one-hot编码或许很快变得不切实际的大。因而,关于具有很多独特操练的数据集,咱们改为为每个输入元组分配一个随机向量nq,an_{q,a}∼N(0,I),其间nq,an_{q,a}RNR_N,而且N<M。然后咱们将每个输入向量XtX_t 设置为相应的随机向量xt=nqt,atx_t = n_{q_t,a_t}。这种one-hot编码的高维向量的随机低维标明是从紧缩传感得到的创意。紧缩检测以为d维的k-稀少信号能够从k log d个随机线性投影(取决于放缩比例和加法常数)中准确康复。由于 one-hot 编码是 1-稀少信号,能够经过将学生交互元组分配给长度为 log 2M 的固定随机高斯输入向量来准确编码。尽管现在的论文只触及one-hot向量,但这种技能能够很容易地扩展到在固定长度的向量中捕捉更杂乱的学生交互的方面。 输出yty_t 是长度等于问题数量的向量,其间每个条目标明学生正确答复该特定问题的猜测概率。因而,能够从yty_t 中对应于qt+1q_{t+1}的条目中读取at+1a_{t+1}的猜测。

3.3 优化

操练方针是在该模型下查询到的学生反响序列的负对数似然。设(qt+1q_{t+1})是操练题在t+1时刻的答复的one-hot编码,设\iota是二进制穿插熵。给定猜测的丢失为(YT(qt+1)\iota(Y^T(q_{t+1}),单个学生的丢失为:

L=∑(yT(qt+1),at+1) L = \sum \iota(y^T \delta(q_{t+1}),a_{t+1})

运用小批量的随机梯度下降来最小化这个方针。为了防止操练进程中的过度拟合,在核算输出数yty_t​时,不运用​,但在核算下一个躲藏状况ht+1h_{t+1}​时依然运用。咱们经过切断范数高于阈值的梯度长度来防止梯度在时刻中反向传播时‘爆破’。关于本文中的一切模型,咱们一直运用200的躲藏维度和100的小批量(mini-batch)巨细。为了促进DKT的研讨,咱们发布了咱们的代码和相关预处理数据.

4 教育运用

常识溯源的训练方针是依据学生曩昔的活动来猜测他们未来的体现。这是直接有用的–例如,假如学生的才能经过继续的评价,就不再需求正式测验。如第6节中的试验所述,DKT模型还能够推进许多其他改善。

4.1改善课程

咱们的模型最大的潜在影响之一是挑选最佳的学习项目顺序来推送给学生。给定一个具有估量躲藏常识状况的学生,咱们能够查询咱们的RNN来核算假如咱们给他们安置一个特定的操练,他们的预期常识状况会是什么。例如,在图1中,在学生答复了50个操练后,咱们能够测验下一个或许的操练,咱们能够向她展示,并核算出她在做出挑选时的预期常识状况。关于这个学生来说,预计最优的下一个问题是重温y-截距的求解。

咱们运用经过操练的DKT模型测验教育文献中的两个经典课程规矩:混合来自不同主题的操练,以及阻止学生答复同一类型的一系列操练 。由于挑选下一操练的整个序列以最大极限地进步猜测精度能够表述为马尔可夫决策问题,因而咱们也能够评价运用期望最大算法(见附录)挑选最佳问题序列的优点。

4.2 发现习题关系

DKT模型还能够运用于发现数据中的潜在结构或概念的使命,这是一项通常由人类专家执行的使命。咱们经过为每对定向操练 i 和 j 分配一个影响ji,jj_{i,j}来处理这个问题,

Ji,j=y(j∣i)∑ky(j∣k)J_{i,j} =\frac{ y(j|i) }{\sum_ky(j|k)}

其间y(j|i)是RNN在第二个时刻步分配给操练j的正确概率,假定学生在第一个时刻步正确答复了操练 i 。咱们标明,这种由RNN捕获的依赖性的特征康复了与操练相关的先决条件。

5 数据集

咱们在三个数据集上测验了猜测学生体现的才能:模仿数据、可汗学院数据和助教基准数据集。在每个数据集上,关于非模仿数据,咱们运用5次穿插验证来评价咱们的成果,而且在一切情况下都从操练数据中学习超参数。咱们将深度常识盯梢的成果与规范的BKT进行了比较,并在或许的情况下与BKT的优化变体进行了比较。此外,咱们将咱们的成果与经过简略核算学生在特定操练中答对的边沿概率所做的猜测进行比较。

《Deep Knowledge Tracing》2015 NIPS论文翻译
模仿数据:咱们模仿虚拟学生学习虚拟概念,并测验咱们在这种受控环境下猜测反响的才能。关于这个试验的每一次运行,咱们生成2000名学生,他们答复从k∈1…5个概念中抽取的50个操练。仅针对此数据集,一切学生答复相同顺序的50个操练。每个学生对每个概念都有一个潜在的常识状况“技能”,每个操练都有一个单一的概念和一个难点。假如学生具有概念技能,那么学生正确答复难度为的操练的概率能够经过运用经典项目反响理论建模得到:(,)​,其间c是随机猜测的概率(设为0.25)。 跟着时刻的推移,学生经过添加与他们答复的操练题相对应的概念技能进行 “学习”。为了了解不同的模型怎么归入无标签的数据,咱们不向模型供给躲藏的概念标签(相反,输入的只是操练指数和操练是否被正确答复)。咱们在别的两千名模仿测验学生身上评价了猜测功用。关于每个数字的概念,咱们用不同的随机生成的数据重复试验20次,以评价准确性的均匀值和规范误差。 可汗学院数据:咱们运用了可汗学院八年级一起中心课程中匿名学生标题交互的样本。该数据集包括47,495名学生完结的140万个操练序列,触及69种不同的锻炼类型。它不包括任何个人信息。只要从事这篇论文的研讨人员才有权访问这个匿名数据集,而且它的运用受一项协议的束缚,该协议旨在依据可汗学院的隐私通知保护学生隐私。Khan Academy供给了一个特别相关的学习数据来源,由于学生经常与该网站进行长时刻的互动和各种内容的互动,而且学生在他们研讨的主题和他们阅览材料的轨道上往往是自我教导的。

基准数据集: 为了了解咱们的模型与其他模型比较有何不同,咱们在Assistments 2009-2010“Skills Builder”公共基准数据集上评价了模型。Assistments 是一个在线教导平台,能够一起教授和评价学生的小学数学。据咱们所知,它是最大的公开可用的常识追寻数据集。

6 成果

在一切三个数据集上,深度常识追寻都大大优于曾经的办法。

在可汗数据集上,运用LSTM神经网络模型得到的AUC为0.85,这比规范BKT的功用(AUC=0.68)有了明显的改善,特别是与BKT在边沿基线(AUC=0.63)上供给的小幅改善比较。参见表1和图3(B)。在Assistments数据集上,DKT比之前最好的报告成果(AUC分别为0.86和0.69)添加了25%。咱们在AUC中报告的收益与边沿基线(0.24)比较,是迄今停止在数据集上完成的最大收益(0.07)的三倍多。

来自组成数据集的猜测成果为深度常识追寻的才能供给了风趣的证明。 LSTM 和 RNN 模型在猜测学生的反响方面做得很好,由于它完全了解一切模型参数(而且只需求习惯潜在的学生常识变量)。参见图3(A)。为了获得与oracle相同的准确性,模型有必要模仿包括以下功用的功用: 潜在概念,每次操练的难度, 学生常识的先验分布和每次操练之后概念技能的掌握度和熟练度。比较之下,BKT的猜测跟着躲藏概念数量的添加而大幅下降,由于它没有学习未标记概念的机制。

《Deep Knowledge Tracing》2015 NIPS论文翻译

咱们测验了咱们从Assistment数据会集智能地挑选五个概念子集的操练的才能。 关于每种课程办法,咱们运用咱们的DKT模型来模仿学生怎么答复问题,并评价学生在30次操练后了解程度。咱们重复了500次学生模仿,并测量了学生未来答对问题的均匀猜测概率。 在Assistment上下文中,堵塞战略比混合战略具有明显优势。参见图3(C)。尽管阻断战略的体现与一个求解最大期望值的操练题的体现适当(MDP-1),假如咱们在挑选下一个问题时更深入地展望未来,咱们会提出这样的课程,让学生在处理更少的问题后具有更高的猜测常识(MDP-8)。

在组成数据集的猜测成果的准确性标明运用DKT模型有或许提取出被评价数据集之间的潜在结构关系。咱们的模型对组成数据集的条件影响图显现了五个潜在概念的完美聚类(见图 4),咱们的模型对组成数据集的条件影响图显现了五个潜在概念的完美聚类(参见图 4),运用等式 4 中的影响函数设置有向边。

一个风趣的查询是,来自同一概念的一些操练题在同一时刻相距很远。例如,在节点号描绘序列的组成数据会集,组成数据会集的第五个操练来自躲藏的概念1,尽管直到第22个问题时,才提出了来自同一概念的另一个问题, 咱们能够了解到两者之间存在着很强的条件依赖性。 咱们运用相同的技能剖析了Khan数据集。 由此发生的图表令人信服地阐明了8年级公共中心中的概念是怎么相互关联的(见图4。节点编号描绘了操练标签)。 咱们将剖析束缚在有序的操练对{A,B}中,使得在A呈现之后,B在序列的其余部分中呈现的时刻超过1%)。为了确定由此发生的条件关系是否是数据中明显潜在趋势的产品,咱们将咱们的成果与两个基线测量值进行了比较:(1) 学生在刚答复 A 的情况下答复 B 的搬运概率;(2) 数据会集(不运用 DKT 模型)在学生早先正确答复 A 的情况下正确答复 B 的概率。两种基线办法都生成了不一致的图表,如附录所示。尽管咱们发现的许多关系关于教育专家来说或许并不令人惊奇,但他们的发现必定了 DKT 网络学习了一个连贯的模型。

《Deep Knowledge Tracing》2015 NIPS论文翻译

7 讨论

在本文中,咱们将 RNN 运用于教育中的常识追寻问题,在 Assistments 基准和 Khan 数据集上显现出优于从前最早进功用的改善。咱们的新模型的两个特别风趣的新特性是(1)不需求专家注释(能够自己学习概念模式);(2) 它能够对任何能够向量化的学生输入进行操作。与简略的隐马尔可夫办法比较,RNN 的一个缺点是它们需求很多的操练数据,因而非常合适在线教育环境,但不适用于小型课堂环境。

RNN在常识追寻中的运用为未来的研讨供给了许多方向。进一步的查询能够将其他特征作为输入(例如花费的时刻),探究其他教育影响(例如提示生成,停学猜测),并验证教育文献中提出的假定(例如距离重复,模仿学生怎么忘掉)。由于 DKT 选用向量输入,所以应该能够盯梢更杂乱的学习活动的常识。一个特别风趣的扩展是在学生处理敞开式编程使命时盯梢他们的常识。运用最近开发的程序向量化办法 ,咱们期望能够在学生学习编程时智能地模仿学生的常识。

在与Khan Academy的继续协作中,咱们计划在一个对照试验中测验DKT对课程规划的有效性,经过在网站上提出操练。

论文地址:proceedings.neurips.cc/paper/2015/…