敞开成长之旅！这是我参加「日新计划 12 月更文应战」的第7天，点击查看活动概况

How Deep is Knowledge Tracing

摘要

在理论认知科学中，在高度结构化的模型和高度杂乱的通用模型之间存在着紧张联系，前者的参数具有直接的心了解说，而后者的参数和标明很难解说。前者一般能供给更多的认知洞察力，但后者的体现往往更好。这种紧张联系最近在教育数据发掘范畴浮出水面。在教育数据发掘范畴，一种深度学习办法经过一系列操练来猜想学生的体现，这种办法被称为深度常识盯梢(DKT)，与该范畴的支柱贝叶斯常识盯梢(BKT)比较，显示出惊人的功能优势。在本文中，咱们试图经过考虑DKT能够运用但BKT无法运用的数据中核算规则性的来源来了解DKT优势的根底。咱们假定BKT未能运用的四种规则性形式：新近效应、情境化的实验序列、技术间的相似性和才能的个体差异。咱们证明，当BKT被扩展到答应它在建模核算规则方面具有更大的灵活性时——运用之前在文献中提出的扩展——BKT完成了与DKT没有差异的功能水平。咱们以为，虽然DKT是一个强壮的、有用的、通用的学生学习建模结构，但它的收益并不来自于发现新的表征–深度学习的根本优势。为了答复咱们标题中提出的问题，常识追寻或许是一个不需求“深度”的范畴；像BKT这样的浅层模型也能够体现得相同好，并为咱们供给更大的可解说性和解说力。

1. 引言

在曩昔的40年里，机器学习和认知科学阅历了许多范式改变，但很少有像最近对深度学习的兴趣激增那样戏剧性的[16]。虽然深度学习只不过是1990年左右盛行的神经网络技术的更新换代，但由于比1990年更快的核算资源和更大的数据集，深度学习现已取得了一些显著的效果。深度学习是语音辨认、言语处理和图画分类中最先进的体系的根底[16，26]。深度学习还负责为图画制作字幕[29]、创立组成图画[9]、玩视频游戏[19]甚至围棋[27]的体系。

深度学习中的深度是指模型输入和输出之间的多个层次的表征转化。例如，图画分类模型能够将像素值作为输入，并产生图画中的对象的标签作为输出。在输入和输出之间是一系列标明转化，这些标明转化顺次结构了高阶特征——这些特征对光照条件和图画中物体的方位不太灵敏，而对物体的身份及其定性联系更灵敏。深度学习发现的特征体现出杂乱性和奇妙性，使它们难以剖析和了解（例如，[31]）。此外，没有任何人类工程师能够像深度学习发现的处理计划那样彻底和精确地提出处理计划。深度学习模型根本上对错参数的，由于解说网络中的单个权重和单个单元激活简直是不或许的。这种不透明度与参数模型（例如线性回归）形成鲜明对比，其间每个系数对手头的问题和输入特征都有明晰的解说。

在一个接一个的范畴，深度学习取得了超过传统办法的效果。深度学习丢掉手工制作的特征，而支撑标明学习，而且深度学习一般忽略范畴常识和结构，而支撑海量数据集和对模型的一般架构束缚(例如，具有空间部分性的模型来处理图画，以及具有部分时刻束缚的模型来处理时刻序列)。

深度学习将不可避免地运用于学生学习数据[22]。这一范畴传统上一直是教育数据发掘社区的职权范围，其间贝叶斯常识盯梢(BKT)是首要的核算办法[3]。对学生数据建模的深度学习办法被称为深度常识盯梢或DKT，当它出现在2015年12月的神经信息处理体系会议上时，引起了轰动，包括媒体问询(N.Heffernan，个人社区)和博客圈中对作业的描绘(例如，[7])。皮耶希等人[22] 陈述了在两个实在国际数据集（Assistments，可汗学院）和一个组成数据集上运用 DKT 比 BKT 的猜想功能有显着改善，该数据集是在不针对 DKT 或 BKT 的假定下生成的。据报道，DKT 在 AUC（一种猜想质量的衡量规范）方面比之前在 Assistments 基准上的最佳成果添加了 25%。

在本文中，咱们探讨了 DKT 的成功。这种探究的一种办法或许是对 DKT 进行实验，删去模型的组件或修改输入数据以确认哪些模型组件和数据特征对 DKT 的功能至关重要。咱们选用另一种办法，首要提出关于 DKT 能够运用但 BKT 不能运用的数据中的信号的假定。鉴于这些假定，咱们主张对 BKT 进行扩展，为其供给额定的灵活性，而且咱们评价增强的 BKT 是否能够到达与 DKT 适当的成果。这个进程不仅能够更好地了解 BKT 和 DKT 的不同之处，还能够帮助咱们了解数据源中的结构和核算规则。

1.1 学生学习建模

咱们关注的范畴是电子教导体系，它选用认知模型来盯梢和评价学生的常识。关于学生知道什么和不知道什么的概念答应教导体系动态调整其反响和指导，以优化学习的深度和功率。

最终，学习的衡量规范是学生能够运用所学技术的程度。因而，学生建模一般被表述为时刻序列猜想：给定学生之前尝试过的一系列操练以及学生在每个操练中的成功或失利，猜想学生在新操练中的体现。形式上，数据由一组二进制随机变量组成，指示学生 s 是否在操练 t 上产生正确的呼应，{ $X_{st}$ }。数据还包括操练标签{ $Y_{st}$ }，它表征了操练。辅佐数据也被归入模型，包括学生对提示的运用、呼应时刻和特定操练的特征以及学生对相关操练的特定前史[2, 30]。虽然此类数据改善了猜想，但该范畴的大部分研讨都会集在首要衡量规范上——反响成果是否正确——而正确的研讨战略是根据原始数据确认最佳模型，然后确认怎么兼并辅佐数据。

操练标签或许会索引特定操练，例如 3 + 4 与 2 + 6，或许它或许供给更一般的操练特征，例如单个数字加法。在后一种情况下，操练按取得处理计划有必要运用的技术进行分组。虽然咱们将在本文中运用术语skill，但其他人将skill称为knowledge component，而且 DKT 的作者也运用术语concept。不论怎么，就咱们的作业而言，重要的差异在于，一个标签标明特定的操练，另一个标签则标明进行操练所需的一般技术。咱们将这两种类型的标签别离称为操练索引（exercise indexed）和技术索引（skill indexed）。

1.2 常识追寻

BKT模仿特定技术的体现，即在一系列操练中的体现，这些操练都运用了相同的技术。为每个技术创立单独的BKT实例化，并将学生的原始实验序列解析为特定于技术的子序列，这些子序列保存技术内操练的相对次序，但丢掉不同技术之间的操练次序联系。关于给定的技术，运用来自每个学生的数据{ $X_{st}|Y_{st}=$ }来操练BKT，其间保存了相对的试用次序。由于对咱们来说，差异技术中的肯定实验指数和相对实验指数是很重要的，所以咱们用t标明前者，用i标明后者。

BKT根据要么全有要么全无的人类学习的理论[1]，该理论假定学生在需求某种技术 $K_{si}$ 第i个操练之后的常识状况是二进制的：假如技术现已把握，则为1，否则为0。BKT被形式化为一个隐马尔科夫模型，从实验1 … i，{ $X_{s1},X_{s2},…,X_{sI}$ 的查询反响序列中揣度出能 $K_{si}$ BKT一般由四个参数指定：P( $K_{s0}$ =1)，学生在处理第一个习题之前现已把握该技术的概率；P( $K_{s,i+1}=1|K_{si}=0$ )，从非把握状况到把握状况的转化概率；P $X_{si}=1|K_{si}=0$ )，在把握技术之前正确猜想答案的概率；以及P( $X_{si}=0|K_{si}=1$ )，由于在把握技术后出现失误而导致答复过错的概率。。由于BKT一般用于短时刻距离的建模实践，因而该模型假定没有忘记，即K不能从1过渡到0。

BKT 是一种高度束缚的结构化模型。它假定学生的常识状况是二元的，猜想需求给定技术的操练的体现仅取决于学生的二元常识状况，而且与每个操练相关的技术是预先知道的。假如正确，这些假定答应模型做出强有力的推论。假如不正确，它们会束缚模型的功能。确认模型假定是否正确的唯一办法是构建一个做出不同假定的代替模型，并确认该代替模型是否优于 BKT。 DKT 正是这种代替模型，其强壮的功能引导咱们审视 BKT 的局限性。但是，首要，咱们扼要描绘 DKT。

DKT不是为每种技术构建单独的模型，而是联合建模一切技术。模型的输入是操练-体现对的完好序列，{ $X_{s1},Y_{s1})…(X_{st},Y_{st})…(X_{sT},Y_{sT})$ }，一次出现一个实验。如图 1 所示，DKT 是一个循环神经网络，它以 ( $X_{st},Y_{st})$ ) 作为输入并为每个或许的操练标签猜想 $X_{s,t+1}$ 。该模型根据测验操练 ( $Y_{s,t+1}$ ) 的实际与猜想的 $Y_{s,t+1}$ 之间的匹配进行操练和评价。除了别离标明当前实验和下一次实验的输入层和输出层之外，网络还具有具有完全循环衔接的躲藏层(即，每个躲藏单元衔接回一切其他躲藏单元)。因而，躲藏层用于保存输入前史的相关方面，能够充分运用这些输入前史的相关方面来猜想未来体现成果。网络的躲藏状况能够了解为体现了学生的常识状况。Piech等人[22]运用了一种特别类型的躲藏单元，称为LSTM（长短期回忆）[10]，这很有趣，由于这些躲藏单元的行为十分相似于BKT潜在常识状况。简略地解说一下LSTM，每个躲藏单元的效果就像一个存储单元，能够容纳一些信息。输入中的事情或其他躲藏单位的状况会触发该单位的敞开或关闭，但当没有特定触发时，该单位保存其状况，十分相似于BKT中的潜在状况是粘性的-一旦学习了一项技术，它就坚持学习状况。DKT有200个LSTM躲藏单元–这是[22]中陈述的模仿中运用的数量–和50个技术，DKT大约有250,000个自在参数(衔接强度)。将这个数字与BKT中包括50种不同技术所需的200个免费参数进行对比。

《How Deep is Knowledge Tracing》2016 论文翻译

DKT的灵活性进步了数千倍，是一个十分通用的体系结构。能够在具有特定的受限衔接强度集的DKT中完成相似于BKT的动态。但是，DKT显然有才能对BKT范围之外的学习动态进行编码。这种才能使DKT能够发现BKT遗失的数据中的结构。

1.3 BKT在哪里有不足之处？

在这一部分中，咱们描绘了咱们推测在学生体现数据中存在的四个规则。DKT满足灵活，有或许发现这些规则，但更受束缚的BKT模型根本不是为了运用这些规则而精心设计的。在接下来的章节中，咱们主张扩展BKT的办法来运用这些规则性，并进行模仿研讨以确认增强的BKT是否到达与DKT适当的功能

1.3.1 近因效应

人类行为是由近因驱动的。例如，当个体重复履行选择使命时，能够经过最近影响的指数衰减均匀值来猜想呼应推迟[12]。直观地说，人们或许期望在学生体现中查询到近因效应。例如，考虑一个学生的时变参加度。假如参加度相关于处理操练的速度改变很慢，就会在不同时刻段的体现上产生相关。假如一名学生在前次测验中体现欠安，由于他们分神了，那么他很或许在当前测验中体现欠安。咱们运用Assistments数据集对新近情况进行了简略评价(稍后将描绘该数据集的细节)。与[5]相似，咱们建立了一个自回归模型，该模型将当前实验的功能猜想为曩昔实验功能的指数加权均匀，衰减半衰期约为5步。咱们发现，这个单参数模型比经典的BKT模型对Assistments数据的拟合更可靠。（咱们没有展示这个模仿的细节，由于咱们将在下一节中评价这个主意的一个更严厉的变体。咱们在这里的方针是让读者相信，新近加权猜想的概念或许有一些价值。）

与更远的事情比较，循环神经网络更容易遭到序列中最近事情的影响[20]。因而，DKT 十分合适运用最近的功能进行猜想。比较之下，根据 BKT 的生成模型假定，一旦学习了一项技术，功能将坚持微弱，而且时刻 t 的失误与 t + 1 的失误无关

1.3.2 情境化实验序列

关于操练多种技术的心思学文献标明，操练的次序影响学习和坚持(例如，[24，25])。例如，给定技术 A 和 B 各三个操练，以交织的次序 $A_1-B_1-A_2-B_2-A_3-B_3$ 出现操练相关于以块状次序出现操练 $A_1-A_2-A_3-B_1–B_2–B_3$ 产生更好的功能。（这种情况下的功能能够根据立即或推迟测验。）

由于DKT是依照学生承受操练的次序来反响整个操练序列的，所以它能够潜在地揣度出操练次序对学习的影响。比较之下，由于经典的BKT将操练按技术分隔，只保存技术中操练的相对次序，所以BKT的操练次序是相同的，不论实验次序是分块的还是交织的。

1.3.3 技术间相似性

出现给学生的每个操练都有一个相关的标签。在 BKT 的典型运用中，以及 Piech 等人陈述的三个模仿中的两个。 [22]——标签标明处理问题所需的技术。任何两个这样的技术，和，它们的相关程度或许会有所不同。相关性越强，人们就越期望在发掘这两种技术的操练中体现出更高的相关性，这两种技术同时学习的或许性就越大。

DKT具有编码技术间相似性的才能。假如每个躲藏单元标明特定技术的学生常识状况，则躲藏到躲藏的衔接能够堆叠程度。在极点情况下，假如两种技术高度相似，则能够经过单个躲藏的常识状况来建模。比较之下，经典的BKT将每个技术视为独立的建模问题，因而无法发现或运用技术间的相似性。

正如 Piech 等人所证明的那样，DKT 具有额定的优势，即它能够习惯没有技术标签的情况。假如每个标签仅仅简略地索引一个特定的操练，DKT 能够发现操练之间的相互依赖，就像它发现技术之间的相互依赖相同。比较之下，BKT 要求对操练标签进行技术索引。

1.3.4 个人才能差异

学生的才能各不相同，这反映在实验和技术的均匀精确率上的个体差异。个体差异或许会以一种猜想性的办法运用：不论处理操练所需的技术怎么，学生在序列中早期实验的精确性或许会猜想后来的实验的精确性。咱们运用Assistments数据集对这一假定进行了简略的验证。在这个数据会集，学生一次学习一项技术，然后继续学习下一项技术。关于一切学生和n∈{1，…，N−1}，咱们核算了关于前n项技术的一切实验的均匀精度与关于技术n+1的一切实验的均匀精度之间的相关性，其间N是学生学习的技术的数量。咱们得到了0.39的相联系数：不论涉及到什么技术，在早期学习的技术上体现良好的学生往往在后来的技术上体现得更好。

DKT供给了学生的完好实验序列。它能够运用学生在实验t之前的均匀精确度来猜想实验t+1。由于BKT将每个技术与其他技术分隔建模，因而它不具有估量学生均匀精确度或整体才能所需的上下文信息。

2. 扩展BKT

在前一节中，咱们描绘了数据中好像存在的四种规则，咱们推测DKT能够运用这些规则，但经典的BKT模型不能运用它们。在本节中，咱们将描绘BKT的三种扩展，使BKT与DKT在这些规则方面坚持共同。

2.1 忘记

为了更好地捕捉新近效应，能够扩展BKT以答应忘记技术。忘记对应于拟合BKT参数F≡P( $K_{s，i+1}=0|K_{si}=1$ )，即从知道状况转化到不知道一项技术的概率。在规范BKT中，F=0。

别忘了，一旦 BKT 揣度出学生现已学会了，即使是长时刻体现欠安的实验也无法改变揣度的常识状况。但是，跟着忘记，常识状况能够向任一方向改变，这使得模型对最近的实验更加灵敏：一次不成功的实验标明不知道该技术，不论在运转之前是什么。忘记对 BKT 来说并不是一个新概念，现实上，它被包括在作为二元常识状况概念根底的原始心思学理论中 [1]。但是，它一般没有被归入 BKT。当它被包括在 BKT [23] 中时，其动机是模仿从一天到下一天的忘记，而不是在更短的时刻范围内产生忘记。

结合忘记不仅能够使BKT对最近的事情灵敏，还能够使实验序列情境化。为了进行解说，考虑一个操练序列，如 $A_1-A_2-B_1-A_3-B_2-B_3-A_4$ ，其间标签是技术A和技术B的实例。一般BKT丢掉了给定技术两次操练之间的肯定实验次数，但经过忘记，咱们能够核算干涉实验次数，并将每个实验视为忘记产生的独立机会。因而， $A_1$ 和 $A_2$ 之间的忘记概率为F，但 $A_2$ 和 $A_3$ 之间的忘记几率为 $1− (1 − F)^2$ , $A_3$ 和 $A_4$ 之间为 $1− (1 − F)^3$ 。运用忘记，BKT能够很容易地归入一些关于肯定实验序列的信息，因而比经典的BKT更有或许对操练序列中的穿插实验灵敏。

2.2 技术发现

为了对技术之间的交互进行建模，能够假定每个技术对其他技术的学习都有必定程度的影响，这与 DKT 中躲藏单元之间的衔接不同。为了让 BKT 答应技术之间的这种交互，独立的 BKT 模型需求相互衔接，运用诸如阶乘隐马尔可夫模型 [6] 之类的架构。作为这种有点杂乱的办法的代替计划，咱们探究了一种更简略的计划，其间不同的操练标签能够折叠在一同形成一个单一的技术。例如，考虑一个操练序列，如 $A_1-B_1-A_2-C_1-B_2-C_2-C_3$ 。假如技术A和B是高度相似或堆叠的，以至于学习一个能够猜想学习另一个，那么更正确的做法是将A和B归入一个技术序列，并在A和B的实验中操练一个BKT实例。不论操练标签是技术指数还是操练指数，都能够运用这种办法。（Piech 等人 [22] 用于激励 DKT 的数据集之一具有操练索引标签）。

咱们最近提出了一种推理程序，自动发现精确建模给定数据集所需的认知技术[18]。（在 [8] 中独立提出了一个相关程序。）该办法将 BKT 与查找操练标签的分区的技术结合起来，以同时（1）确认正确答复每个操练所需的技术，以及（2）为 a学生每项技术的动态常识状况。形式上，该技术将每个操练标签分配给一项潜在技术，以便学生对一系列相同技术操练的预期精确性根据 BKT 的操练单调进步。咱们的技术并没有丢掉专家确认的技术，而是在根据专家供给的技术和加权的中餐厅流程 [11] 的运动技术分配上结合了非参数先验。

在上图中，咱们的技术将A和B分组为一种技术，将C分组为另一种技术。这个进程就像技术(或操练)相同溃散，产生了更符合BKT数据的成果。因而，该进程履行一种技术发现。

2.3 结合潜在的学生才能

为了解说学生才能的个体差异，咱们对BKT[14，13]进行了扩展，使得失误和猜想的概率由从数据中揣度的潜在才能参数来调节，这与项目反响理论[4]的精神十分相似。正如咱们在[14]中所做的那样，咱们假定才能较强的学生有较低的失误和较高的猜想概率。当模型出现给新学生时，开始运用的是才能的后验猜想散布，但跟着查询到新学生的反响，学生才能的不确认性减少，对学生产生更好的猜想。

3. 模仿

3.1 数据集

Piech等人[22]研讨了三个数据集。其间一组数据来自可汗学院，没有揭露。虽然咱们提出了要求，而且DKT论文的一位一同作者提出了恳求，但咱们未能取得汗学院数据科学团队的许可，无法运用数据集。咱们查询了Piech等人的其他两个数据集，如下所示。

Assistments是一个智能教导体系，对学生进行年级数学的教育和评价。2009-2010年的 “技术建设者 “数据集是一个大型的、规范的基准数据集，能够在网上查找assistment-2009-2010-data。咱们运用了Piech等人供给的操练/测验切割，而且依照Piech等人的做法，咱们放弃了一切只有一次实验数据的学生。

SYNTHETIC是由Piech等人创立的组成数据集。对学习虚拟技术的虚拟学生进行建模。操练和测验集别离由2000名虚拟学生组成，他们从5项技术中抽取50个操练，进行相同的序列。假定实验t中的操练具有以 $$ 为特征的难度，而且需求指定的技术。操练由操练的标识而不是根底技术 $_t$ 符号。学生的才能（标明为）根据漂移分散进程随时刻改变，一般跟着操练而添加。实验 t 的呼应正确性是一个伯努利平局，概率由猜想校正的项目呼应理论指定，难度和才能参数为和。该数据集对 BKT 具有应战性，由于没有供给技术分配，有必要从数据中揣度出来。假如没有技术分配，BKT 有必要与与单个技术相关的一切操练或与其本身技术相关的每个操练一同运用。这些假定中的任何一个都会错过数据中的重要结构。 Synthetic 是一个有趣的数据集，由于底层生成模型既不是 DKT 或 BKT 的完美匹配（即使咱们现已描绘了增强）。生成性模型假定常识状况不断改变，这一假定好像是实际的。

咱们在模仿中加入了两个额定的数据集。SPANISH是182名中学生的数据集，他们在15周的学期中操练了409个西班牙语操练(翻译和运用动词词缀等简略技术)，一共进行了578,726次操练[17]。STATICS来自一门大学等级的工程静力学课程，有189,297个实验和333名学生和1,223个操练[28]，可从PSLC DataShop网站[15]取得。

3.2 办法

咱们评价了BKT的五个变种，每个变种都兼并了上一节中描绘的扩展的不同子集：对应于经典模型的根本版别和DKT在[22]中评价所根据的模型，咱们将简称为BKT；包括忘记的版别（BKT+F），包括技术发现的版别（BKT+S），包括潜在才能的版别（BKT+A），以及包括一切三个扩展的版别（BKT+FSA） .咱们还运用 LSTM 循环单元构建了自己的 DKT 完成。（Piech 等人将 LSTM 版别描绘为功能更好，但只发布了规范递归神经网络版别的代码。）咱们验证了咱们的实验产生的成果与[22]中关于ASSISTMENTS和SYNTHETIC的描绘的成果适当。然后，咱们还在SPANISH和STATICS上运转了模型。

关于ASSISTMENTS、SPANISH和STATICS，咱们运用了单一的操练/测验拆分。ASSISTMENTS操练/测验拆分与 Piech 等人运用的相同。关于 Synthetic，咱们运用了 Piech 等人供给的 20 个模仿集。和 20 次模仿的均匀成果

在每个范畴的测验数据集上对每个模型进行评价，并运用可辨认性分数、ROC曲线下的面积或AUC来量化模型的功能。AUC的范围从0.5到1.0，前者反映的是没有才能差异正确和不正确的答复，后者反映的是完美的区分才能。AUC的核算办法是：在一切技术范围内取得每个实验的测验集猜想，然后运用完好的猜想集形成ROC曲线。虽然Piech等人[22]没有描绘他们用于核算DKT AUC的程序，但他们供给的代码完成了咱们描绘的程序，而不是显着的代替程序，其间ROC曲线是根据每项技术核算的，然后均匀以取得整体AUC。

3.3 成果

图2显示了咱们在四个数据集上对BKT的五个变体进行比较的成果。咱们从左到右遍历数据集。

在辅佐方面，经典的BKT取得了0.73的AUC，好于Piech等人报道的BKT的0.67。咱们不确认为什么分数不匹配，虽然0.67挨近咱们取得的AUC分数，假如咱们将一切操练视为与单一技术相关，或许假如咱们根据每个技术核算AUC然后再核算均匀值。BKT+F取得0.83的AUC，没有Piech等人陈述的DKT的0.86值好。考察了BKT的各种增强，AUC经过归入忘记和归入潜在的学生才能而得到进步。咱们发现有点令人费解的是，BKT+FSA中体现的两种增强的组兼并不比BKT+F或BKT+A更好，由于这两种增强运用了数据的不同特点：学生的才能有助于猜想从一种技术到下一种技术的转移，而忘记有助于在一种技术中进行猜想。

总结BKT和DKT的比较，在[22]中陈述的功能差异的31.6%好像是由于在核算BKT的AUC时运用了有成见的程序。假如扩展BKT以答应忘记，那么陈述的另外50.6%的功能差异就消失了。假如咱们答应技术发现算法与索引单个操练的操练标签一同操作，而不是运用索引与每个操练相相关的技术的标签来操作，咱们能够进一步改善BKT。运用操练指数标签，BKT+S和BKT+FSA都取得了0.90的AUC，超过了DKT。但是，考虑到DKT履行技术发现的才能，假如它在被答应运用操练索引标签时也取得了相似水平的功能，咱们也不会感到惊奇。

转向SYNTHETIC，经典BKT取得的AUC为0.62，再次显著优于Piech等人陈述的0.54。在咱们的模仿中，咱们将每个操练视为具有不同的技术标签，因而BKT只学习特定操练的均匀功能水平。（由于操练是以固定次序出现的，所以操练身份和实验编号混杂。由于跟着实验在组成数据中的推进，功能趋于改善，BKT能够学习这种联系。）在这里，Piech等人或许将一切操练视为与单一技术相关，或许他们运用了有成见的程序核算AUC，这两种解说均与陈述的AUC 0.54共同。

关于 BKT 的增强，添加学生才能 (BKT+A) 改善了对 Synthetic 的猜想，这是能够了解的，由于生成进程模仿了才能随时刻缓慢改变的学生。添加忘记（BKT+F）并没有帮助，这与假定常识水均匀匀跟着实践而添加的生成进程共同；学生模仿中没有体系性忘记。该模仿的要害是技术归纳：BKT+S 和 BKT+FSA 的 AUC 为 0.80，优于 [22] 中报道的 DKT 的 0.75。

在 Statics 上，每个 BKT 扩展都比经典 BKT 有所改善，虽然改善的起伏很小。完好模型 BKT+FSA 取得了 0.75 的 AUC，咱们的 DKT 完成取得了简直相同的 AUC 0.76。在SPANISH上，BKT 扩展取得的优点很少。完好模型 BKT+FSA 取得了 0.846 的 AUC，DKT 取得了简直相同的 AUC 0.836。这两组成果标明，至少关于某些数据集，经典 BKT 没有显着的缺点。但是，咱们注意到，假如考虑运用由操练而不是技术索引的操练标签的算法，则能够进步 BKT 模型的精确性。例如，运用 Statics，运用操练索引标签履行技术发现，[17] 取得 0.81 的 AUC，比咱们在这里陈述的根据技术索引标签的 BKT+S 得分 0.73 好得多。

总而言之，增强的BKT在四个数据集上的均匀体现好像与DKT相同好。增强型BKT在SYNTHETIC数据集方面比DKT高20.0%(0.05 AUC单位)，在SPANISH上高3.0%(0.01 AUC单位)。增强的BKT在ASSISTMENTS方面比DKT低8.3%(0.03 AUC单位)，在STATICS方面比DKT低3.5%(0.01 AUC单位)。这些百分比是根据衡量的AUC的差异，这考虑到0.5 AUC 标明没有差异性这一现实。

4.讨论

咱们在本文中的方针是查询深度常识盯梢相关于贝叶斯常识盯梢令人形象深刻的猜想优势的根底。咱们在[22]中发现了一些依据，标明不同的程序或许被用来评价DKT和BKT，导致了对BKT的成见。当咱们重复[22]中陈述的BKT模仿时，咱们取得了显著更好的功能：Assistments上的AUC为0.73比0.67，而SYNTHETIC上的AUC为0.62对比0.54。

但是，即使消除了误差，DKT也比BKT取得了真正的功能提升。为了了解这些收益的根底，咱们假定了数据中的各种形式的规则性，而BKT无法运用这些规则性。咱们提出了对BKT的增强，以答应它运用这些规则，咱们发现，在测验的四个数据集上，扩展的BKT取得了与DKT没有差异的均匀功能水平。咱们探究的增强并不是新的；它们以前现已在文献中提出和评价过。它们包括忘记[23]、潜在的学生才能[14、13、21]和技术诱导[17、8]。

咱们查询到，对BKT的不同增强关于不同的数据集很重要。关于Assistments来说，归入忘记是要害；忘记能够让BKT捕捉到最近的影响。关于SYNTHETIC来说，结合技术发现产生了巨大的收益，当操练-技术图谱未知时，人们会预料到这一点。关于Statics来说，归入潜在的学生才能相对来说是最有利的；这些才能使模型能够梳理出学生的才能和操练或技术的内涵难度。在这三项增强中，忘记和学生才能的完成在核算上并不昂贵，而技术发现则为推理添加了额定的核算杂乱性。

当考虑到咱们为使BKT与DKT平起平坐而投入的尽力时，DKT的优雅是显而易见的。DKT不要求其创立者剖析范畴并确认数据中的结构来源。比较之下，咱们增强BKT的办法需求一些范畴的专业常识，需求对BKT的束缚进行深思熟虑的剖析，以及针对每个束缚的独特处理计划。DKT是一种通用的递归神经网络模型[10]，它没有专门用于模仿学习和忘记、发现技术或揣度学生才能的结构。这种灵活性使DKT在各种数据集上具有健壮性，而简直不需求对域进行事前剖析。虽然操练循环网络是核算密集型的，但有工具能够运用图形处理单元(GPU)的并行处理才能，这意味着DKT能够扩展到大型数据集。经典的BKT合适起来并不昂贵，虽然咱们评价的变体–特别是结合了技术发现的模型–需求核算密集型MCMC办法，在并行化方面有一系列不同的问题。

DKT的优势是有价值的：可解说性。DKT是一个包括数万个简直无法解说的参数的海量神经网络模型。虽然DKT的创立者不必预先投入太多时刻来剖析他们的范畴，但他们的确有必要投入实际的尽力来了解模型实际学到了什么。咱们主张的BKT扩展完成了与DKT相似的猜想功能，同时仍可解说：模型参数(健忘率、学生才能等)。在心思上是有含义的。当技术发现被归入BKT时，成果很显着：将操练区分为技术。从DKT中读出这样的区分是具有应战性的，而且仅仅DKT中常识的近似标明。

最终，咱们回到论文标题中提出的问题：常识追寻有多深？深度学习指的是发现表征。咱们的成果标明，表征发现并不是DKT成功的核心。咱们根据这样一个现实：咱们对BKT的增强使其在不需求任何种类的子符号标明发现的情况下到达了DKT的功能水平。标明发现在图画或语音分类等感知范畴中显然是要害的。但教育和学生学习的范畴是高层次和抽象的。模型的输入和输出元素具有心思学含义。学习者的相关心思状况具有必定的心思根底。操练和技术的特征能够–至少在必定程度上–象征性地表达出来。

咱们没有将DKT的成功归因于标明发现，而是将DKT的成功归因于它在直接捕获输入和输出中存在的核算规则方面的灵活性和一般性。只需有满足的数据来束缚模型，DKT就比经典的BKT更强壮。BKT出现在一个更简略的年代，在这个年代，数据和核算资源是名贵的。DKT揭示了大数据年代放松这些束缚的价值。但虽然深度学习广受欢迎，但有许多办法能够放松束缚，构建更强壮的模型，而不是创立一个黑匣子猜想设备，该设备包括大量相互相关的衔接和参数，简直无法解说。

5. 致谢

本研讨得到了NSF拨款SES-1461535、SBE-0542013和SMA-1041755的支撑。

6.参考资料

论文地址：arxiv.org/pdf/1604.02…

声明：本站所有文章，如无特殊说明或标注，均为本站原创发布。任何个人或组织，在未征得本站同意时，禁止复制、盗用、采集、发布本站内容到任何网站、书籍等各类媒体平台。如若本站内容侵犯了原著者的合法权益，可联系我们进行处理。

《How Deep is Knowledge Tracing》2016 论文翻译