您的当前位置:首页正文

多模态学习分析:走向计算教育时代的学习分析学

2020-11-18 来源:爱站旅游
导读多模态学习分析:走向计算教育时代的学习分析学
多模态学习分析:走向计算教育时代的学习分析学

作者:张琪 李福华 孙基男

来源:《中国电化教育》2020年第09期

摘要:利用跨数据源分析教与学规律的研究已成为教育技术学演进的重要力量。基于对多模态学习分析本质的理解,构建冰山隐喻分析模型,以阐释多模态数据流、数据建模与学习状态输出之间的关系,进而构造循环推理框架。该框架以环状流动表征了多模态学习分析的流程,流程起始于涵盖学习行为的输入空间,通过数据空间的分配标注,并在同步空间进行时空匹配使数据得以对齐,进而在融合空间中实现对“数字一推理”区域的构造,最终实现反馈输出以及对学习行为进行引导与千预的目的。多模态学习分析的研究需要继续加强复杂计算模型构建,建立学术研究共同体与开源生物数据库,扩展当前的互操作性标准,加强共同学习的模态互补研究,并将伦理价值和准则内嵌于框架设计之中,从而支撑计算教育学的建立与下一代互联网教育创新。

关键词:多模态;学习分析;计算教育学;数据映射;研究框架 中图分类号:G434 文献标识码:A 一、引言

计算教育时代,复杂学习问题的数据分析需求日益增加,由此产生的“数据驱动”研究范式,超越了从“基本原理视角构建模型”的一般方法,相关研究陆续涌现已成为不争的事实。基

于跨学科视角分析多种情境中的有效学习是教育技术学演进的重要力量。在学习分析领域,对学习者全维数据的需求不断增长,结合来自多个来源的数据已经成为教育研究的必要条件。2020年地平线报告归纳了学习分析领域的实践,认为当前教育机构评价与细粒度数据的补充支撑了对学习者成功的分析(AnalyticsforStudentSuccess),强调学习分析的跨功能数据联合与协调应用趋势B。多模态学习分析(MultimodalLearningAnalytics,MLA)为立体化地理解“互联网+教学”的规律奠定了基础。在多模态学习分析领域,教育的跨模态数据是研究的对象与起点,数据的分析与建模是主要研究方法,建筑在信息科学基础上的教与学问题研究赋予该领域独有的印记,其结果是建立解决复杂教育问题的数据模型与解释模型,指向智能教育的创新实践,为构筑新时代中国气派的教育学理论体系提供了支撑。 二、多模态与多模态学习分析

多模态(Multimodal)属于被广泛应用的概念,已在很多领域尤其在传播学与功能语言学领域得到了深人的应用。在传播学领域,多模态是指信息交流依赖的渠道和媒介,不同符号以交互方式传递信息与意义,每种模态可以通过一种或多种媒体进行表征。例如,言语可以被数字化记录在计算机中,也可以被编码为韵律指数或者震动产生压力所导致的分贝值变化。在功能语言学领域,从20世纪90年代开始,研究人员认识到话语分析除了言语之外,表情、手势、肢体语言等也是意义生成的有效模态,开辟了多模态话语分析的新领域。

学习者伴随时间分辨率的情感和认知状态与积极的学习成果有关。多模态术语指的是使用先进的传感器技术和机器学习建立和处理过程性学习数据的信息模型8),以研究复杂情景中的学习,在学习行为和学习理论之间建立桥梁!。多模态学习分析的萌芽是对“麦格克效应”(McGurkEffect)的阐释,结果产生了视听语音识别领域(AVSR);其成熟源于机器学习模型精度的改进,即纳入更多的数据特征维度并提升算法的表现。进人21世纪以来,表情识别、语义分析、情感计算、人因工程等领域的蓬勃发展,极大释放了多模态学习分析的潜能,多种模态建模会改善大部分研究的模型精度已成为学术界的共识。

从早期的语音识别(VR)研究到近期对自然语言处理(NLP)与视觉模型(VFM)的关注,多模态学习分析已成为一个充满朝气的研究领域。下一代的教育服务,将是多感官的\",多模态学习分析专注于学习过程中各相关模态相互作用的痕迹,将真实的教育问题置于数据驱动范式中重新审视,可以为学习空间创设和任务设计提供新思路。此外,在人工智能领域,实现计算机对真实世界的理解、解释和推理!\"2依然是一个巨大挑战。现有人工智能还不存在类似人脑多通道协同运作的体系。多模态学习分析的跨模态感知与推理有助于建立语义空间的联结,纳入结构化知识来帮助计算机深度认知,由此产生的“多模态智能”将成为人工智能未来的发展方向。

三、数据映射“冰山”模型

多模态学习分析研究是一种数据驱动型科学,计算教育学是一门“教育数据地质学”,两者具备共同的研究趋向。多模态学习分析给研究者带来了一些独特的挑战,这些挑战是由多模态数据的复杂和多种形式所造成的,其中关键的问题在于模态数据与学习状态对应关系的合理解读。尽管传感器提供了对肢体动作、面部表情、眼球运动等模态信号的记录与测量,但学习者潜在的特征很难进行界定。尤其当大量有意义的变量被纳人于研究者视线范围之內,如何处理好教育与信息两个层面价值的关系,建立模态数据与学习过程之间的映射关系至关重要。 为了清晰地说明多模态学习分析的数据流程,研究构建了数据映射分析模型,如图1所示。从最初可以被观测和记录的数模转换开始,即采集学习者的行为和学习情景数据,由传感器自动捕获形成多模态数据流,经历“数据建模”,生成学习状态的输出标签。在图1中,“观察一数字”线以下是不可观测区域,包括“观察一数字”至“数字一推理”之间的建模区域,以及“数字一推理”以下的表征区域。利用“冰山”隐喻可以明确地说明可见与不可见区域之间的关系:多模态数据流、数据建模与学习状态属于同一冰山的不同方面,水平面以上的属性是显性的,容易被记录与存储;“水平面之下”部分需要多层次的解释,越往下的部分越难以描述,解释程度取决于水平面之下的深度。

具体来看,“数据建模”中首要的是定义表征学习状态的组件,这取决于多模态数据的类型、算法选择以及需要输出的学习结果。其次需要对多模态数据流进行预处理,包括结构化、数据清洗,之后基于特征描述建立机器学习模型。常用的特征描述包括视觉目标检测的梯度方向直方图(HOG),以此来计算局部图像梯度的方向信息的统计值,描述人体的姿态运动数据的欧拉角(EAs),描述音频言语特征的梅尔频率倒谱系数(MFCC)。这些低阶特征数据被动态建模,利用联合隐藏条件随机场(JHCRF)、支持向量机(SVM)、隐马尔可夫模型(HMM)等算法实现中阶数据的训练和识别。

学习状态区域对应投入度、情感、认知、注意力等表征学习水平的“指标”。在这个层面,应用最成熟的是情绪识别。情绪被认为是生理变化的重要指数,在学习中起着重要作用”4。根据“体细胞标记假说”,前额叶在决策及情绪加工中的重要作用,尤其是颞上沟和杏仁核决策情绪的表达,以面部状态的变化表现出来1,因此,对面部特征的提取以及前额叶控制的眼动指标被广泛应用在情绪的建模。从更广的视角,生物系统学认为内环境的稳态(自稳态)是人体维系正常生理功能的必要条件,其中一个重要的指标是唤醒度。作为引起学习者生理反应程度的指标,高唤醒表明积极或反应模式支持学习。“神经内脏整合模型”

(NeurovisceralIntegrationModel)进一步揭示了人体如何作为一个复杂的互联系统协调工作。根据该理论,中枢自主网络(CAN)调控内脏活动、神经内分泌与行为反应间的关系叨,学习状态是学习者根据所接受的刺激和意图调整其功能,为目标定向准备充分的能源,以适应不断变化的外部环境需求而做的反应。

学习状态的“指标”数量和类型取决于三个方面。一是研究者的整体设计方案,包括被试样本数、传感器选择、时间与精力投入、技术权衡等。二是学习指标是否有充分的教与学理论做

支撑,能否有效干预。尤其是数据作为输出使用时,该指标必须让学习者明确如何才能提升该水平,具备一定的可操作性。此外,“偏差一方差权衡”(Bias-VarianceTradeof)思想对于判读学习状态的表征输出至关重要。偏差是指机器学习希望输出值与真实结果的偏离程度,是算法拟合能力的表征;方差是指度量训练数据集的波动引起的错误,即相同样本数训练集的变动所导致的学习性能的变化。在机器学习领域,增大偏差会导致方差减小,增大方差将减小偏差。根据该思想,表征学习状态指标的数量与其描述能力成正比,但它与其泛化性成反比。例如,支持向量机(SVM)算法通常拥有低偏差和高方差,但通过调整高斯核(GaussianKermel)参数Gamma值可以影响训练数据中允许违反边界的点的数目,会使偏差增大、方差减小。 通过上述建模输出,向学习者提供干预或提示反馈,激发学习者对状态的反思,以支持“学会学习”的能力,从而形成一个闭环控制系统。多模态学习分析的意义在于建立新的感觉运动环路,即以目标定向、学习责任和元认知水平调整为导向,借助反馈机制促使学习过程上升至良性发展的状态。 四、循环推理框架

基于上述分析,构造循环推理框架,以更为细致地解析多模态数据映射关系,并讨论分层分析的思想。如圖2所示,粗实线与虚线分别为“观察一数字”分割线以及“数字一推理”分割线,循环推理框架以环状流动为运作形式,起始于涵盖学习行为的输入空间,在数据空间进行分配标注实现数据表征,在同步空间中进行时空匹配使数据得以对齐融合,进而在融合空间中将各模型映射到同一个向量维度,实现对“数字一推理”区域的构造。最终对模型进行调参以及反馈输出,实现对学习行为的引导与干预,如此往复,进人下一轮循环。 (一)输入空间

动态、持续多模态数据源的汇聚是是科学量化教育问题的起点。输入空间是研究者定义的“观察一数字”线以上的区域。学习者在完成学习任务时,很自然地整合了各感觉器官的信息。根据“认知频谱”(BandsofCognition)的界定,生物频带集中在微秒的时间尺度上,该范畴行为由自主神经系统通过交感神经和副交感神经的相互协调,共同调节四肢、面部、心跳、内脏、腺体和血管壁压力,这种行为属于无意识的、非理性事件,从数据获取的角度位于连续区间。而由躯体神经系统控制的行为受学习者主观意识支配,可被视为理性事件,该类行为状态不具备连续性。“认知频谱”框架还阐释了“分解理论”(DecompositionThesis)与“关联理论”(RelevanceThesis)的概念。基于该理论,具备短时间、连续事件特征的非理性行为对于表征认知过程具有重要价值,是多模态数据的重要来源。

诚然,连续行为与非连续行为事件并非如此边界分明,应以更广的视角看待微观成分。当融合不同的数据流时,重要的考虑因素是正在使用以及所呈现结果的时间尺度。当前,输入空间还鲜有区分情景的研究。不同的学习场景,例如教师指导下的学习、自我报告、协作学习在行为与生理模式方面有着较大的差异。在面对面交流和社交互动中,非言语表达被认为占到九

成以上的表达意义叫。根据具身认知理论,肢体语言和肢体的运动学被认为在学习期间具有重要作用,学习者经常通过整合动作实现对事物的理解以及强化词语的含义2。因此,教育场景计算应面向不同场景“时间分辨率”中人与人、人与内容、人与情景的交互行为,建立全维感知能力与情景要素匹配的策略,研究场景解析模型与分析模型,进而实现场景计算的智能化。 根据学习行为的生理模式、运动方式,结合教育领域的常用传感器,从文本、语言、姿态、面部表情、眼动与生理标志物6个方面介绍常用的多模态数据源。 1.文本

文本数据在自然语言处理领域的应用已有数十年的历史。“互联网+”时代,文本信息可以轻松地从论坛、文档、测试、考试等途径收集,是极有价值的分析方式,其实践有可能会加速话语分析的研究。在学习科学领域,包含大量文本分析的研究,包括对文本内容的分类与编码分析,或者利用主题建模和聚类技术研究学习者的思维与直觉。文本的另一种形式是手写与勾勒,这种自然交互方式可以利用数字笔捕获,以量化不同表面上完成的笔划的位置、持续时间和压力。结合计算机视觉、多个摄像头可以分析写作速度、节奏和压力水平,区分不同写作模式从而量化学习者的知识贡献,识别群体中的专家。 2.语音

跟文本分析类似,语音数据允许学生在更自然的环境中流畅的表达,开辟了转录话语的可能性。在多模态学习分析领域,语音分析包括两个方面,一是语音识别,指提取语音的实际内容。分析的结果可以进一步利用自然语言处理工具分析转录本,以确定主题与谈论的内容。二是韵律特征分析,通过提取语音、语调、副语言等寻找更深层次的语义意义,以分析学习者的问题解决能力4、师生互动水平以及学习动机。

学习状态区域对应投入度、情感、认知、注意力等表征学习水平的“指标”。在这个层面,应用最成熟的是情绪识别。情绪被认为是生理变化的重要指数,在学习中起着重要作用”4。根据“体细胞标记假说”,前额叶在决策及情绪加工中的重要作用,尤其是颞上沟和杏仁核决策情绪的表达,以面部状态的变化表现出来1,因此,对面部特征的提取以及前额叶控制的眼动指标被广泛应用在情绪的建模。从更广的视角,生物系统学认为内环境的稳态(自稳态)是人体维系正常生理功能的必要条件,其中一个重要的指标是唤醒度。作为引起学习者生理反应程度的指标,高唤醒表明积极或反应模式支持学习。“神经内脏整合模型”

(NeurovisceralIntegrationModel)进一步揭示了人体如何作为一个复杂的互联系统协调工作。根据该理论,中枢自主网络(CAN)调控内脏活动、神经内分泌与行为反应间的关系叨,学习状态是学习者根据所接受的刺激和意图调整其功能,为目标定向准备充分的能源,以适应不断变化的外部环境需求而做的反应。

学习状态的“指标”数量和类型取决于三个方面。一是研究者的整体设计方案,包括被试样本数、传感器选择、时间与精力投入、技术权衡等。二是学习指标是否有充分的教与学理论做支撑,能否有效干预。尤其是数据作为输出使用时,该指标必须让学习者明确如何才能提升该水平,具备一定的可操作性。此外,“偏差一方差权衡”(Bias-VarianceTradeof)思想对于判读学习状态的表征输出至关重要。偏差是指机器学习希望输出值与真实结果的偏离程度,是算法拟合能力的表征;方差是指度量训练数据集的波动引起的错误,即相同样本数训练集的变动所导致的学习性能的变化。在机器学习领域,增大偏差会导致方差减小,增大方差将减小偏差。根据该思想,表征学习状态指标的数量与其描述能力成正比,但它与其泛化性成反比。例如,支持向量机(SVM)算法通常拥有低偏差和高方差,但通过调整高斯核(GaussianKermel)参数Gamma值可以影响训练数据中允许违反边界的点的数目,会使偏差增大、方差减小。 通过上述建模输出,向学习者提供干预或提示反馈,激发学习者对状态的反思,以支持“学会学习”的能力,从而形成一个闭环控制系统。多模态学习分析的意义在于建立新的感觉运动环路,即以目标定向、学习责任和元认知水平调整为导向,借助反馈机制促使学习过程上升至良性发展的状态。 四、循环推理框架

基于上述分析,构造循环推理框架,以更为细致地解析多模态数据映射关系,并讨论分层分析的思想。如图2所示,粗实线与虚线分别为“观察一数字”分割线以及“数字一推理”分割线,循环推理框架以环状流动为运作形式,起始于涵盖学习行为的输入空间,在数据空间进行分配标注实现数据表征,在同步空间中进行时空匹配使数据得以对齐融合,进而在融合空间中将各模型映射到同一个向量维度,实现对“数字一推理”区域的构造。最终对模型进行调参以及反馈输出,实现对学习行为的引导与干预,如此往复,进人下一轮循环。 (一)输入空间

动态、持續多模态数据源的汇聚是是科学量化教育问题的起点。输入空间是研究者定义的“观察一数字”线以上的区域。学习者在完成学习任务时,很自然地整合了各感觉器官的信息。根据“认知频谱”(BandsofCognition)的界定,生物频带集中在微秒的时间尺度上,该范畴行为由自主神经系统通过交感神经和副交感神经的相互协调,共同调节四肢、面部、心跳、内脏、腺体和血管壁压力,这种行为属于无意识的、非理性事件,从数据获取的角度位于连续区间。而由躯体神经系统控制的行为受学习者主观意识支配,可被视为理性事件,该类行为状态不具备连续性。“认知频谱”框架还阐释了“分解理论”(DecompositionThesis)与“关联理论”(RelevanceThesis)的概念。基于该理论,具备短时间、连续事件特征的非理性行为对于表征认知过程具有重要价值,是多模态数据的重要来源。

诚然,连续行为与非连续行为事件并非如此边界分明,应以更广的视角看待微观成分。当融合不同的数据流时,重要的考虑因素是正在使用以及所呈现结果的时间尺度。当前,输入空

间还鲜有区分情景的研究。不同的学习场景,例如教师指导下的学习、自我报告、协作学习在行为与生理模式方面有着较大的差异。在面对面交流和社交互动中,非言语表达被认为占到九成以上的表达意义叫。根据具身认知理论,肢体语言和肢体的运动学被认为在学习期间具有重要作用,学习者经常通过整合动作实现对事物的理解以及强化词语的含义2。因此,教育场景计算应面向不同场景“时间分辨率”中人与人、人与内容、人与情景的交互行为,建立全维感知能力与情景要素匹配的策略,研究场景解析模型与分析模型,进而实现场景计算的智能化。 根据学习行为的生理模式、运动方式,结合教育领域的常用传感器,从文本、语言、姿态、面部表情、眼动与生理标志物6个方面介绍常用的多模态数据源。 1.文本

文本数据在自然语言处理领域的应用已有数十年的历史。“互联网+”时代,文本信息可以轻松地从论坛、文档、测试、考试等途径收集,是极有价值的分析方式,其实践有可能会加速话语分析的研究。在学习科学领域,包含大量文本分析的研究,包括对文本内容的分类与编码分析,或者利用主题建模和聚类技术研究学习者的思维与直觉。文本的另一种形式是手写与勾勒,这种自然交互方式可以利用数字笔捕获,以量化不同表面上完成的笔划的位置、持续时间和压力。结合计算机视觉、多个摄像头可以分析写作速度、节奏和压力水平,区分不同写作模式从而量化学习者的知识贡献,识别群体中的专家。 2.语音

跟文本分析类似,语音数据允许学生在更自然的环境中流畅的表达,开辟了转录话语的可能性。在多模态学习分析领域,语音分析包括两个方面,一是语音识别,指提取语音的实际内容。分析的结果可以进一步利用自然语言处理工具分析转录本,以确定主题与谈论的内容。二是韵律特征分析,通过提取语音、语调、副语言等寻找更深层次的语义意义,以分析学习者的问题解决能力4、师生互动水平以及学习动机。

学习状态区域对应投入度、情感、认知、注意力等表征学习水平的“指标”。在这个层面,应用最成熟的是情绪识别。情绪被认为是生理变化的重要指数,在学习中起着重要作用”4。根据“体细胞标记假说”,前额叶在决策及情绪加工中的重要作用,尤其是颞上沟和杏仁核决策情绪的表达,以面部状态的变化表现出来1,因此,对面部特征的提取以及前额叶控制的眼动指标被广泛应用在情绪的建模。从更广的视角,生物系统学认为内环境的稳态(自稳态)是人体维系正常生理功能的必要条件,其中一个重要的指标是唤醒度。作为引起学习者生理反应程度的指标,高唤醒表明积极或反应模式支持学习。“神经内脏整合模型”

(NeurovisceralIntegrationModel)進一步揭示了人体如何作为一个复杂的互联系统协调工作。根据该理论,中枢自主网络(CAN)调控内脏活动、神经内分泌与行为反应间的关系叨,学习状态是学习者根据所接受的刺激和意图调整其功能,为目标定向准备充分的能源,以适应不断变化的外部环境需求而做的反应。

学习状态的“指标”数量和类型取决于三个方面。一是研究者的整体设计方案,包括被试样本数、传感器选择、时间与精力投入、技术权衡等。二是学习指标是否有充分的教与学理论做支撑,能否有效干预。尤其是数据作为输出使用时,该指标必须让学习者明确如何才能提升该水平,具备一定的可操作性。此外,“偏差一方差权衡”(Bias-VarianceTradeof)思想对于判读学习状态的表征输出至关重要。偏差是指机器学习希望输出值与真实结果的偏离程度,是算法拟合能力的表征;方差是指度量训练数据集的波动引起的错误,即相同样本数训练集的变动所导致的学习性能的变化。在机器学习领域,增大偏差会导致方差减小,增大方差将减小偏差。根据该思想,表征学习状态指标的数量与其描述能力成正比,但它与其泛化性成反比。例如,支持向量机(SVM)算法通常拥有低偏差和高方差,但通过调整高斯核(GaussianKermel)参数Gamma值可以影响训练数据中允许违反边界的点的数目,会使偏差增大、方差减小。 通过上述建模输出,向学习者提供干预或提示反馈,激发学习者对状态的反思,以支持“学会学习”的能力,从而形成一个闭环控制系统。多模态学习分析的意义在于建立新的感觉运动环路,即以目标定向、学习责任和元认知水平调整为导向,借助反馈机制促使学习过程上升至良性发展的状态。 四、循环推理框架

基于上述分析,构造循环推理框架,以更为细致地解析多模态数据映射关系,并讨论分层分析的思想。如图2所示,粗实线与虚线分别为“观察一数字”分割线以及“数字一推理”分割线,循环推理框架以环状流动为运作形式,起始于涵盖学习行为的输入空间,在数据空间进行分配标注实现数据表征,在同步空间中进行时空匹配使数据得以对齐融合,进而在融合空间中将各模型映射到同一个向量维度,实现对“数字一推理”区域的构造。最终对模型进行调参以及反馈输出,实现对学习行为的引导与干预,如此往复,进人下一轮循环。 (一)输入空间

动态、持续多模态数据源的汇聚是是科学量化教育问题的起点。输入空间是研究者定义的“观察一数字”线以上的区域。学习者在完成学习任务时,很自然地整合了各感觉器官的信息。根据“认知频谱”(BandsofCognition)的界定,生物频带集中在微秒的时间尺度上,该范畴行为由自主神经系统通过交感神经和副交感神经的相互协调,共同调节四肢、面部、心跳、内脏、腺体和血管壁压力,这种行为属于无意识的、非理性事件,从数据获取的角度位于连续区间。而由躯体神经系统控制的行为受学习者主观意识支配,可被视为理性事件,该类行为状态不具备连续性。“认知频谱”框架还阐释了“分解理论”(DecompositionThesis)与“关联理论”(RelevanceThesis)的概念。基于该理论,具备短时间、连续事件特征的非理性行为对于表征认知过程具有重要价值,是多模态数据的重要来源。

诚然,连续行为与非连续行为事件并非如此边界分明,应以更广的视角看待微观成分。当融合不同的数据流时,重要的考虑因素是正在使用以及所呈现结果的时间尺度。当前,输入空

间还鲜有区分情景的研究。不同的学习场景,例如教师指导下的学习、自我报告、协作学习在行为与生理模式方面有着较大的差异。在面对面交流和社交互动中,非言语表达被认为占到九成以上的表达意义叫。根据具身认知理论,肢体语言和肢体的运动学被认为在学习期间具有重要作用,学习者经常通过整合动作实现对事物的理解以及强化词语的含义2。因此,教育场景计算应面向不同场景“时间分辨率”中人与人、人与内容、人与情景的交互行为,建立全维感知能力与情景要素匹配的策略,研究场景解析模型与分析模型,进而实现场景计算的智能化。 根据学习行为的生理模式、运动方式,结合教育领域的常用传感器,从文本、语言、姿态、面部表情、眼动与生理标志物6个方面介绍常用的多模态数据源。 1.文本

文本数据在自然语言处理领域的应用已有数十年的历史。“互联网+”时代,文本信息可以轻松地从论坛、文档、测试、考试等途径收集,是极有价值的分析方式,其实践有可能会加速话语分析的研究。在学习科学领域,包含大量文本分析的研究,包括对文本内容的分类与编码分析,或者利用主题建模和聚类技术研究学习者的思维与直觉。文本的另一种形式是手写与勾勒,这种自然交互方式可以利用数字笔捕获,以量化不同表面上完成的笔划的位置、持续时间和压力。结合计算机视觉、多个摄像头可以分析写作速度、节奏和压力水平,区分不同写作模式从而量化学习者的知识贡献,识别群体中的专家。 2.语音

跟文本分析类似,语音数据允许学生在更自然的环境中流畅的表达,开辟了转录话语的可能性。在多模态学习分析领域,语音分析包括两个方面,一是语音识别,指提取语音的实际内容。分析的结果可以进一步利用自然语言处理工具分析转录本,以确定主题与谈论的内容。二是韵律特征分析,通过提取语音、语调、副语言等寻找更深层次的语义意义,以分析学习者的问题解决能力4、师生互动水平以及学习动机。

学习状态区域对应投入度、情感、认知、注意力等表征学习水平的“指标”。在这个层面,应用最成熟的是情绪识别。情绪被认为是生理变化的重要指数,在学习中起着重要作用”4。根据“体细胞标记假说”,前额叶在决策及情绪加工中的重要作用,尤其是颞上沟和杏仁核决策情绪的表达,以面部状态的变化表现出来1,因此,对面部特征的提取以及前额叶控制的眼动指标被广泛应用在情绪的建模。从更广的视角,生物系统学认为内环境的稳态(自稳态)是人体维系正常生理功能的必要条件,其中一个重要的指标是唤醒度。作为引起学习者生理反应程度的指标,高唤醒表明积极或反应模式支持学习。“神经内脏整合模型”

(NeurovisceralIntegrationModel)进一步揭示了人体如何作为一个复杂的互联系统协调工作。根据该理论,中枢自主网络(CAN)调控内脏活动、神经内分泌与行为反应间的关系叨,学习状态是学习者根据所接受的刺激和意图调整其功能,为目标定向准备充分的能源,以适应不断变化的外部环境需求而做的反应。

学习状态的“指标”数量和类型取决于三个方面。一是研究者的整体设计方案,包括被试样本数、传感器选择、时间与精力投入、技术权衡等。二是学习指标是否有充分的教与学理论做支撑,能否有效干预。尤其是数据作为输出使用时,该指标必须让学习者明确如何才能提升该水平,具备一定的可操作性。此外,“偏差一方差权衡”(Bias-VarianceTradeof)思想对于判读学习状态的表征输出至关重要。偏差是指机器学习希望输出值与真实结果的偏离程度,是算法拟合能力的表征;方差是指度量训练数据集的波动引起的错误,即相同样本数训练集的变动所导致的学习性能的变化。在机器学习领域,增大偏差会导致方差减小,增大方差将减小偏差。根据该思想,表征学习状态指标的数量与其描述能力成正比,但它与其泛化性成反比。例如,支持向量机(SVM)算法通常拥有低偏差和高方差,但通过调整高斯核(GaussianKermel)参数Gamma值可以影响训练数据中允许违反边界的点的数目,会使偏差增大、方差减小。 通过上述建模输出,向学习者提供干预或提示反馈,激发学习者对状态的反思,以支持“学会学习”的能力,从而形成一个闭环控制系统。多模态学习分析的意义在于建立新的感觉运动环路,即以目标定向、学习责任和元认知水平调整为导向,借助反馈机制促使学习过程上升至良性发展的状态。 四、循环推理框架

基于上述分析,构造循环推理框架,以更为细致地解析多模态数据映射关系,并讨论分层分析的思想。如图2所示,粗实线与虚线分别为“观察一数字”分割线以及“数字一推理”分割线,循环推理框架以环状流动为运作形式,起始于涵盖学习行为的输入空间,在数据空间进行分配标注实现数据表征,在同步空间中进行时空匹配使数据得以对齐融合,进而在融合空间中将各模型映射到同一个向量维度,实现对“数字一推理”区域的构造。最终对模型进行调参以及反馈输出,实现对学习行为的引导与干预,如此往复,进人下一轮循环。 (一)输入空间

动态、持续多模态数据源的汇聚是是科学量化教育问题的起点。输入空间是研究者定义的“观察一数字”线以上的区域。学习者在完成学习任务时,很自然地整合了各感觉器官的信息。根据“认知频谱”(BandsofCognition)的界定,生物频带集中在微秒的时间尺度上,该范畴行为由自主神经系统通过交感神经和副交感神经的相互协调,共同调节四肢、面部、心跳、内脏、腺体和血管壁压力,这种行为属于无意识的、非理性事件,从数据获取的角度位于连续区间。而由躯体神经系统控制的行为受学习者主观意识支配,可被视为理性事件,该类行为状态不具备连续性。“认知频谱”框架还阐释了“分解理论”(DecompositionThesis)与“关联理论”(RelevanceThesis)的概念。基于该理论,具备短时间、连续事件特征的非理性行为对于表征认知过程具有重要价值,是多模态数据的重要来源。

诚然,连续行为与非连续行为事件并非如此边界分明,应以更广的视角看待微观成分。当融合不同的数据流时,重要的考虑因素是正在使用以及所呈现结果的时间尺度。当前,输入空

间还鲜有区分情景的研究。不同的学习场景,例如教师指导下的学习、自我报告、协作学习在行为与生理模式方面有着较大的差异。在面对面交流和社交互动中,非言语表达被认为占到九成以上的表达意义叫。根据具身认知理论,肢体語言和肢体的运动学被认为在学习期间具有重要作用,学习者经常通过整合动作实现对事物的理解以及强化词语的含义2。因此,教育场景计算应面向不同场景“时间分辨率”中人与人、人与内容、人与情景的交互行为,建立全维感知能力与情景要素匹配的策略,研究场景解析模型与分析模型,进而实现场景计算的智能化。 根据学习行为的生理模式、运动方式,结合教育领域的常用传感器,从文本、语言、姿态、面部表情、眼动与生理标志物6个方面介绍常用的多模态数据源。 1.文本

文本数据在自然语言处理领域的应用已有数十年的历史。“互联网+”时代,文本信息可以轻松地从论坛、文档、测试、考试等途径收集,是极有价值的分析方式,其实践有可能会加速话语分析的研究。在学习科学领域,包含大量文本分析的研究,包括对文本内容的分类与编码分析,或者利用主题建模和聚类技术研究学习者的思维与直觉。文本的另一种形式是手写与勾勒,这种自然交互方式可以利用数字笔捕获,以量化不同表面上完成的笔划的位置、持续时间和压力。结合计算机视觉、多个摄像头可以分析写作速度、节奏和压力水平,区分不同写作模式从而量化学习者的知识贡献,识别群体中的专家。 2.语音

跟文本分析类似,语音数据允许学生在更自然的环境中流畅的表达,开辟了转录话语的可能性。在多模态学习分析领域,语音分析包括两个方面,一是语音识别,指提取语音的实际内容。分析的结果可以进一步利用自然语言处理工具分析转录本,以确定主题与谈论的内容。二是韵律特征分析,通过提取语音、语调、副语言等寻找更深层次的语义意义,以分析学习者的问题解决能力4、师生互动水平以及学习动机。

学习状态区域对应投入度、情感、认知、注意力等表征学习水平的“指标”。在这个层面,应用最成熟的是情绪识别。情绪被认为是生理变化的重要指数,在学习中起着重要作用”4。根据“体细胞标记假说”,前额叶在决策及情绪加工中的重要作用,尤其是颞上沟和杏仁核决策情绪的表达,以面部状态的变化表现出来1,因此,对面部特征的提取以及前额叶控制的眼动指标被广泛应用在情绪的建模。从更广的视角,生物系统学认为内环境的稳态(自稳态)是人体维系正常生理功能的必要条件,其中一个重要的指标是唤醒度。作为引起学习者生理反应程度的指标,高唤醒表明积极或反应模式支持学习。“神经内脏整合模型”

(NeurovisceralIntegrationModel)进一步揭示了人体如何作为一个复杂的互联系统协调工作。根据该理论,中枢自主网络(CAN)调控内脏活动、神经内分泌与行为反应间的关系叨,学习状态是学习者根据所接受的刺激和意图调整其功能,为目标定向准备充分的能源,以适应不断变化的外部环境需求而做的反应。

学习状态的“指标”数量和类型取决于三个方面。一是研究者的整体设计方案,包括被试样本数、传感器选择、时间与精力投入、技术权衡等。二是学习指标是否有充分的教与学理论做支撑,能否有效干预。尤其是数据作为输出使用时,该指标必须让学习者明确如何才能提升该水平,具备一定的可操作性。此外,“偏差一方差权衡”(Bias-VarianceTradeof)思想对于判读学习状态的表征输出至关重要。偏差是指机器学习希望输出值与真实结果的偏离程度,是算法拟合能力的表征;方差是指度量训练数据集的波动引起的错误,即相同样本数训练集的变动所导致的学习性能的变化。在机器学习领域,增大偏差会导致方差减小,增大方差将减小偏差。根据该思想,表征学习状态指标的数量与其描述能力成正比,但它与其泛化性成反比。例如,支持向量机(SVM)算法通常拥有低偏差和高方差,但通过调整高斯核(GaussianKermel)参数Gamma值可以影响训练数据中允许违反边界的点的数目,会使偏差增大、方差减小。 通过上述建模输出,向学习者提供干预或提示反馈,激发学习者对状态的反思,以支持“学会学习”的能力,从而形成一个闭环控制系统。多模态学习分析的意义在于建立新的感觉运动环路,即以目标定向、学习责任和元认知水平调整为导向,借助反馈机制促使学习过程上升至良性发展的状态。 四、循环推理框架

基于上述分析,构造循环推理框架,以更为细致地解析多模态数据映射关系,并讨论分层分析的思想。如图2所示,粗实线与虚线分别为“观察一数字”分割线以及“数字一推理”分割线,循环推理框架以环状流动为运作形式,起始于涵盖学习行为的输入空间,在数据空间进行分配标注实现数据表征,在同步空间中进行时空匹配使数据得以对齐融合,进而在融合空间中将各模型映射到同一个向量维度,实现对“数字一推理”区域的构造。最终对模型进行调参以及反馈输出,实现对学习行为的引导与干预,如此往复,进人下一轮循环。 (一)输入空间

动态、持续多模态数据源的汇聚是是科学量化教育问题的起点。输入空间是研究者定义的“观察一数字”线以上的区域。学习者在完成学习任务时,很自然地整合了各感觉器官的信息。根据“认知频谱”(BandsofCognition)的界定,生物频带集中在微秒的时间尺度上,该范畴行为由自主神经系统通过交感神经和副交感神经的相互协调,共同调节四肢、面部、心跳、内脏、腺体和血管壁压力,这种行为属于无意识的、非理性事件,从数据获取的角度位于连续区间。而由躯体神经系统控制的行为受学习者主观意识支配,可被视为理性事件,该类行为状态不具备连续性。“认知频谱”框架还阐释了“分解理论”(DecompositionThesis)与“关联理论”(RelevanceThesis)的概念。基于该理论,具备短时间、连续事件特征的非理性行为对于表征认知过程具有重要价值,是多模态数据的重要来源。

诚然,连续行为与非连续行为事件并非如此边界分明,应以更广的视角看待微观成分。当融合不同的数据流时,重要的考虑因素是正在使用以及所呈现结果的时间尺度。当前,输入空

间还鲜有区分情景的研究。不同的学习场景,例如教师指导下的学习、自我报告、协作学习在行为与生理模式方面有着较大的差异。在面对面交流和社交互动中,非言语表达被认为占到九成以上的表达意义叫。根据具身认知理论,肢体语言和肢体的运动学被认为在学习期间具有重要作用,学习者经常通过整合动作实现对事物的理解以及强化词语的含义2。因此,教育场景计算应面向不同场景“时间分辨率”中人与人、人与内容、人与情景的交互行为,建立全维感知能力与情景要素匹配的策略,研究场景解析模型与分析模型,进而实现场景计算的智能化。 根据学习行为的生理模式、运动方式,结合教育领域的常用传感器,从文本、语言、姿态、面部表情、眼动与生理标志物6个方面介绍常用的多模态数据源。 1.文本

文本數据在自然语言处理领域的应用已有数十年的历史。“互联网+”时代,文本信息可以轻松地从论坛、文档、测试、考试等途径收集,是极有价值的分析方式,其实践有可能会加速话语分析的研究。在学习科学领域,包含大量文本分析的研究,包括对文本内容的分类与编码分析,或者利用主题建模和聚类技术研究学习者的思维与直觉。文本的另一种形式是手写与勾勒,这种自然交互方式可以利用数字笔捕获,以量化不同表面上完成的笔划的位置、持续时间和压力。结合计算机视觉、多个摄像头可以分析写作速度、节奏和压力水平,区分不同写作模式从而量化学习者的知识贡献,识别群体中的专家。 2.语音

跟文本分析类似,语音数据允许学生在更自然的环境中流畅的表达,开辟了转录话语的可能性。在多模态学习分析领域,语音分析包括两个方面,一是语音识别,指提取语音的实际内容。分析的结果可以进一步利用自然语言处理工具分析转录本,以确定主题与谈论的内容。二是韵律特征分析,通过提取语音、语调、副语言等寻找更深层次的语义意义,以分析学习者的问题解决能力4、师生互动水平以及学习动机。

学习状态区域对应投入度、情感、认知、注意力等表征学习水平的“指标”。在这个层面,应用最成熟的是情绪识别。情绪被认为是生理变化的重要指数,在学习中起着重要作用”4。根据“体细胞标记假说”,前额叶在决策及情绪加工中的重要作用,尤其是颞上沟和杏仁核决策情绪的表达,以面部状态的变化表现出来1,因此,对面部特征的提取以及前额叶控制的眼动指标被广泛应用在情绪的建模。从更广的视角,生物系统学认为内环境的稳态(自稳态)是人体维系正常生理功能的必要条件,其中一个重要的指标是唤醒度。作为引起学习者生理反应程度的指标,高唤醒表明积极或反应模式支持学习。“神经内脏整合模型”

(NeurovisceralIntegrationModel)进一步揭示了人体如何作为一个复杂的互联系统协调工作。根据该理论,中枢自主网络(CAN)调控内脏活动、神经内分泌与行为反应间的关系叨,学习状态是学习者根据所接受的刺激和意图调整其功能,为目标定向准备充分的能源,以适应不断变化的外部环境需求而做的反应。

学习状态的“指标”数量和类型取决于三个方面。一是研究者的整体设计方案,包括被试样本数、传感器选择、时间与精力投入、技术权衡等。二是学习指标是否有充分的教与学理论做支撑,能否有效干预。尤其是数据作为输出使用时,该指标必须让学习者明确如何才能提升该水平,具备一定的可操作性。此外,“偏差一方差权衡”(Bias-VarianceTradeof)思想对于判读学习状态的表征输出至关重要。偏差是指机器学习希望输出值与真实结果的偏离程度,是算法拟合能力的表征;方差是指度量训练数据集的波动引起的错误,即相同样本数训练集的变动所导致的学习性能的变化。在机器学习领域,增大偏差会导致方差减小,增大方差将减小偏差。根据该思想,表征学习状态指标的数量与其描述能力成正比,但它与其泛化性成反比。例如,支持向量机(SVM)算法通常拥有低偏差和高方差,但通过调整高斯核(GaussianKermel)参数Gamma值可以影响训练数据中允许违反边界的点的数目,会使偏差增大、方差减小。 通过上述建模输出,向学习者提供干预或提示反馈,激发学习者对状态的反思,以支持“学会学习”的能力,从而形成一个闭环控制系统。多模态学习分析的意义在于建立新的感觉运动环路,即以目标定向、学习责任和元认知水平调整为导向,借助反馈机制促使学习过程上升至良性发展的状态。 四、循环推理框架

基于上述分析,构造循环推理框架,以更为细致地解析多模态数据映射关系,并讨论分层分析的思想。如图2所示,粗實线与虚线分别为“观察一数字”分割线以及“数字一推理”分割线,循环推理框架以环状流动为运作形式,起始于涵盖学习行为的输入空间,在数据空间进行分配标注实现数据表征,在同步空间中进行时空匹配使数据得以对齐融合,进而在融合空间中将各模型映射到同一个向量维度,实现对“数字一推理”区域的构造。最终对模型进行调参以及反馈输出,实现对学习行为的引导与干预,如此往复,进人下一轮循环。 (一)输入空间

动态、持续多模态数据源的汇聚是是科学量化教育问题的起点。输入空间是研究者定义的“观察一数字”线以上的区域。学习者在完成学习任务时,很自然地整合了各感觉器官的信息。根据“认知频谱”(BandsofCognition)的界定,生物频带集中在微秒的时间尺度上,该范畴行为由自主神经系统通过交感神经和副交感神经的相互协调,共同调节四肢、面部、心跳、内脏、腺体和血管壁压力,这种行为属于无意识的、非理性事件,从数据获取的角度位于连续区间。而由躯体神经系统控制的行为受学习者主观意识支配,可被视为理性事件,该类行为状态不具备连续性。“认知频谱”框架还阐释了“分解理论”(DecompositionThesis)与“关联理论”(RelevanceThesis)的概念。基于该理论,具备短时间、连续事件特征的非理性行为对于表征认知过程具有重要价值,是多模态数据的重要来源。

诚然,连续行为与非连续行为事件并非如此边界分明,应以更广的视角看待微观成分。当融合不同的数据流时,重要的考虑因素是正在使用以及所呈现结果的时间尺度。当前,输入空

间还鲜有区分情景的研究。不同的学习场景,例如教师指导下的学习、自我报告、协作学习在行为与生理模式方面有着较大的差异。在面对面交流和社交互动中,非言语表达被认为占到九成以上的表达意义叫。根据具身认知理论,肢体语言和肢体的运动学被认为在学习期间具有重要作用,学习者经常通过整合动作实现对事物的理解以及强化词语的含义2。因此,教育场景计算应面向不同场景“时间分辨率”中人与人、人与内容、人与情景的交互行为,建立全维感知能力与情景要素匹配的策略,研究场景解析模型与分析模型,进而实现场景计算的智能化。 根据学习行为的生理模式、运动方式,结合教育领域的常用传感器,从文本、语言、姿态、面部表情、眼动与生理标志物6个方面介绍常用的多模态数据源。 1.文本

文本数据在自然语言处理领域的应用已有数十年的历史。“互联网+”时代,文本信息可以轻松地从论坛、文档、测试、考试等途径收集,是极有价值的分析方式,其实践有可能会加速话语分析的研究。在学习科学领域,包含大量文本分析的研究,包括对文本内容的分类与编码分析,或者利用主题建模和聚类技术研究学习者的思维与直觉。文本的另一种形式是手写与勾勒,这种自然交互方式可以利用数字笔捕获,以量化不同表面上完成的笔划的位置、持续时间和压力。结合计算机视觉、多个摄像头可以分析写作速度、节奏和压力水平,区分不同写作模式从而量化学习者的知识贡献,识别群体中的专家。 2.语音

跟文本分析类似,语音数据允许学生在更自然的环境中流畅的表达,开辟了转录话语的可能性。在多模态学习分析领域,语音分析包括两个方面,一是语音识别,指提取语音的实际内容。分析的结果可以进一步利用自然语言处理工具分析转录本,以确定主题与谈论的内容。二是韵律特征分析,通过提取语音、语调、副语言等寻找更深层次的语义意义,以分析学习者的问题解决能力4、师生互动水平以及学习动机。

因篇幅问题不能全部显示,请点此查看更多更全内容