arXiv 论文列表

作者: Sahan Bulathwela, Daniel Van Niekerk, Jarrod Shipton, Maria Perez-Ortiz, Benjamin Rosman, John Shawe-Taylor

arXiv:2502.10411v1 Announce Type: cross 摘要：个性化教育是能够从最近的人工智能（AI）和大规模语言模型（LLM）最新进展中受益最多的领域之一。然而，这也是最具挑战性的应用之一，因为有效进行教学且个性化学习体验以适应独立学习者，这要求极高的认知复杂性。我们假设，能够在如此具挑战性的用例中表现出色的一种有前途的方法是使用“心灵的社会”。在本章中，我们介绍了TrueReason，这是一个范例的个性化学习系统，它整合了多种专门的人工智能模型，这些模型可以模拟由LLM组合在一起的微技能，从而实现规划和推理的执行。介绍了原型的初始架构及其所包含的两种微技能。所提出的系统展示了构建能够承担诸如教育等领域所要求的非常复杂的认知任务的高级人工智能系统的第一步。

发布时间: 2/18/2025

查看原文

自动评估：一个关键指标，用于推动人工智能生成教学资源的质量和安全改进

作者: Hannah-Beth Clark, Margaux Dowland, Laura Benton, Reka Budai, Ibrahim Kaan Keskin, Emma Searle, Matthew Gregory, Mark Hodierne, William Gayne, John Roberts

arXiv:2502.10410v1 类型: cross 摘要: 作为英国的公共资助机构，Oak National Academy 在这个领域创新方面处于独特的位置，因为我们拥有大约13,000个开放教育资源（OER），涵盖了所有国家课程学科，并由专家人力教师设计和质量保证。这为我们提供了构建高质量AI辅助课件规划工具Aila所需的文库内容，从而使得该工具免费使用，并因此广泛适用于全国各地的教师。此外，我们利用基于证据的课程原则，对课件设计的每个组成部分进行了编码和举例说明。为了评估Aila大规模生成的课件质量，我们开发了一个AI辅助自动评估代理，促进基于知情改进以提高输出质量。通过将人工评估与自动评估进行对比，我们已经开始进一步完善该代理，以提高其准确性，即与其专家人工评估者的契合度。在这篇论文中，我们通过一个有针对性的案例研究，展示了通过一个质量指标——多项选择题的难度级别来进行迭代评估过程。我们还探讨了这可能为类似的项目和更广泛的行业做出的贡献。

发布时间: 2/18/2025

查看原文

数据科学学生对学习分析的视角：一种基于人类主导和大语言模型内容分析的应用

作者: Raghda Zahran, Jianfei Xu, Huizhi Liang, Matthew Forshaw

arXiv:2502.10409v1 宣告类型: cross 摘要: 目的本研究是英国某大学一系列旨在培养学生对分析学深刻理解的举措之一，旨在培养学生的分析视角以与他们独特的学习需求相契合。该研究探索了研究型学生对开放大学学习分析数据集（OULAD）进行合作数据分析的过程。方法本研究采用定性方法，结合了检索增强生成（RAG）技术和大型语言模型（LLM），并与人工主导的内容分析相结合，以获取学生基于提交作品的视角信息。该研究共涉及12个小组的72名研究生。发现组工作分析揭示了学生从不同视角对关键学习分析的多种见解。所有组都采用了结构化的数据科学方法。小组提出的问题被分类为七个主题，反映了他们各自的兴趣领域。虽然各组选择的变量以解释相关性有所差异，但在总体结果方面达成了共识。结论本研究的重要成果是，专注于数据科学的学生展现出了对学习分析的更深刻理解，能够通过分析中得出的推断有效表达自己的兴趣。虽然人工主导的内容分析为学生整体视角提供了基本理解，但LLM提供了细腻的洞察。

发布时间: 2/18/2025

查看原文

编程教育中的知识追踪：整合学生的提问

作者: Doyoun Kim, Suin Kim, Yojan Jo

arXiv:2502.10408v1 类型：交叉摘要：编程教育中的知识追踪 (KT) 面临独特的挑战，这是由于编码任务的复杂性和学生解决问题时使用的多样方法。尽管学生们的问题通常包含关于他们理解水平和误解的重要信号，但传统的 KT 模型往往忽视将这些问题作为输入来解决这些挑战。本文介绍了 SQKT（学生问题导向的知识追踪），这是一种利用学生问题及其自动提取技能信息的知识追踪模型，以提高预测学生在后续编程教育问题中的表现准确性。我们的方法创建了语义丰富的嵌入，不仅捕捉问题的表面内容，还捕捉学生对概念的理解和掌握水平。实验结果表明，SQKT 在预测不同难度级别 Python 编程课程中学生的完成情况方面表现出优越性能。在领域内实验中，SQKT 的 AUC 相对基线模型提高了 33.1%。该模型还展示了在跨领域设置下的稳健泛化能力，有效地解决了高级编程课程中的数据短缺问题。SQKT 可以用于根据个人学习需求定制教育内容，并在计算机科学教育中设计自适应学习系统。

发布时间: 2/18/2025

查看原文

解决生成式AI中的偏差：信息管理中的挑战与研究机会

作者: Xiahua Wei, Naveen Kumar, Han Zhang

arXiv:2502.10407v1 类型: cross 摘要：生成式人工智能技术，尤其是大型语言模型（LLMs），已经改变了信息管理系统，但在为企业决策提供信息方面引入了大量偏见。这一挑战为信息管理学者提供了一个独特的机会，他们可以通过识别和解决LLM广泛应用中的偏见来推进这一领域的发展。在此基础上，本文寻求识别未来研究中的空白和机遇。通过整合伦理考虑、政策含义和社会技术视角，我们专注于开发一个涵盖生成式人工智能系统重大利益相关者的框架，提出关键的研究问题，并激发讨论。我们的目标是为研究人员提供实际路径，以解决LLM应用中的偏见问题，从而推进信息管理研究，最终影响企业实践。我们提出前瞻性的框架和研究议程，倡导跨学科方法、创新方法、动态视角和严格的评估，以确保生成式人工智能驱动的信息系统中的公平性和透明度。我们预期这项研究能够激励信息管理学者应对这一关键问题，指导基于LLM的系统在企业实践中的公平性和有效性改进。

发布时间: 2/18/2025

查看原文

FishBargain：一个依托LLM的在线跳蚤市场交易平台议价代理izador

作者: Dexin Kong, Xu Yan, Ming Chen, Shuguang Han, Jufeng Chen, Fei Huang

arXiv:2502.10406v1 交易类型: 综合摘要: 与传统的面向消费者的电子商务平台（如亚马逊）不同，在线跳蚤市场平台（如 Craigslist）主要专注于缺乏时间和商业技能的个体卖家。个体卖家在讨价还价过程中往往难以应对，因此交易常常无法完成。最近大型语言模型（LLMs）在各种对话任务中展示出了巨大的潜力，但这些任务主要是被动地遵循用户的指示。讨价还价作为一种主动对话任务，考虑到环境的动态性和对手策略的不确定性，体现了一种独特的对话艺术。在本文中，我们提出了一个旨在为在线跳蚤市场平台卖家服务、名为 FishBargain 的 LLM 支撑的讨价还价代理。具体而言，FishBargain 理解聊天上下文和产品信息，综合考虑可能的对手行动选择行动并生成话语。FishBargain 在中国最大的在线跳蚤市场平台（闲鱼）上被数千名个体卖家进行了测试。定性和定量实验均表明，FishBargain 能够有效帮助卖家完成更多的交易。

发布时间: 2/18/2025

查看原文

你无法从这里到达那里：重新定义信息科学以应对我们的社会技术未来

作者: Scott Humr, Mustafa Canan

arXiv:2502.10401v1 宣布类型: cross 摘要: 当前的信息科学定义不足以全面描述该领域的研究性质，也无法解决由智能技术引起的问题。普遍的人工智能应用及其对社会的影响要求信息科学领域承认这些技术的社技特性。在过去六十年中，信息科学的相关定义未能充分考虑到这些技术的环境、人类和社会方面。本文提出了一个扩大的信息科学定义，以全面涵盖信息对这一领域研究开展的社会技术影响。提出一个包含了信息科学社技方面的扩大定义应刺激讨论，并扩大跨学科视野，以解决如何更公平地将智能技术融入社会和我们的生活。

发布时间: 2/18/2025

查看原文

数据管理解析：映射其多样的表现形式及在人工智能时代日益增长的相关性

作者: Stefaan Verhulst

arXiv:2502.10399v1 宣布类型: cross 摘要：数据治理已成为现代数据治理的关键组成部分，尤其是在人工智能（AI）广泛应用的情况下。尽管其重要性日益增加，数据治理中的数据 stewardship 概念仍带有模糊性，并在应用上存在差异。本文探讨了四种不同的数据 stewardship 表现形式，以澄清其在数据治理格局中的新兴地位。这些表现形式包括 a) 数据 stewardship 作为一组能力和技能，b) 组织中的一个功能或角色，c) 促进合作的中介组织，以及 d) 一套指导原则。本文随后概述了有效数据 stewardship 所需的核心能力，解释了数据 stewardship 与首席数据官（CDO）之间的区别，并详细说明了 steward 在数据持有者与外部利益相关者之间发挥的中介作用。文章还探讨了与 FAIR 框架（可查找性、可访问性、可互操作性和可重用性）相一致的关键原则，并提出了适应 AI 的新兴原则，以确保数据符合 AI 系统的伦理和技术要求。论文强调了数据 stewardship 在促进数据合作、培养公共价值以及负责任地管理数据重用方面的重要性，特别是在人工智能时代。文章最后指出了数据 stewardship 发展面临的挑战和机遇，包括标准化定义的必要性、能力建设努力以及创建数据 stewardship 专业协会的需求。

发布时间: 2/18/2025

查看原文

AI认证目录的实际应用与限制

作者: Gregor Autischer, Kerstin Waxnegger, Dominik Kowald

arXiv:2502.10398v1 通告类型: cross 摘要: 在这项工作尚在进行中，我们研究了人工智能（AI）系统的验证，重点关注现有验证目录的实践应用和限制，通过尝试验证一个公开可用的AI系统。我们旨在评估当前方法在有效验证AI系统方面的工作效果，并探讨如何选择并使用可能未被主动维护或最初未旨在进行验证的公开访问AI系统进行样本验证过程。我们的方法论包括利用弗劳恩霍夫AI评估目录作为全面工具，系统地评估AI模型是否符合认证标准。我们发现，虽然目录有效地结构化了评估过程，但在使用时也可能繁琐且耗时。我们观察到一个没有活跃开发团队的AI系统的局限性，并强调了完整系统文档的重要性。最后，我们确定了一些使用的认证目录的局限性，并提出了如何简化认证过程的想法。

发布时间: 2/18/2025

查看原文

DASKT: 一种动态情感模拟的知识追踪方法

作者: Xinjie Sun, Kai Zhang, Qi Liu, Shuanghong Shen, Fei Wang, Yuxiang Guo, Enhong Chen

arXiv:2502.10396v1 交叉类型: cross 摘要: 知识追踪（KT）通过建模学生的历史互动来预测未来表现，而理解学生的情绪状态能够增强KT的效果，从而提高教育质量。尽管传统KT重视学生的认知和学习行为，但由于数据的非情绪导向性和预算限制，对学生情绪状态的有效评估及其在KT中的应用仍需进一步探索。为解决这一问题，我们提出了一个基于计算的方法——动态情绪模拟知识追踪（DASKT），以探索不同学生情绪状态（如挫败感、专注度、无聊和困惑）对学生知识状态的影响。在这项模型中，我们首先从学生的非情绪导向行为数据中提取情绪因素，然后使用聚类和时空序列建模来准确模拟学生在处理不同类型问题时的情绪动态变化。随后，我们通过结合情绪与时间序列分析来提高模型在时间和空间上推断知识状态的能力。在两个公开的真实世界教育数据集上的广泛实验结果表明，DASKT能够在学生情绪状态的影响下实现更为合理的知识状态。此外，DASKT在预测学生表现方面优于最先进的KT方法。我们的研究指出了未来KT研究有前途的方向，重点关注实现高可解释性和准确性。

发布时间: 2/18/2025

查看原文