arXiv 论文列表

作者: Xiaoming Zhai

本文探讨了生成式人工智能 (GenAI) 对教师在教育中的角色和作用的变革性影响，提出了一个全面的框架，涵盖教师对 GenAI 的认知、知识、接受度和实践。随着 ChatGPT 等 GenAI 技术越来越多地融入教育环境，教师需要适应不断变化的课堂动态，人工智能在内容创作、个性化学习和学生参与中发挥着重要作用。然而，现有文献往往孤立地看待这些因素，忽略了它们如何共同影响教师有效地将 GenAI 整合到其教学实践中的能力。本文通过提出一个框架来弥补这一差距，该框架将教师分为四种角色——观察者、采用者、合作者和创新者——每种角色代表着不同程度的 GenAI 参与，概述了教师在 GenAI 课堂上的作用。通过强调持续专业发展和机构支持的必要性，我们展示了教师如何从基本的 GenAI 用户发展成为与 GenAI 系统共同创造知识的创造者。研究结果强调，为了让 GenAI 充分发挥其教育潜力，教师不仅要接受和理解其能力，还要将其深度融入其教学策略中。本研究为不断增长的 GenAI 在教育领域的文献做出了贡献，为支持教师应对 GenAI 采用的复杂性提供了实践意义。

发布时间: 10/7/2024

查看原文

FastAdaSP：面向大型语音语言模型的多任务自适应高效推理

作者: Yichen Lu, Jiaqi Song, Chao-Han Huck Yang, Shinji Watanabe

本研究旨在探索基于令牌缩减的多任务语音语言模型 (SpeechLM) 的高效推理。与视觉或文本等其他模态不同，语音具有独特的时序依赖性，使得以前针对其他模态的高效推理方法无法直接应用。此外，针对长序列和稀疏信号的 SpeechLM 高效推理方法仍未得到充分探索。因此，我们提出了 FastAdaSP，一个专门针对各种语音相关任务的加权令牌合并框架，以改善效率和性能之间的权衡。在 WavLLM 和 Qwen-Audio 上的实验结果表明，与其他基线方法相比，我们的方法在效率和性能方面取得了最先进 (SOTA) 的权衡。具体而言，FastAdaSP 在情感识别 (ER) 和口语问答 (SQA) 等任务中实现了 7 倍的内存效率和 1.83 倍的解码吞吐量，而性能没有下降。代码将发布在 https://github.com/yichen14/FastAdaSP。

发布时间: 10/7/2024

查看原文

基于检索加权局部自适应的无任务终身机器人学习

作者: Pengzhi Yang, Xinyu Wang, Ruipeng Zhang, Cong Wang, Frans Oliehoek, Jens Kober

现实环境要求机器人能够在保留之前学习技能的同时持续学习新的技能，而无需明确定义的任务边界。由于存储和隐私问题，存储所有过去数据以防止遗忘是不切实际的。为了解决这个问题，我们提出了一种方法，能够有效地恢复机器人在其整个生命周期中之前学习任务的能力。使用情景记忆 (EM)，我们的方法能够在训练期间进行经验回放，并在测试期间进行检索以进行局部微调，从而允许快速适应之前遇到的问题，而无需明确的任务标识符。此外，我们引入了一种选择性加权机制，该机制强调检索到的演示中最具挑战性的部分，将局部适应集中在最需要的地方。该框架为动态、任务感知环境中的终身学习提供了一种可扩展的解决方案，将基于检索的适应与选择性加权相结合，以增强机器人开放式场景中的性能。

发布时间: 10/7/2024

查看原文

通过精炼局部学习系数实现注意力头的差异化和特化

作者: George Wang, Jesse Hoogland, Stan van Wingerden, Zach Furman, Daniel Murfet

我们引入了局部学习系数 (LLC) 的改进变体，这是一种基于奇异学习理论的模型复杂性度量，用于研究训练过程中 Transformer 语言模型内部结构的发展。通过将这些“改进的 LLC” (rLLC) 应用于两层纯注意力 Transformer 的各个组件，我们获得了关于注意力头逐步分化和专业化的全新见解。我们的方法揭示了注意力头如何在训练过程中分化为不同的功能角色，分析了这些头专门处理的数据类型，并发现了一个以前未被识别的多词组电路。这些发现表明，rLLC 为“发展性可解释性”提供了一个有原则的、定量的工具包，旨在通过模型在学习过程中的演变来理解模型。更广泛地说，这项工作朝着建立数据分布结构、损失景观的几何属性、学习动力学以及神经网络中出现的计算结构之间的对应关系迈出了一步。

发布时间: 10/7/2024

查看原文

一种可解释的方法，用于在 HUDOC 数据库中检测关于住房和驱逐问题的判例法

作者: Mohammad Mohammadi, Martijn Wieling, Michel Vols

案例法在塑造我们对人权的理解方面起着重要作用，包括获得适足住房的权利。HUDOC 数据库提供了欧洲人权法院 (ECtHR) 案例法的文本内容，以及一些元数据。虽然这些元数据包含有价值的信息，例如申请编号和案件中涉及的条款，但它们往往缺乏详细的实质性见解，例如案件涵盖的具体问题。这突出了对详细分析以提取此类信息的必要性。然而，考虑到数据库的规模——包含超过 40,000 个案例——自动化的解决方案至关重要。本研究重点关注获得适足住房的权利，旨在构建模型以检测与住房和驱逐问题相关的案件。我们的实验表明，所得模型不仅提供了与更复杂方法相当的性能，而且也是可解释的，通过突出显示最有影响力的词语来提供其决策的解释。这些模型的应用导致识别出在数据收集过程中最初被忽视的新案例。这表明自然语言处理方法可以有效地应用于根据案件涉及的具体问题对案例法进行分类。

发布时间: 10/7/2024

查看原文

损害比：一种新颖且通用的公平性标准

作者: Soroush Ebadian, Rupert Freeman, Nisarg Shah

嫉妒自由已成为公平分配研究的基石。在每个个体被分配到集体资源的互斥份额的场景中，这是一个令人信服的公平公理，它要求任何个体都不应严格地偏好另一个个体的分配而不是自己的分配。不幸的是，在许多现实生活中的集体决策问题中，目标是选择一个对所有个体同样适用的（共同的）公共结果，而嫉妒的概念变得空洞。因此，这一文献避免研究关注个体对其他个体（而不是对系统）产生嫉妒或怨恨的公平标准，错失了公平的一个关键方面。在这项工作中，我们提出了一种新的公平标准，即个人伤害比率，它受嫉妒自由的启发，但适用于广泛的集体决策设置。从理论上讲，我们确定了可以保证该标准及其群体扩展的最小条件，并研究了相关问题的计算复杂性。在经验上，我们使用真实数据进行实验，以表明我们的公平标准足够强大，可以区分从投票和公平分配到参与式预算和同行评审的一系列任务的突出决策算法。

发布时间: 10/7/2024

查看原文

F-忠实度：一种用于可解释人工智能忠实度评估的鲁棒框架

作者: Xu Zheng, Farhad Shirani, Zhuomin Chen, Chaohao Lin, Wei Cheng, Wenbo Guo, Dongsheng Luo

近年来，许多可解释人工智能（XAI）技术被开发出来。尽管从深度学习模型中提取了有意义的见解，但如何正确评估这些XAI方法仍然是一个开放性问题。最常用的方法是对输入中XAI方法认为最重要的特征进行扰动甚至移除，观察输出预测的变化。尽管这种方法效率很高，但它存在着样本分布外（OOD）问题，因为扰动后的样本可能不再遵循原始数据分布。最近的一种方法，即移除并重新训练（ROAR）通过根据解释重新训练模型来解决OOD问题。然而，由于分布差异，训练可能并不总是收敛的。此外，使用基于XAI方法重新训练的模型来评估这些解释器可能会导致信息泄漏，从而导致不公平的比较。我们提出了微调保真度F-保真度，这是一个用于XAI的鲁棒评估框架，它利用了i) 一种与解释无关的微调策略，从而减轻了信息泄漏问题，以及ii) 一种随机掩蔽操作，确保移除步骤不会生成OOD输入。我们设计了使用最先进（SOTA）解释器及其降级版本的受控实验，以验证我们框架的正确性。我们在多个数据结构上进行了实验，例如图像、时间序列和自然语言。结果表明，F-保真度在恢复解释器的真实排名方面显著优于先前的评估指标。此外，我们在理论和经验上都表明，给定一个忠实的解释器，F-保真度指标可以用来计算有影响力的输入组件的稀疏性，即提取真实的解释大小。

发布时间: 10/7/2024

查看原文

基于Let's Play视频的无标签主观玩家体验建模

作者: Dave Goel, Athar Mahmoudi-Nejad, Matthew Guzdial

玩家体验建模 (PEM) 是将人工智能技术应用于模拟玩家在电子游戏中的体验的研究领域。PEM 的开发可能非常耗费人力，需要专家手动编写或专门的数据收集。在本文中，我们提出了一种新颖的 PEM 开发方法，通过游戏视频来近似玩家体验。我们通过一项人类主体研究，评估了这种方法在愤怒的小鸟游戏中预测情感的效果。我们验证了我们的 PEM 可以与自我报告和传感器测量的情感强烈相关，证明了这种方法的潜力。

发布时间: 10/7/2024

查看原文

AutoML-Agent：一个面向全流程自动机器学习的多智能体大型语言模型框架

作者: Patara Trirat, Wonyong Jeong, Sung Ju Hwang

自动机器学习 (AutoML) 通过自动化开发流程中的任务，如最佳模型搜索和超参数调整，加速了人工智能的开发。现有的 AutoML 系统通常需要技术专业知识来设置复杂的工具，这通常很耗时，需要大量的人工。因此，最近的研究开始利用大型语言模型 (LLM) 来减轻这种负担，并通过自然语言接口提高 AutoML 框架的可用性，使非专业用户能够构建自己的数据驱动解决方案。然而，这些方法通常只针对人工智能开发流程中的某个特定过程设计，并没有有效利用 LLM 的固有能力。本文提出了 AutoML-Agent，一个专为全流程 AutoML 量身定制的新型多智能体框架，即从数据检索到模型部署。AutoML-Agent 接收用户的任务描述，促进专业 LLM 智能体之间的协作，并提供可部署的模型。与现有工作不同，我们并没有设计一个单一的计划，而是引入了检索增强规划策略来增强探索，以搜索更优化的计划。我们还将每个计划分解为子任务（例如数据预处理和神经网络设计），每个子任务都由我们通过提示构建的专业智能体并行执行解决，使搜索过程更加高效。此外，我们提出了一种多阶段验证方法来验证执行结果，并指导代码生成 LLM 实现成功的解决方案。在使用 14 个数据集的七个下游任务上的大量实验表明，AutoML-Agent 在自动化完整 AutoML 过程方面取得了更高的成功率，在不同领域产生了具有良好性能的系统。

发布时间: 10/7/2024

查看原文

基于大语言模型的工具链视觉编辑：面向实时应用的有效蒸馏方法

作者: Oren Sultan, Alex Khasin, Guy Shiran, Asnat Greenstein-Messica, Dafna Shahaf

我们提出了一种实用的蒸馏方法，用于微调大型语言模型 (LLM)，以便在实时应用中调用工具。我们专注于视觉编辑任务；具体来说，我们通过解释用户用自然语言指定（“黄金时间”）的风格化请求来修改图像和视频，使用 LLM 选择适当的工具及其参数来实现所需的视觉效果。我们发现像 GPT-3.5-Turbo 这样的专有 LLM 在这项任务中显示出潜力，但它们的高成本和延迟使其不适合实时应用。在我们的方法中，我们使用来自（更大）教师 LLM 和行为信号的指导来微调（更小）的学生 LLM。我们引入了离线指标来评估学生 LLM。在线和离线实验都表明，我们的学生模型设法匹配了我们教师模型（GPT-3.5-Turbo）的性能，显着降低了成本和延迟。最后，我们表明，在低数据情况下，使用增强技术，微调效果提升了 25%。

发布时间: 10/7/2024

查看原文