arXiv 论文列表

作者: Bing Han, Feifei Zhao, Yinqian Sun, Wenxuan Pan, Yi Zeng

arXiv:2504.05621v1 Announce Type: 新摘要：当前的人工智能网络中的认知功能与其网络规模的指数级增长密切相关，而人类大脑则可以通过相对较低的能量消耗持续学习数百种认知功能。这一优势部分归因于大脑跨区域的时间发展机制，这种机制从基础区域到高级区域逐步形成、重组和修剪连接，从而促进知识转移并防止网络冗余。受此启发，我们提出了脑启发时间发展机制（TD-MCL）的多种认知功能连续学习，能够在感知-运动-交互（PMI）的多种认知任务场景中实现从简单到复杂的认知增强。TD-MCL模型建议不同认知模块之间长距离连接的顺序演化来促进积极的知识转移，同时通过反馈引导的局部连接抑制和修剪来有效消除先前任务的冗余，从而在降低能耗的同时保存已获取的知识。实验结果表明，所提出的方法可以在减少网络规模的情况下实现连续学习能力，无需引入正则化、重放或冻结策略，并且在新任务上相较于直接学习达到更高的准确性。所提出的方法表明，大脑的发展机制为探索生物学上可行的低能耗增强一般认知能力提供了宝贵的参考。

发布时间: 4/9/2025

查看原文

SciSciGPT：推进科学学中的human-AI合作

作者: Erzhuo Shao, Yifang Wang, Yifan Qian, Zhenyu Pan, Han Liu, Dashun Wang

arXiv:2504.05559v1 宣布类型: 新摘要: 随着大规模数据集的日益可用，科学研究的许多领域都取得了快速的进步，为研究和发现提供了前所未有的机会，同时也带来了重大的分析挑战。近年来，大型语言模型（LLMs）和AI代理的进步为人类与AI的合作开辟了新的可能性，提供了强大的工具来导航这一复杂的科研领域。在本文中，我们介绍了SciSciGPT，一个开源的原型AI合作者，它将科学研究的科学作为试验平台，探索LLM驱动的研究工具的潜力。SciSciGPT 自动化了复杂的流程，支持多种分析方法，加速了研究原型设计和迭代，并促进了可重复性。通过案例研究，我们展示了它在广泛的经验性和分析性研究任务中简化流程的能力，并突显了其广泛的潜力，以促进研究的进步。此外，我们提出了一个LLM代理的能力成熟度模型，设想了一个进一步改进和扩展类似于SciSciGPT框架的路线图。随着AI能力的不断发展，类似于SciSciGPT的框架可能会在科学研究和发现中发挥越来越重要的作用，释放更多的机会。同时，这些新的进步也引发了关键性的挑战，从确保透明度和伦理使用到平衡人类和AI的贡献。解决这些问题可能会塑造科学研究的未来，并影响我们如何培训下一代科学家在越来越集成AI的研究生态系统中茁壮成长。

发布时间: 4/9/2025

查看原文

棱镜: 基于蒙特卡洛树搜索的LLM代码生成动态灵活基准测试

作者: Vahid Majdinasab, Amin Nikanjam, Foutse Khomh

arXiv:2504.05500v1 类型: 新闻摘要：大语言模型（LLMs）的快速发展已经超越了传统的评估方法。静态基准无法捕捉LLM的能力深度和广度，最终变得过时，而大多数动态方法要么过于依赖基于LLM的评估，要么仍然受到预定义测试集的制约。我们介绍了一种名为Prism的灵活、动态的基准测试框架，旨在进行全面的LLM评估。Prism基于三个关键组件构建：（1）基于树的状态表示，将评估建模为马尔可夫决策过程，（2）适应用于揭露复杂评估场景的蒙特卡洛树搜索算法，以及（3）多智能体评估流水线，使其能够同时评估多种能力。为了确保稳健的评估，Prism结合了树探索模式的结构测量与不同难度水平的性能指标，提供详细的错误模式、测试覆盖范围和解决方案的诊断信息。通过在五个最新一代LLM上的广泛实验，我们分析了模型架构和规模如何影响不同任务难度下的代码生成性能。我们的结果展示了Prism作为与模型进步同步的动态基准的效用，同时还提供了对它们局限性的更深入洞察。

发布时间: 4/9/2025

查看原文

推理模型知道自己何时正确：探究隐藏状态进行自我验证

作者: Anqi Zhang, Yulin Chen, Jane Pan, Chen Zhao, Aurojit Panda, Jinyang Li, He He

arXiv:2504.05419v1 宣告类型: 新摘要: 通过其在推理过程中搜索的能力，推理模型在数学和逻辑推理任务上取得了显著的性能。然而，它们仍然存在过度思考的问题，即使在获得正确答案后，它们也经常进行不必要的推理步骤。这引发了这样一个问题：模型是否可以在推理过程中评估其中间答案的正确性？在本文中，我们研究了推理模型是否通过探针其隐藏状态来编码答案正确性信息。探针的结果能够以高度准确的精度验证中间答案，并产生高度校准的分数。此外，我们发现模型的隐藏状态还编码了未来答案的正确性，从而使在中间答案完全形成之前就能提前预测其正确性成为可能。随后，我们将探针用作验证器，在推理过程中决定是否在中间答案处退出推理，从而在不牺牲性能的情况下将推理令牌的数量减少了24%。这些发现证实了推理模型确实编码了正确性的概念，但却未能利用它，揭示了其显著的提高效率的未开发潜力。

发布时间: 4/9/2025

查看原文

强化学习代理的交互式解释

作者: Yotam Amitai, Ofra Amir, Guy Avni

arXiv:2504.05393v1 通知书类型: 新摘要: 随着强化学习方法取得越来越多的成就，对其解决方案的理解变得越来越关键。大多数可解释的强化学习(XRL)方法生成的是静态解释，描绘了开发者的直觉关于解释的内容和方式。相比之下，社会科学文献表明，有意义的解释是解释者和被解释者之间对话的形式，这建议用户在与代理的交流中发挥更主动的作用。在本文中，我们提出了ASQ-IT——一个交互式解释系统，根据用户提供的描述感兴趣行为的时间属性的查询来展示代理在环境中的行为视频片段。我们的方法基于形式化方法：ASQ-IT用户界面中的查询映射到我们开发的线性时序逻辑的有限迹片段（LTLf），我们的查询处理算法基于自动机理论。用户研究显示，最终用户能够理解和在ASQ-IT中提出查询，并且使用ASQ-IT有助于用户识别代理的错误行为。

发布时间: 4/9/2025

查看原文

EduPlanner: 基于LLM的多Agent系统，用于个性化和智能教学设计

作者: Xueqiao Zhang, Chao Zhang, Jianwen Sun, Jun Xiao, Yi Yang, Yawei Luo

arXiv:2504.05370v1 宣告类型: 新增摘要：在人工智能通用智能（AGI）时代，大型语言模型（LLMs）显著推进了智能教育的发展。一个有前景的应用领域在于自动泛化的教学设计，专注于两个关键方面：(1) 定制生成：基于学生的不同学习能力和状态，生成针对性的教学内容；(2) 智能优化：根据学习效果或考试成绩的反馈，逐步优化内容。目前，单一大型LLM无法有效管理整个过程，为设计智能教学计划带来了挑战。为解决这些问题，我们开发了EduPlanner，这是一种基于LLM的多智能体系统，包含评估代理、优化代理和问题分析师，通过对抗协作生成定制化和智能化的教学设计，用于课程和学习活动。以数学课程为例，EduPlanner采用了一种新颖的技能树结构，准确地建模了学生群体的背景数学知识，并根据学生的知识水平和学习能力个性化教学设计。此外，我们引入了CIDDP，这是一种基于LLM的五维评估模块，涵盖清晰度、完整性、深度、实用性及相关性，全面评估数学课程计划的质量，并启动智能优化。在GSM8K和代数数据集上的实验表明，EduPlanner在评估和优化教学设计方面表现优异。进一步的消融研究还验证了框架中每个组件的意义和有效性。我们的代码已在https://github.com/Zc0812/Edu_Planner公开可供查阅。

发布时间: 4/9/2025

查看原文

NuScenes-空间QA：自主驾驶中视觉语言模型的空间理解与推理基准

作者: Kexin Tian, Jingrui Mao, Yunlong Zhang, Jiwan Jiang, Yang Zhou, Zhengzhong Tu

arXiv:2504.03164v2 宣布类型: replace-cross 摘要：近期在视觉-语言模型（VLMs）方面的进展显示了其在自主驾驶任务中的强大潜力。然而，它们的空间理解与推理——自主驾驶的关键能力——依然表现出显著的局限性。值得注意的是，现有的所有基准都没有系统地评估VLMs在驾驶场景中的空间推理能力。为了填补这一空白，我们提出了NuScenes-SpatialQA，这是首个基于地面真实数据的问答（QA）基准，专门用于评估视觉-语言模型在自主驾驶中的空间理解和推理能力。该基准基于NuScenes数据集构建，并通过一个自动的三维场景图生成管道和问答生成管道构建。该基准系统地评估了视觉-语言模型在多个维度上的空间理解和推理性能。利用此基准，我们对各种视觉-语言模型进行了广泛的实验，包括通用模型和增强空间模型，提供了它们在自主驾驶中的空间能力的首次全面评估。令人惊讶的是，实验结果表明，增强空间的视觉-语言模型在定性问答中表现更好，但在定量问答中并不表现出竞争力。总体而言，视觉-语言模型在空间理解和推理方面仍面临不小挑战。

发布时间: 4/8/2025

查看原文

AI驱动的编程教育自我调节支持工具设计

作者: Huiyong Li, Boxuan Ma

arXiv:2504.03068v2 宣告类型: replace-cross 摘要：大语言模型（LLM）工具通过提供即时且个性化的反馈，展示了其在有效编程教育中提供高质量辅助的巨大潜力。然而，这些工具大多与机构的学习管理系统独立运行，这创建了一个明显的断层。这种隔离限制了利用学习材料和练习背景来生成针对性强、情境感知反馈的能力。此外，关于自我调节学习和LLM支持的先前研究主要集中在知识获取上，而不是发展重要的自我调节技能。为解决这些挑战，我们开发了CodeRunner Agent，这是一种基于LLM的编程助手，它集成了Moodle中的CodeRunner，这是一种学生提交代码的执行和自动评分插件。CodeRunner Agent使教育者能够通过纳入讲座材料、编程问题、学生答案和执行结果的详细背景来定制AI生成的反馈。此外，它通过提供基于策略的AI响应来增强学生的自我调节学习。这种整合、情境感知和技能导向的方法为编程教育的数据驱动改进提供了有希望的途径。

发布时间: 4/8/2025

查看原文

CoLa——学习与大型语言模型互动协作

作者: Abhishek Sharma, Dan Goldwasser

arXiv:2504.02965v2 宣告类型: replace-cross 摘要: 大规模语言模型 (LLMs) 在处理广泛的语言任务方面表现出色，为人类与人工智能的协作问题解决开辟了新的机会。LLMs 可以通过在其规模上应用直觉和推理策略来放大人类的能力。我们探索是否可以通过从人类指导 AI 系统解决复杂语言问题的示范中进行泛化，来模拟人类指导者。我们引入了 CoLa，一种新的自指导学习范式，用于训练自动化的“指导者”，并在两个问答数据集、一个谜题解决任务和一个受限文本生成任务上进行了评估。我们的实证结果表明，CoLa 在所有领域中都优于竞争方法。此外，小型训练指导者在作为指导者时优于像 GPT-4 这样的强大模型。我们通过在问答数据集上进行人类研究，比较了人类和自动化指导者所采用的策略。我们展示了自动化指导者通过适应推理者的能力来超越人类，并进行了定性分析，突出了指导策略中的显著差异。

发布时间: 4/8/2025

查看原文

推理时的扩展性优化以适应通用奖励建模

作者: Zijun Liu, Peiyi Wang, Runxin Xu, Shirong Ma, Chong Ruan, Peng Li, Yang Liu, Yu Wu

arXiv:2504.02495v2 声明类型: replace-cross 摘要：强化学习（RL）在大规模语言模型（LLMs）的后训练中已被广泛应用。最近，从RL激励LLMs的推理能力表明，合适的学习方法可以使推理时的有效缩放成为可能。RL的关键挑战是，在可验证的问题或人工规则之外的各种领域中为LLMs获取准确的奖励信号。在本工作中，我们研究了如何通过更多的推理计算来提高通用查询的奖励建模（RM），即通用奖励建模的推理时缩放，进一步探讨如何通过合适的学习方法提高性能计算缩放的有效性。对于RM方法，我们采用点生成奖励建模（GRM）以适应不同输入类型并具备推理时缩放的潜力。对于学习方法，我们提出了一种自我原则批判调整（SPCT）方法，通过在线RL促进GRMs中可扩展的奖励生成行为，生成适应性和准确的批判，从而得到DeepSeek-GRM模型。此外，为了有效实现推理时缩放，我们使用并行采样扩展计算使用，并引入一种元奖励建模来指导投票过程，以实现更好的缩放性能。实验证明，SPCT显着提高了GRMs的质量和可缩放性，优于各种RM基准中的现有方法和模型，且在各种情况下表现更好，优于训练时缩放。尽管DeepSeek-GRM在某些任务中仍面临挑战，但我们认为这可以通过未来对通用奖励系统的努力来解决。模型将被发布并开源。

发布时间: 4/8/2025

查看原文