arXiv 论文列表

大型语言模型驱动的新闻驱动时间序列预测领域的代理 proficiency 是否能够因竞争而提升？

作者: Yuxuan Zhang, Yangyang Feng, Daifeng Li, Kexin Zhang, Junlan Chen, Bowen Deng

arXiv:2504.10210v1 宣告类型: 新颖摘要: 多智能体驱动的新闻时间序列预测被认为是在大语言模型（LLMs）时代的一种潜在的范式转变。这项任务的挑战在于衡量不同新闻事件对时间序列波动的影响。这需要智能体具备更强的创新思维能力和识别误导逻辑的能力。然而，现有的多智能体讨论框架在优化这两个能力方面对时间序列预测的提升有限。借鉴竞争促进创新的作用，本研究在多智能体讨论中嵌入了一个竞争机制，以增强智能体的创新思维能力。此外，为了提高模型在识别误导信息方面的熟练度，在反思阶段引入了一个微调的小型LLM模型，提供辅助决策支持。实验结果证实，竞争可以提升智能体的创新思维能力，从而显著提高时间序列预测 performance。类似社会科学的发现，本框架中竞争的强度可以影响智能体的表现，为基于LLMs的多智能体系统研究提供了新的视角。

发布时间: 4/15/2025

查看原文

MLLM提示的未来是适应性：提示工程方法对稳健多模态性能的全面实验评估

作者: Anwesha Mohanty, Venkatesh Balavadhani Parthasarathy, Arsalan Shahid

arXiv:2504.10179v1 公告类型: 新摘要: 多模态大型语言模型（MLLMs）有望通过整合诸如文本、图像和代码等多种模态来改变机器生成类人类响应的方式。然而，充分发挥其潜力则依赖于最佳的提示工程。我们对13个开源MLLM在24项任务中的提示工程方法进行了全面的实验评估，这些任务涵盖了推理与组合性、多模态理解和对齐、复杂代码生成与执行，以及知识检索与融合。我们根据参数数量将模型划分为小型（<4B）、中型（4B-10B）和大型（>10B）类别，并比较了包括零样本、单样本、少样本、思考链、类比、生成知识和思维树在内的各种提示技术。虽然大型MLLM在诸如代码生成等结构化任务中表现出色，使用少样本提示时准确率可达到96.88%，但所有模型在复杂推理和抽象理解方面均遇到困难，常常准确率低于60%，并伴有较高的虚构率。对于小型模型，结构推理提示通常将虚构率增加到75%，并且导致了更长的响应时间（大型MLLM超过20秒），而更简单的提示方法则提供了更简明高效的输出。没有一种提示方法能够统一优化所有任务类型。相反，结合示例指导和选择性结构推理的适应性策略对于提高稳健性、效率和事实准确性至关重要。我们的发现为提示工程提供了实用建议，并支持更可靠地在包括AI辅助编程、知识检索和多模态内容理解在内的各种应用中部署MLLMs。

发布时间: 4/15/2025

查看原文

突破数据壁垒——通过任务泛化构建GUI代理

作者: Junlei Zhang, Zichen Ding, Chang Ma, Zijie Chen, Qiushi Sun, Zhenzhong Lan, Junxian He

arXiv:2504.10127v1 宣告类型: 新摘要: 图形用户界面（GUI）代理为自动化复杂的数字任务提供了跨平台的解决方案，并具有显著的潜力来转变生产力工作流程。然而，它们的性能往往受到高质量轨迹数据稀缺的限制。为了解决这一局限，我们提议在专门的中期训练阶段对视觉语言模型（VLMs）进行数据丰富、推理密集型任务的训练，然后研究这些任务如何促进对GUI规划场景的泛化。具体来说，我们探索了一系列具有现成指令调优数据的任务范围，包括GUI感知、多模态推理和文本推理。通过在11个中期训练任务上进行广泛的实验，我们证明了：（1）任务泛化证明非常有效，在大多数设置中均取得了显著的改进。例如，多模态数学推理在AndroidWorld上的绝对性能提升了6.3%。值得注意的是，仅基于文本的数学数据在GUI网络代理性能上产生了显著的提升，在WebArena上提升了5.6%，在AndroidWorld上提升了5.4%，突显了从基于文本到视觉域的跨模态泛化的显著性；（2）与先前的假设相反，GUI感知数据——之前被认为与GUI代理任务紧密对齐，并广泛用于训练——对最终性能的影响相对有限；（3）在此基础上，我们识别出最有效的中期训练任务，并编制优化后的混合数据集，结果在WebArena上绝对性能提高了8.0%，在AndroidWorld上提高了12.2%。我们的工作为GUI代理的跨域知识迁移提供了有价值的见解，并为解决这一新兴领域中数据稀缺挑战提供了实用的方法。代码、数据和模型将在 https://github.com/hkust-nlp/GUIMid 提供。

发布时间: 4/15/2025

查看原文

RealSafe-R1：安全对齐的DeepSeek-R1，不牺牲推理能力

作者: Yichi Zhang, Zihao Zeng, Dongbai Li, Yao Huang, Zhijie Deng, Yinpeng Dong

arXiv:2504.10081v1 安全类型: 新闻摘要: 大型推理模型（LRMs），如 OpenAI o1 和 DeepSeek-R1，已在数学和编程等复杂推理任务上取得了迅速进步并实现了突破性 performance。然而，开源的 R1 模型在广泛应用中引发了安全关切，比如倾向于遵从恶意查询，这极大地影响了这些强大模型在实际应用中的实用性。在本文中，我们介绍 RealSafe-R1 作为与安全性对齐的 DeepSeek-R1 提纯模型。为训练这些模型，我们构建了一个由 15,000 个安全意识推理轨迹组成的数据集，这些轨迹是 DeepSeek-R1 在明确预期拒绝行为指令下生成的。定量实验和定性案例研究证明了这些模型的改进，这体现在它们对有害查询和冲破限制攻击的安全保护栏上。重要的是，与以往往往牺牲推理性能的安全对齐努力不同，我们的方法通过保持训练数据在原始生成分布内，保留了模型的推理能力。RealSafe-R1 的模型权重可在 https://huggingface.co/RealSafe 获取。

发布时间: 4/15/2025

查看原文

MMKB-RAG：一种多模态知识引导的检索增强生成框架

作者: Zihan Ling, Zhiyao Guo, Yixuan Huang, Yi An, Shuai Xiao, Jinsong Lan, Xiaoyong Zhu, Bo Zheng

arXiv:2504.10074v1 通知类型: 新摘要: 近年来，大型语言模型（LLMs）和多模态LLMs取得了显著进展。然而，这些模型仍然仅依赖其参数知识，这限制了它们生成最新信息的能力，增加了生成错误内容的风险。检索增强生成（RAG）部分缓解了这些挑战，通过引入外部数据源进行辅助，但依赖数据库和检索系统可能会引入无关或不准确的文档，最终损害了性能和推理质量。在本文中，我们提出了一种新颖的多模态基于知识的检索增强生成（MMKB-RAG）框架，该框架利用模型固有的知识边界，动态生成检索过程中的语义标签。这一策略使检索到的文档能够联合过滤，只保留最相关和准确的引用。在基于知识的视觉问答任务上的广泛实验表明了我们方法的有效性：在E-VQA数据集中，我们的方法在Single-Hop子集上提高了4.2%的性能，在完整数据集上提高了0.4%；在InfoSeek数据集中，我们的方法在Unseen-Q子集中获得了7.8%的提升，在Unseen-E子集中获得了8.2%的提升，在完整数据集上获得了8.1%的提升。这些结果突显了我们的方法在准确性和鲁棒性方面显著优于当前最先进的MLLM和RAG框架。

发布时间: 4/15/2025

查看原文

关注什么和在哪里？基于视觉的深度强化学习中的可解释特征提取

作者: Tien Pham, Angelo Cangelosi

arXiv:2504.10071v1 宣告类型: 新摘要: 当前可解释深度强化学习的方法在视觉输入中注意力掩码与物体之间的偏移方面存在限制。本工作解决的是传统卷积神经网络（CNNs）中的空间问题。我们提出了可解释特征提取器（IFE）架构，旨在生成一个准确的注意力掩码，以说明代理在空间域中集中注意的具体“什么”和“哪里”。我们的设计包括一个易理解编码模块，用于生成一个完全可解释的注意力掩码，以及一个代理友好编码模块，以提高代理的学习效率。这两个组件共同构成了用于基于视觉的深度强化学习的可解释特征提取器，以使模型具有可解释性。生成的注意力掩码具有一致性，高度易于人类理解，在空间维度上准确，并有效地突显视觉输入中的重要对象或位置。可解释特征提取器被集成到快速和数据高效彩虹框架中，并在57款ATARI游戏中进行了评估，以展示所提方法在空间保存、可解释性和数据效率方面的有效性。最后，我们通过将IFE整合到异步优势动作-评论者模型中展示了我们方法的通用性。

发布时间: 4/15/2025

查看原文

CHARM：根据聊天机器人竞技场评分校准奖励模型

作者: Xiao Zhu, Chenmien Tan, Pinzhen Chen, Rico Sennrich, Yanlin Zhang, Hanxu Hu

arXiv:2504.10045v1 宣告类型: 新颖摘要: 奖励模型（RMs）在通过代理人类偏好来对齐大规模语言模型的强化学习从人类反馈中发挥着关键作用。在本文中，我们识别出RMs中的一种模型偏好偏差，其中它们系统地对某些策略模型的回复赋予了不相称的高分。这种偏差扭曲了排名评估，并导致了不公正的判断。为了应对这一问题，我们提出了一种称为CHatbot Arena校准奖励建模（CHARM）的方法，该方法利用Chatbot Arena排行榜中的Elo分数来缓解RMs的过度估值。我们还引入了一种差异度量标准来衡量这种偏好偏差。我们的方法计算效率高，只需一个小型的偏好数据集即可继续训练RMs。我们在奖励模型基准和人类偏好对齐方面进行了广泛的实验。结果表明，我们的校准RMs：(1) 在RM-Bench和RewardBench的Chat-Hard领域中实现了更好的评估准确性；(2) 与人类偏好表现出更强的相关性，生成的分数更接近Elo排名。通过缓解模型偏好偏差，该方法为构建更公平可靠的奖励模型提供了一种通用且高效的解决方案。

发布时间: 4/15/2025

查看原文

推理模型无需思考也可以有效

作者: Wenjie Ma, Jingxuan He, Charlie Snell, Tyler Griggs, Sewon Min, Matei Zaharia

arXiv:2504.09858v1 宣告类型: 新摘要: 最近的大型语言模型（LLMs）在推理能力方面取得了显著的改进，主要是通过将明确的漫长推理过程纳入生成过程。在本文中，我们质疑这种明确的推理是否必要。使用最先进的DeepSeek-R1-Distill-Qwen，我们发现通过简单的提示绕过推理过程，称为NoThinking，效果出乎意料的好。在控制生成词元数量的情况下，NoThinking在七种具有挑战性的推理数据集中表现优于传统推理，尤其是在低预算设置中，例如在700词元的ACM 23数据集中，NoThinking的性能为51.3，而传统推理为28.9。值得注意的是，随着pass@k的增加，NoThinking的性能变得更加具有竞争力。基于这一观察，我们展示了通过使用NoThinking独立生成N个输出并进行聚合的方法非常有效。对于聚合，如果有任务特定的验证器，则使用特定任务的验证器；如果没有，则使用基于信心的简单最佳N策略，如基于置信度的选择。我们的方法在与传统推理具有相似延迟的基线模型中表现出色，并且其整体性能在显著更长延迟的情况下（最多9倍）与传统推理相当。总之，我们的研究鼓励重新考虑冗长推理过程的必要性，同时为在低预算设置或低延迟环境下通过并行扩展实现强大推理性能建立了竞争性参考。

发布时间: 4/15/2025

查看原文

大型语言模型驱动的空间智能综述：在体代理、智能城市和地球科学中的进展

作者: Jie Feng, Jinwei Zeng, Qingyue Long, Hongyi Chen, Jie Zhao, Yanxin Xi, Zhilun Zhou, Yuan Yuan, Shengyuan Wang, Qingbin Zeng, Songwei Li, Yunke Zhang, Yuming Lin, Tong Li, Jingtao Ding, Chen Gao, Fengli Xu, Yong Li

arXiv:2504.09848v1 宣告类型: 新摘要：在过去的一年中，大型语言模型（LLMs）的发展使空间智能受到了关注，特别是在基于视觉的体现智能方面。然而，空间智能跨越了更广泛的学科和规模，从导航和城市规划到遥感和地球科学。这些领域的空间智能之间有何不同和联系？在这篇论文中，我们首先回顾了人类空间认知及其对LLMs中空间智能的影响。然后我们探讨了LLMs中的空间记忆、知识表示和抽象推理，强调了它们的作用和联系。最后，我们按照从空间记忆和理解到空间推理和智能的框架，分析了不同尺度的空间智能——从体现到城市和全球层面。通过这项综述，我们旨在为跨学科的空间智能研究提供见解，并激发未来的研究。

发布时间: 4/15/2025

查看原文

两个头比一个好：多代理协作推理的测试时扩展

作者: Can Jin, Hongwu Peng, Qixin Zhang, Yujin Tang, Dimitris N. Metaxas, Tong Che

arXiv:2504.09772v1 宣告类型: 新摘要: 以大规模语言模型（LLMs）为基础构建的多智能体系统（MAS）为解决单智能体系统常常难以管理的复杂现实任务提供了具有前景的途径。虽然最近在测试时放大规模（TTS）方面的进展显著提升了单智能体在具挑战性的推理任务上的性能，但如何有效扩展MAS中的协作与推理仍然是一个开放的问题。在本文中，我们介绍了一个适应性多智能体框架，该框架通过模型级训练和系统级协调来增强协作推理。我们构建了包含500个协作推理踪迹的高质量数据集M500，并在该数据集上对Qwen2.5-32B-Instruct进行微调，生成了M1-32B模型，该模型专门优化了多智能体协作。为了进一步增强适应性推理，我们提出了一种新的CEO代理，该代理动态管理讨论过程，指导智能体间的协作并调整推理深度，以实现更有效的问题解决。在一系列任务中评估了我们的系统，包括一般理解、数学推理和编程任务，我们的系统显著优于强基线。例如，M1-32B在GPQA-Diamond上实现了12%的改进，在AIME2024上实现了41%的改进，在MBPP-Sanitized上实现了10%的改进，部分任务与最先进的模型DeepSeek-R1的性能相当。这些结果突显了在扩展多智能体推理时学习协作和适应性协调的重要性。代码可在https://github.com/jincan333/MAS-TTS获取。

发布时间: 4/15/2025

查看原文