arXiv 论文列表

作者: Ying-Jung Chen, Ahmad Albarqawi, Chi-Sheng Chen

arXiv:2504.03699v3 通知类型: 替换摘要: 在将伦理管理的解释性人工智能与临床决策支持系统(CDSS)整合的数据驱动医学方法方面取得的近期进步，对于确保可靠的患者护理至关重要。本文专注于比较使用模块化代理来分析实验室结果、生命体征和临床背景，并预测和验证结果的新型代理系统设计。我们首先使用eICU数据库实现了我们的代理系统，包括运行实验室分析、仅生命体征解释器和背景推理器代理，然后将记忆共享到集成代理、预测代理、透明度代理和验证代理中。我们的结果显示，多代理系统(MAS)在死亡率预测准确性（59%，56%）以及住院天数（LOS）的平均误差（4.37天，5.82天）方面优于单代理系统(SAS)。但是，SAS的透明度得分为86.21，略高于MAS的85.5。最后，本研究建议，我们的基于代理的框架不仅提高了过程透明度和预测准确性，还加强了在重症监护环境中的可信人工智能辅助决策支持。

发布时间: 4/16/2025

查看原文

深度研究员：通过在实际环境中的强化学习扩展深度研究

作者: Yuxiang Zheng, Dayuan Fu, Xiangkun Hu, Xiaojie Cai, Lyumanshan Ye, Pengrui Lu, Pengfei Liu

arXiv:2504.03160v3 宣告类型: 替换摘要: 配备有网络搜索能力的大语言模型（LLMs）在深度研究任务中展现了令人印象深刻的潜力。然而，当前的方法主要依赖于手工工程化的提示（基于提示工程的方法）以实现脆弱的表现，或者在受控的检索增强生成（RAG）环境中通过强化学习进行（基于RAG的方法），而这种方法在捕捉现实世界交互的复杂性方面存在不足。在本文中，我们介绍了DeepResearcher，这是一个全面的框架，用于通过在现实世界环境中放大强化学习（RL）来对基于LLM的深度研究代理进行端到端训练，其中包括真实的网络搜索交互。与基于RAG的方法假设所有必要的信息都存在于固定数据库中不同，我们的方法训练代理导航开放网络的嘈杂、不结构化和动态的特性。我们实现了一个专门的多代理架构，其中浏览代理从各种网页结构中提取相关信息，并克服了重大技术挑战。在开放领域研究任务上的广泛实验表明，DeepResearcher在基于提示工程的基线方法上取得了多达28.9分的显著改进，并且在基于RAG的RL代理上取得了多达7.2分的改进。我们定性的分析揭示了端到端RL训练中出现的认知行为，包括制定计划、从多个来源交叉验证信息、进行自我反思以重新定向研究、以及在无法找到确定答案时保持诚实的能力。我们的结果强调了在现实世界网络环境中进行端到端训练不仅仅是实现细节，而是开发与现实世界应用相一致的强大研究能力的基本要求。我们在https://github.com/GAIR-NLP/DeepResearcher 上发布了DeepResearcher。

发布时间: 4/16/2025

查看原文

我们需要这么多样本吗？多LLM重复采样高效扩展测试时计算能力

作者: Jianhao Chen, Zishuo Xun, Bocheng Zhou, Han Qi, Qiaosheng Zhang, Yang Chen, Wei Hu, Yuzhong Qu, Wanli Ouyang, Shuyue Hu

arXiv:2504.00762v3 宣告类型: 替换摘要：本文提出了一种简单、有效且成本效益高的策略，通过扩展测试时的计算能力来提高大型语言模型（LLM）的性能。该策略基于重复抽样然后投票的框架，引入了一个新的元素：即使是一些较弱的模型，也能充分利用它们从多样化训练数据和范式中可能产生的互补优势。通过使用一致性作为信号，该策略动态地在模型之间切换。理论分析突出了该策略的效率和性能优势。在六个数据集上的广泛实验表明，该策略不仅优于自我一致性以及最先进的多代理辩论方法，还能显著降低推理成本。此外，ModelSwitch 只需少数几个可比的 LLM 即可实现最佳性能，并且可以通过验证方法扩展，这表明在生成-验证范式中利用多个 LLM 的潜力。

发布时间: 4/16/2025

查看原文

AppAgentX：进化为 proficient 智能手机用户的 GUI 代理

作者: Wenjia Jiang, Yangyang Zhuang, Chenxi Song, Xu Yang, Joey Tianyi Zhou, Chi Zhang

arXiv:2503.02268v3 宣告类型: 更新摘要：近年来，大型语言模型（LLMs）的进步促进了能够与图形用户界面（GUIs）交互的智能化LLM代理的发展。这些代理展示了强大的推理能力和适应性，能够执行传统上需要预定义规则才能完成的复杂任务。然而，LLM代理依赖于逐步骤推理往往会导致对常规任务的低效处理。相比之下，传统的基于规则的系统在效率上表现出色，但在应对新情况时缺乏智能性和灵活性。为了应对这一挑战，我们提出了一种新的进化框架，该框架在提高操作效率的同时保持了智能性和灵活性。我们的方法结合了一个记忆机制，记录代理的任务执行历史。通过分析这段历史，代理识别重复的操作序列，并进化出高层操作，这些高层操作作为捷径来取代低层操作，从而提高效率。这使得代理能够专注于需要更复杂推理的任务，而将常规操作简化。实验结果表明，在多个基准任务上，我们的方法在效率和准确性方面显著优于现有方法。我们将开放源代码以支持进一步的研究。

发布时间: 4/16/2025

查看原文

值得信赖的答案，杂乱的数据：缩小领域专家系统中检索增强生成低资源应用的差距

作者: Nayoung Choi, Grace Byun, Andrew Chung, Ellie S. Paek, Shinsun Lee, Jinho D. Choi

arXiv:2502.19596v2 公告类型: 修订摘要：RAG已成为通过减少幻觉提高LLM的关键技术，尤其是在LLM可能缺乏充分固有知识的领域专家系统中。但是，在低资源环境中开发这些系统会带来几个挑战：(1) 处理异构数据源，(2) 优化检索阶段以获得可靠的答案，以及(3) 在多种方面评估生成的答案。为了应对这些挑战，我们介绍了一种数据生成管道，该管道将原始多模态数据转化为结构化语料库和问答对，引入了高级重排序阶段以提高检索精度，并引入了参考匹配算法以增强答案可追溯性。在汽车工程领域应用我们的系统，与非RAG基线相比，在LLM裁判的1-5分量表上，事实准确性提高了1.94分，信息量提高了1.16分，有用性提高了1.67分。这些结果突显了我们在不同方面有效性，具有强大的答案依据和透明性。

发布时间: 4/16/2025

查看原文

使用大型语言模型和知识图谱的宏分子 retrosynthesis 规划自动化

作者: Qinyu Ma, Yuhao Zhou, Jianfeng Li

arXiv:2501.08897v2 通知类型: 替换摘要：在材料化学中识别可靠的合成路径是一项复杂任务，尤其是在聚合物科学中，由于高分子化合物名称的复杂性和往往不是唯一的命名方式。为应对这一挑战，我们提出了一种结合大规模语言模型（LLMs）和知识图谱的代理系统。通过利用LLMs强大的提取和识别化学物质名称的能力，并将提取的数据存储在结构化的知识图谱中，我们的系统完全自动化了相关文献检索、反应数据提取、数据库查询、逆合成路径树构建，以及通过检索额外文献进一步扩展并推荐最优反应路径。考虑到化学反应物之间的复杂相互依赖性，我们提出了一种新的多分支反应路径搜索算法（MBRPS），帮助识别当一个单一产物分解成多种反应中间体时的所有有效多分支反应路径。相比之下，以往的研究仅限于产物最多分解成一个反应中间体的情况。本工作代表了利用LLMs开发专门适用于高分子的全自动逆合成规划代理系统的第一尝试。应用于聚酰亚胺合成，我们新的方法构建了一棵包含数百条路径的逆合成路径树，并推荐了包括已知和新颖路径在内的优化路线。这表明利用LLMs进行文献咨询以完成特定任务是可能且对于未来的材料研究至关重要，考虑到材料相关的文献量极其庞大。

发布时间: 4/16/2025

查看原文

AFlow：自动化代理工作流生成

作者: Jiayi Zhang, Jinyu Xiang, Zhaoyang Yu, Fengwei Teng, Xionghui Chen, Jiaqi Chen, Mingchen Zhuge, Xin Cheng, Sirui Hong, Jinlin Wang, Bingnan Zheng, Bang Liu, Yuyu Luo, Chenglin Wu

arXiv:2410.10762v4 宣告类型: 替换摘要: 大型语言模型（LLMs）在解决多样化领域中的复杂任务方面展示了巨大的潜力，通常通过遵循详细指令和操作序列的自主工作流程来实现。然而，构建这些工作流程需要大量的手动努力，限制了其可扩展性和一般性。最近的研究试图自动化这些工作流程的生成和优化，但现有的方法仍然依赖于初始的手动设置，并未能完全实现自动化和有效的工作流程生成。为了应对这一挑战，我们将工作流程优化重新表述为一个基于代码表示的工作流程搜索问题，其中调用LLM的节点通过边连接。我们引入了AFlow，这是一种自动化框架，利用蒙特卡洛树搜索高效地探索这个空间，并通过代码修改、树状结构的经验以及执行反馈逐步改进工作流程。跨六个基准数据集的实证评估展示了AFlow的有效性，平均提高了最先进的基线5.7%的性能。此外，AFlow使得较小的模型在成本仅为GPT-4o的4.55%的情况下，在特定任务上能够超越GPT-4o的推理成本。代码可在 https://github.com/FoundationAgents/AFlow 获取。

发布时间: 4/16/2025

查看原文

为什么任何事物都会有意识？

作者: Michael Timothy Bennett, Sean Welsh, Anna Ciaunica

arXiv:2409.14545v5 宣告类型: 替换摘要：我们从自然选择的、具 embodiment 的有机体出发，解决意识这一艰难问题。我们提供了一种形式化描述，说明生物系统如何自组织以根据效价逐级解释未标记的感官信息。这种解释暗示了行为策略，它们仅通过信息处理的定性方面相互区分。自然选择倾向于干预世界以实现稳态和生殖目标的系统。质量是在此类系统中出现的一种属性，将原因与结果联系起来，促使干预。这产生了内感受性和外感受性分类器，并决定了优先级。在形式化主意识与现象性意识的开创性区分时，我们主张人类水平的主意识需要能够逐级建模 i) 自我，ii) 世界/他人，iii) 他人对自我的建模，并且这需要现象性意识。没有主意识的现象性是常见的，但反之则不合理。用一种挑衅的说法来说：死亡赋予意义，大自然不喜欢僵尸。然后，我们描述了从岩石到爱因斯坦的多层次自组织架构，说明我们的论点是如何适用的。我们的提案奠定了意识的形式科学的基础，更接近于人类现实而非僵尸小说。

发布时间: 4/16/2025

查看原文

unlocking 大语言模型的智慧：通向人工通用智能的Introduction 路径

作者: Edward Y. Chang

arXiv:2409.01007v3 宣告类型: 替换摘要: 本书籍《开启多LLM协同智能智慧之门》旨在作为《通向人工通用智能的道路》一书的通俗介绍。书中通过十四条格言提炼了多LLM智能代理协同智能（MACI）的核心原则，该框架旨在协调多个LLM实现超越单一模型能力的推理、规划和决策。书籍包括每个主要章节的标题、摘要和引言，并包含前两章的完整内容。新发布的第三版对第6章至第9章进行了重大改进，并对莱恩·勒库恩对AGI可行性批评的修订前言作出回应。虽然勒库恩认为LLM缺乏背景知识、记忆和规划，我们提出MACI的协作架构，其中包括多模态代理在执行、立法和司法角色中，直接解决了这些问题。关于SocraSynth、EVINCE、意识建模和行为调节的章节证明，基于结构化交互和相互制约的推理系统可以产生更可靠、可解释性和更具适应性的智能。通过整合互补模型的优势，包括世界建模和多模态感知，MACI使系统层面的智能超过其各个部分的总和。就像人类机构一样，AI的进步可能更多依赖于协调判断而不是孤立的表现。联合LLM，而不仅仅是更大规模的LLM，可能引领通向人工通用智能的道路。

发布时间: 4/16/2025

查看原文

IAA：内适配器架构赋予冻结大型语言模型多模态能力

作者: Bin Wang, Chunyu Xie, Dawei Leng, Yuhui Yin

arXiv:2408.12902v2 公告类型：替换摘要：在多模态大型语言模型(MLLMs)领域，常见的方法通常是在训练过程中解冻语言模型以促进深入的视觉理解。然而，使用视觉-语言数据对这些模型进行微调往往会削弱它们的自然语言处理(NLP)能力。为了避免这种性能下降，一个简单的解决方案是在开发多模态能力的同时冻结语言模型。不幸的是，之前的 works 并未获得满意的结果。基于冻结语言模型的策略，我们进行了彻底的结构探索，并引入了内适配器架构(IAA)。具体而言，该架构在大型语言模型内部嵌入了多个不同深度的多模态适配器，以直接与本质上以文本为中心的变压器层进行交互，从而使冻结的语言模型能够获得多模态能力。与之前需要大规模对齐数据来冻结语言模型的方法不同，我们提出的架构能够在小规模数据集上实现更优的表现。我们进行了广泛的实验，以提高MLLM的通用多模态能力和视觉定位能力。我们的方法在各种视觉-语言基准测试中显著优于之前的领先方法，而不会牺牲NLP任务的性能。代码和模型可在 https://github.com/360CVGroup/Inner-Adaptor-Architecture 获取。

发布时间: 4/16/2025

查看原文