arXiv:2502.13107v1 类别: 新闻
摘要:理解并预测无机材料的性质对于加速材料科学的发展并在能源、电子等领域推动应用具有重要意义。通过多模态大型语言模型(LLMs)将材料结构数据与基于语言的信息相结合,能够通过增强人机交互来支持这些努力。然而,一个关键挑战在于将原子结构数据以完整分辨率整合进LLMs。在这项工作中,我们介绍了MatterChat,这是一种用途广泛的结构感知多模态LLM,将材料结构数据和文本输入统一到一个协调的模型中。MatterChat采用了一个桥梁模块,有效地将预训练的机器学习原子间势能与预训练的LLM对齐,从而降低训练成本并增强灵活性。我们的结果显示,MatterChat在材料性质预测和人机交互方面显著提高性能,超越了通用的LLMs,如GPT-4。我们还展示了它在更高级的科学推理和逐步材料合成等应用中的实用性。
arXiv:2502.13069v1 宣告类型: 新
摘要: 随着人工智能代理被越来越多地部署以自动执行任务,这些代理往往基于含糊不清和不明确的用户指令。做出不必要的假设和未能提出澄清问题会导致性能低下、因工具误用而产生的安全风险以及计算资源的浪费。在这项工作中,我们研究了大规模语言模型(LLM)代理在交互式代码生成场景中处理含糊指令的能力,通过评估专有模型和开源权重模型在三个关键步骤中的表现:(a) 利用互动性在含糊情境下提高性能,(b) 检测含糊性,以及(c) 提出针对性的问题。我们的研究发现,模型难以区分具体说明和不具体说明的指令。然而,当模型在不具体说明的输入上进行互动时,它们能够有效地从用户那里获取关键信息,从而显著提高性能,并强调有效互动的价值。我们的研究突显了当前最先进的模型在处理复杂软件工程任务中的含糊性方面的关键缺口,并将评估结构化为不同的步骤,以促进有针对性的改进。
arXiv:2502.13062v1 通知类型: 新
摘要: AI 系统越来越多地支持人类决策。在许多情况下,尽管算法表现出色,最终的决策仍由人类做出。例如,AI 可以帮助医生决定需要运行哪些诊断测试,但最终诊断由医生作出。本文研究了这种由算法辅助的决策设置,其中人类通过与算法的反复交互进行学习。在我们构建的框架中,算法——设计目的是根据其自己的模型来最大化决策准确性——决定了人类可以考虑哪些特征。然后,人类基于他们自己的较不准确的模型做出预测。我们观察到,算法模型与人类模型之间存在的差异造成了一个基本的权衡。算法应该优先推荐更具信息性的特征,促使人类认识到这些特征的重要性,即使短期内会导致预测不那么准确,直到学习发生吗?还是更优选不教育人类,而是选择与他们现有理解更一致的特征,从而最小化学习的即时成本?这种权衡由算法的时间折扣目标和人类的学习能力塑造。我们的结果显示,最优特征选择有一个令人惊讶的简洁组合特征表征,可以归结为一个可计算的特征子集的稳定序列。随着算法变得“更有耐心”或人类的学习能力提高,算法越来越多地选择更具信息性的特征,从而提高预测准确性和人类的理解。值得注意的是,早期对学习的投资比后期的投资会导致选择更多具有信息性的特征。我们通过证明算法知识中的错误对其预测的影响是有限的,因为算法不直接进行预测来补充我们的分析。
arXiv:2502.13025v1 类型: 新增
摘要: 我们提出了一种自主的图扩展框架,该框架迭代地在现场结构化和细化知识。与依赖静态提取或单次学习的传统知识图构建方法不同,我们的方法将具备推理能力的大语言模型与不断更新的图表示相结合。在每一步中,系统会主动生成新的概念和关系,将其合并到全局图中,并根据其不断演变的结构形成后续提示。通过这种基于反馈的循环,模型将信息组织成一个无标度网络,该网络特征是中心概念的形成、稳定模块化和连接不同知识簇的桥梁节点。经过数百次迭代,新的节点和边继续出现而不会饱和,而中心性度量和最短路径分布则演变为产生越来越分布的连接。我们的分析揭示了新兴模式,例如高度连接的“hub”概念的兴起以及“桥梁”节点影响力的转变,表明自主的、自我强化的图构建可以生成开放式的、连贯的知识结构。应用于材料设计问题,我们通过提取节点特定和协同作用级别的原则进行组成推理实验,以促进真正新颖的知识综合,产生跨越领域的想法,超越了简单的总结并增强了框架在开放型科学发现方面的潜在能力。我们讨论了在科学研究中的其他应用,并概述了增强可扩展性和可解释性的未来方向。
arXiv:2502.13006v1 声明类型: 新
摘要: 自动规划算法需要一个限定域模型,该模型指定了每种操作的先验条件和效果。获得这样的限定域模型通常非常困难。存在学习限定域模型的算法,但尚不清楚在数值规划环境下,即状态包括离散和数值状态变量的情况下,学习限定域模型和规划是否是一种有效的方法。在本工作中,我们探讨了学习数值限定域模型的好处,并将其与替代的无模型解决方案进行了比较。作为案例研究,我们使用了Minecraft中的两个任务,这是一个广泛使用的沙盒游戏,常被用作AI挑战。首先,我们考虑一种离线学习设置,在这种设置中,有一组专家轨迹可供学习。这是学习限定域模型的标准设置。我们使用了基于数值安全行动模型学习(NSAM)算法来学习一个数值限定域模型,并使用学习得到的限定域模型和数值规划器来解决新问题。我们将这种基于模型的解决方案称为NSAM_(+p),并将其与几个无模型的模拟学习(IL)和离线强化学习(RL)算法进行了比较。实验证明,一些IL算法在解决简单任务时学习得更快,而NSAM_(+p)能够解决需要长期规划的任务,并能泛化以在更大的环境中解决更多问题。然后,我们考虑一种在线学习设置,在这种设置中,学习是通过在环境中移动代理来进行的。为此设置,我们引入了RAMP。在RAMP中,在代理执行过程中收集到的观察值被用于同时训练一个RL策略并学习一个规划域动作模型。这形成了RL策略与学习到的限定域模型之间的正反馈循环。我们通过实验演示了使用RAMP的好处,展示了它比几个RL基线方法找到了更有效的计划,并解决了更多的问题。
arXiv:2502.13001v1 宣告类型: 新
摘要: 会议总结受到高质量数据有限的限制,主要是由于隐私限制和收集过程成本高昂。我们通过FAME数据集解决了这一缺口,该数据集包含由我们新的多Agent会议合成框架MIMIC生成的500场英文会议和300场德文会议,该框架通过定义心理上合理的参与者角色配置、概述对话内容并协调大型语言模型(LLM)辩论来生成基于给定知识源的会议记录。一个模块化的后处理步骤进一步细化这些输出,减轻潜在的重复性和过于正式的语气,确保在大规模上产生连贯且可信的对话。我们还提出了一种基于心理合理性的评估框架,用于评估自然度、社会行为的真实性以及对话内容的难度。人类评估结果显示,FAME接近真实的会议自发性(自然度评分为4.5/5),保留了以发言人为中心的挑战(口语语言为3/5),并引入了更丰富的信息导向难度(难度评分为4/5)。这些发现突显了FAME是真实世界会议条件的良好且可扩展的代理。它为会议总结研究提供了新的测试场景,并为需要对话数据的任务或在行为限制下模拟社会场景的其他以对话为中心的应用程序提供了支持。
arXiv:2502.12995v1 宣布类型: 新闻
摘要: 深度学习模型是强大的图像分类器,但它们的不透明性阻碍了它们的信任度。由于这些分类器的复杂性和规模,忠实且清晰地捕获其推理过程的方法极为稀缺。我们通过定义一种新的方法来解决这个问题,该方法使用两个代理之间的辩论来解释图像分类器的输出。我们通过具体的自由论辩交换实例(FAXs)获得了这些辩论,这是一种新颖的基于论辩的多代理框架,允许代理以不同于最初所述的方式内化其他代理的意见。我们定义了两个指标(共识率和说服率)来评估FAXs作为图像分类器论辩解释的实用性。随后,我们进行了多项实证实验,表明FAXs在这些指标上表现良好,而且在忠实于图像分类器方面比传统的非论辩解释方法更好。我们的所有实现可以在https://github.com/koriavinash1/FAX找到。
arXiv:2502.12961v1 Announce Type: 新的
摘要:大语言模型(LLMs)展现了令人瞩目的涌现性能力,通过利用外部工具来解决需要专门处理或实时数据的复杂问题,从而改变功能任务的执行方式。虽然现有的研究扩展了LLMs访问各种工具的能力(例如程序解释器、搜索引擎、天气/地图应用程序),但往往忽略了使用这些工具的必要性,导致了工具调用的盲目性。这种天真无邪的方法引发了两个关键问题:(1)由于不必要的工具调用导致的延迟增加,(2)由于与外部工具的不良交互导致的潜在错误。在这篇文章中,我们引入了元认知作为LLMs自我评估其能力的代理,表示模型对其自身局限的认知。基于此,我们提出了MeCo,这是一种针对外部工具使用的自适应决策策略。MeCo通过捕捉表示空间中的高层次认知信号来量化元认知得分,指导何时调用工具。值得注意的是,MeCo 是无需微调的,并且成本低廉。我们的实验表明,MeCo 准确检测了LLMs内部的认知信号,并在多个基础模型和基准测试中显著提高了工具使用决策的质量。
arXiv:2502.12926v1 通告类型: new
摘要:基于大规模语言模型(LLM)的代理已经在广泛的应用场景中展示了解决复杂任务的显著成功。然而,在特定上下文场景,如专业化行业或研究领域,它们的表现往往因缺乏相关领域的知识而减弱,导致结果不够精确或不理想。为了解决这一挑战,我们的工作提出了一种系统性的方法,旨在通过优化代理的底层提示来增强基于LLM的代理的上下文适应性,这些提示是决定代理行为、角色和交互的关键组成部分。手动为特定上下文任务优化提示既耗时又容易出错,且缺乏可扩展性。在这项工作中,我们提出了一种提取生成器框架,旨在自动化优化上下文条件下的LLM代理。我们的方法通过两个关键阶段进行操作:(i)从高质量输入-输出示例数据集提取特征,以及(ii)通过一种高层优化策略生成提示,该策略通过迭代识别表现不佳的案例并应用自我改进技术来促进。该框架通过使提示适应性更为精确,在多种输入尤其是特定上下文任务中提供了更可靠的表现,特别是对于维护语义一致性和最小化错误传播至关重要。尽管该方法最初是针对单阶段工作流开发的,但它的方法自然适用于多阶段工作流,为各种基于代理的系统提供了广泛的应用前景。实证评估表明,我们的框架显著改进了提示优化代理的表现,提供了一种结构化且高效的方法来解决基于上下文的语言模型代理问题。
arXiv:2502.12876v1 宣布类型: 新
摘要:创建个性化且适应性强的对话型AI依然是一项关键挑战。本文介绍了一种连续学习对话型AI(CLCA)的方法,该方法采用A2C强化学习实现,旨在超越静态大型语言模型(LLMs)。我们使用由LLMs生成的模拟销售对话来训练一个A2C代理。该代理学习优化对话策略以实现个性化,重点在于增强参与度和提供价值。我们的系统架构结合了强化学习与LLMs,用于数据创建和响应选择。该方法提供了通过连续学习构建个性化AI伴侣的一种实用方式,从而超越传统的静态LLM技术。