arXiv:2012.12689v4 宣布类型: 替换-交叉
摘要: 我们通过赋予Lotka-Volterra模型中的猎物和捕食者不同的精巧程度的行为算法,探讨了“智能”人工代理应具备何种程度智能的辩论。我们发现,通过赋予猎物和捕食者基于线性外推进行预测的能力,出现了一种新的动态平衡,两种物种共存且其种群可以无限增长。虽然我们确认,通常情况下简单代理有利于复杂集体行为的出现,但我们还建议,个体能够对其他个体行为的一阶导数进行计算的能力,可能允许集体计算任意阶的导数。
arXiv:2503.23037v2 宣告类型: 替换
摘要:对于行为型大语言模型(agentic LLMs)存在极大的兴趣,这类模型能够充当代理。我们回顾了这一领域的日益增长的研究成果,并提供了一个研究议程。行为型大语言模型是能够在以下三个方面发挥作用的模型:(1) 推理,(2) 行动,和 (3) 互动。我们根据这三个类别组织文献。第一类研究侧重于推理、反思和检索,旨在改进决策;第二类研究侧重于行动模型、机器人和工具,旨在使代理成为有用的助手;第三类研究侧重于多代理系统,旨在实现协作任务解决,并通过模拟互动来研究新兴的社会行为。我们发现,这些类别中的工作能够相互受益:检索使工具使用成为可能,反思提高了多代理协作的效率,而推理则对所有类别都有益。我们讨论了行为型大语言模型的应用,并提供了进一步研究的议程。重要的应用包括医疗诊断、物流和金融市场分析。此外,具有自省能力的代理能够在相互扮演角色并互动中增强科学研究本身的过程。进一步而言,行为型大语言模型可能为大型语言模型耗尽训练数据的问题提供解决方案:推理时的行为能够生成新的训练状态,从而使大语言模型能够持续学习,而无需依赖越来越大的数据集。我们注意到,当大语言模型助手在真实世界中采取行动时存在风险,而行为型大语言模型也很有可能对社会产生积极影响。
arXiv:2503.17604v2 宣告类型: 替换
摘要:大规模语言模型(LLMs)在推进科学知识和解决复杂挑战方面展现出了非凡的潜力。在这项工作中,我们介绍了OmniScience,这是一个专门为通用科学设计的专用大规模推理模型,通过三个关键组成部分开发:(1)在精心筛选的科学文献语料库上进行领域适配的预训练,(2)在特定数据集上的指令调优以引导模型执行领域特定任务,以及(3)通过微调进行基于推理的知识精化,以显著增强其生成上下文相关且逻辑严密的响应的能力。通过开发一个电池代理来高效地评估分子作为潜在电解质溶剂或添加剂的潜力,我们展示了OmniScience的灵活性。全面的评估表明,与其他参数数量相似的最先进的大规模推理模型相比,OmniScience在GPQA Diamond和领域特定的电池基准测试中具有竞争力,而在所有公开的推理和非推理模型中表现更优。我们还通过消融实验进一步证明,领域适配的预训练和基于推理的知识精化对于达到我们的性能水平是至关重要的,这一点在所有基准测试中都是成立的。
arXiv:2502.06152v2 宣告类型: 替换
摘要:在决策任务中,通常会将多个代理(包括人类和AI模型)配对,期望它们的表现能够互补,使得两者的联合性能优于单个代理。然而,要在不了解各代理具体使用何种信息和策略的情况下,提高人类-AI团队的表现往往很困难。我们提供了一种决策理论框架,以表征信息的价值——进而,代理如何更有效地利用可用信息——在AI辅助决策工作流中的机会。我们展示了该框架在模型选择、人类-AI性能的实证评估以及解释设计中的应用。我们提出了一种基于信息的新颖解释技术,将一种基于显著性的解释方法SHAP进行调整,以解释决策中的信息价值。
arXiv:2412.16355v2 宣告类型:替换
摘要:随着基础模型的兴起,人们越来越关注它们的潜在社会影响。社会科学长期以来一直在研究具有变革性的新技术对既有的权力系统和社会系统的影响及其被新科技破坏或强化的方式。在这篇立场论文中,我们借鉴了以前研究早期技术的社会影响的工作,提出了一个概念框架,将基础模型视为社会技术系统,并结合社会科学的专业知识,以便更好地理解这些模型如何影响权力系统,在各种应用中部署这些模型可能产生何种影响,并研究旨在减少社会危害的技术干预措施的效果。我们提倡在基础模型研究和开发的所有阶段,促进人工智能和社会科学之间的跨学科和合作研究方法,以促进负责任的研究实践和应用,并概述了几种促进这种研究的策略。
arXiv:2411.18526v2 安全类型: 替换
摘要:随着人工智能系统的日益强大,确保人工智能安全的需求也变得更加紧迫。人类是人工智能安全的一个诱人的模型:作为唯一已知能够实现通用智能的代理,他们在与以前经验显著不同的条件下表现出色,安全地探索世界、理解语用性,并能够合作以实现其内在目标。当与合作和安全机制结合时,智能可以推动持续的进步和福祉。这些属性取决于大脑的架构及其所实现的学习算法。因此,神经科学可能持有目前尚未充分利用的重要钥匙,以解决技术人工智能安全问题。在这份路线图中,我们强调并批判性地评估了几条受神经科学启发的人工智能安全路径:模仿大脑的表示、信息处理和架构;从模仿脑数据和身体构建稳健的感觉和运动系统;在脑数据上微调人工智能系统;利用神经科学方法推进可解释性;以及扩展认知启发的架构。我们提出了一些具体的建议,说明神经科学如何能够积极影响人工智能安全。
arXiv:2410.17233v3 通告类型: 修改
摘要:基于偏好的强化学习是处理奖励难以明确指定但可以通过极其高效的学习偏好的任务的一种有效方法,但偏好学习通常是从头开始(tabula rasa)。我们展示了大型语言模型(LLMs)具有内置的偏好学习能力,使它们能够实现样例效率的偏好学习,从而应对这一挑战。我们提出了上下文偏好学习(ICPL),它利用LLMs的上下文学习能力来减少人类查询的低效率。ICPL 使用任务描述和基本环境代码来创建一系列奖励函数,通过将人类反馈放置在LLM 的上下文环境中,并将最终结果的政策视频反馈给LLM,迭代改进奖励。我们首先通过一个合成偏好的研究展示了ICPL 的有效性,提供了定量证据表明它在性能和效率方面远超基于偏好的基线方法,且效率提高了多个数量级。我们观察到,这些改进不仅仅来源于LLMs 对任务的解释能力,还表明随着时间的推移,奖励的质量也在不断提高,这表明偏好学习能力。此外,我们还进行了多轮真实的人类偏好学习试验,观察到ICPL 不仅适用于合成环境,也能在有人类参与的情况下有效工作。
arXiv:2410.15748v2 宣告类型: 替换
摘要: 就即使是经验丰富的专家来说,编写形式证明也是非常具挑战性的。神经定理证明(NTP)的近期进展显示出加快这一过程的潜力。然而,互联网上可用的形式语料库相较于通用文本来说数量有限,这给NTP带来了显著的数据稀缺挑战。为了解决这个问题,本研究提出了Alchemy,一种一般性的数据合成框架,通过符号变异构建形式定理。具体而言,对于Mathlib中的每个候选定理,我们识别所有可调用的定理,这些定理可以用于重写或应用到该候选定理上。随后,我们通过用其等效形式或前提替换候选定理中的相应项来变异候选定理。结果,我们的方法将Mathlib中的定理数量提高了十倍,从110k增加到6M。此外,我们对这个扩充了的语料库进行了持续的预训练和监督微调,以改进大型语言模型。实验结果表明,我们的方法在Leandojo基准测试中实现了4.70%的绝对性能提升。此外,基于合成数据,我们的方法在out-of-distribution miniF2F基准测试中实现了2.47%的绝对性能提升。为了提供进一步的见解,我们对合成数据构成和训练范式进行了全面分析,为开发强大的定理证明器提供了宝贵的指导。
arXiv:2409.15127v3 公开类型: 重新提交
摘要:本研究利用优化了的上下文检索来增强开源大型语言模型(LLMs),以实现成本效益高且高性能的医疗AI。我们证明,这种方法在医疗问答任务上达到了最先进的准确率,成本仅为专有模型的一小部分,并在MedQA基准上显著改善了成本-准确率的帕累托前沿。主要贡献包括:(1) 开放医疗QA (OpenMedQA),一种新颖的基准,揭示了开放式医疗问答与选择题格式之间的性能差距;(2) 一种实用且可复制的上下文检索优化管道;以及 (3) 开放源代码资源(提示引擎、CoT/ToT/思考数据库),以促进医疗AI的发展。通过推进检索技术和问答评估,我们使更经济实惠且可靠的LLM解决方案能够应用于医疗领域。
arXiv:2405.17537v4 公告类型: 修改
摘要: 量化生物多样性对于理解生态系统健康至关重要。虽然先前的工作独立地开发了机器学习模型用于 photographic 图像和 DNA 的分类,但在本工作中,我们提出了一种结合这两种方法的多模态方法,使用 CLIP 风格的对比学习将图像、条形码 DNA 和基于文本的分类标签表示统一映射到一个嵌入空间中。这使得在不需要针对特定任务进行微调的情况下,能够准确地分类已知和未知的昆虫物种,并首次利用对比学习将条形码 DNA 和图像数据融合在一起。我们的方法在零样本学习任务上比以前的单模态方法准确率高出 8% 以上,展示了其在生物多样性研究中的有效性。