arXiv:2110.08420v3 宣告类型: replace-cross
摘要: 估计数据集的难度通常涉及将最先进的模型与人类进行比较;性能差距越大,数据集被认为就越难。然而,这种比较对于理解给定分布中的每个实例的难度有多大,或是什么特征使得给定模型难以处理该数据集知之甚少。为了解决这些问题,我们将与模型 \(\mathcal{V}\) 相关的数据集难度框架化为缺乏 \(\mathcal{V}\)-可利用信息 (Xu et al., 2019) 的情况,其中数值越低表示对 \(\mathcal{V}\) 越难的数据集。我们进一步引入点wise \(\mathcal{V}\)-信息 (PVI) 用于衡量单个实例相对于给定分布的难度。虽然标准评估指标通常仅比较同一数据集的不同模型,但 \(\mathcal{V}\)-可利用信息和 PVI 允许进行逆向比较:对于给定的模型 \(\mathcal{V}\),我们可以比较不同数据集,以及同一数据集的不同实例/切片。此外,我们的框架允许通过输入变换对不同输入特征的可解释性进行分析,我们使用这一方法发现广泛使用的NLP基准测试中的注释错误。
arXiv:2504.16736v2 Announce Type: replace
摘要:大型语言模型(LLMs)的快速发展导致LLM代理在多个行业中得到了广泛部署,包括客户服务、内容生成、数据分析,甚至是医疗保健。然而,随着部署的LLM代理数量的增加,一个主要问题出现了:这些代理没有标准的方式与外部工具或数据源进行通信。缺乏标准化的协议使得代理很难协同工作或有效扩展,并限制了它们解决复杂、现实世界任务的能力。统一的代理通信协议可以改变这一局面。它将使代理和工具能够更顺畅地交互,促进合作,并激发集体智能的形成。在这篇论文中,我们首次对现有的代理协议进行了全面分析,提出了一个系统化的二维分类,区分了以上下文为导向的协议与代理间协议,以及通用性协议与特定领域协议。此外,我们在安全性、可扩展性和延迟等关键维度上对比分析了这些协议的性能。最后,我们通过确定下一代协议的关键研究方向和必要特征,探索代理协议的未来格局。这些特征包括适应性、隐私保护和基于群体的交互,以及分层架构和集体智能基础设施的趋势。我们期望这项工作能够为希望通过设计、评估或整合强大通信基础设施来研发智能代理的研究人员和工程师提供实用的参考。
arXiv:2504.11419v2 宣布类型:替换
摘要:在部分可观察环境中进行空间推理通常通过被动预测模型来实现,然而,基于体验的认知理论表明,只有当感知与行动紧密结合时,才会产生真正有用的表示。在这里,我们探讨是否可以通过仅通过稀疏奖励训练来解决程序生成的平面迷宫的循环代理,自主内化诸如方向、距离和障碍布局等度量概念。经过训练后,代理在未见过的迷宫中一致地生成接近最优的路径,这种行为暗示了潜在的空间模型。为了探究这种可能性,我们将封闭的代理-环境循环视为混合动力系统,确定其状态空间中的稳定极限环,并使用岭表示法将整个轨迹嵌入到一个共同的度量空间中。经典相关分析揭示了神经和行为流形之间稳健的线性对齐,而对最具信息量的神经维度进行针对性的扰动严重降低了导航性能。综合来看,这些动力学、表示和因果标志表明,持续的感觉运动交互对于自发涌现紧凑的、具身的世界模型是足够的,提供了可解释性和可转移导航策略的一个原则性路径。
arXiv:2504.04736v2 宣告类型: 更改
摘要:强化学习已被证明能够提升大型语言模型的性能。然而,传统的方法如RLHF或RLAIF将问题视为单步解决。随着对更复杂的推理和自主任务的关注增加,语言模型必须通过多次生成文本、推理和环境交互步骤,才能生成解决方案。我们提出了一种针对多步骤优化场景的合成数据生成和强化学习方法。这种方法称为逐步强化学习(Step-Wise Reinforcement Learning, SWiRL),它通过迭代生成多步骤推理和工具使用数据,然后从中学习。它采用简单的逐步分解方法,将每个多步骤轨迹分解为多个子轨迹,每个子轨迹对应原始模型的每个动作。然后,它在这些子轨迹上应用合成数据筛选和RL优化。我们在多个多步骤工具使用、问答和数学推理任务上评估了SWiRL。我们的实验表明,SWiRL分别在GSM8K、HotPotQA、CofCA、MuSiQue和BeerQA上的相对准确度表现优于基础方法21.5%、12.3%、14.8%、11.1%和15.3%。令人兴奋的是,该方法在任务之间表现出泛化能力:例如,仅在HotPotQA(文本问答)上进行训练,可以将GSM8K(数学数据集)的零样本性能相对提高16.9%。
arXiv:2503.10619v3 通告类型: 更新
摘要: 我们提出了Siege,这是一种多轮对抗框架,从树搜索的角度建模了大型语言模型(LLM)安全性的逐渐侵蚀。与依赖于一个精心设计的提示的单轮脱管攻击不同,Siege 以广度优先的方式扩展对话,在每次轮次中产生多个利用先前响应部分合规性的对抗性提示。通过追踪这些逐步策略泄露并在后续查询中重新注入它们,Siege 展示了小幅度让步如何累积成为完全禁止的输出。在 JailbreakBench 数据集上的评估显示,Siege 在单轮多轮运行中对 GPT-3.5-turbo 成功率为 100%,对 GPT-4 成功率为 97%,使用比 Crescendo 或 GOAT 等基线更少的查询次数。这种树搜索方法提供了模型防护措施随对话轮次递减的深入见解,强调了对于语言模型来说,进行稳健的多轮测试程序的迫切性。
arXiv:2502.20601v2 宣告类型:替换
摘要:保持均衡饮食对于整体健康至关重要,但由于营养复杂性、时间限制以及缺乏饮食知识,许多个体在餐食规划方面面临挑战。个性化的食物建议可以通过根据个人偏好、习惯和饮食限制量身定制餐食计划来解决这些问题。然而,现有的饮食推荐系统往往缺乏适应性和灵活性,未能考虑到现实世界中的限制(如食材可获得性),并且需要大量用户输入,使得它们在可持续和可扩展的日常使用中变得不实用。为了应对这些局限性,我们引入了NutriGen,一种基于大规模语言模型(LLM)的框架,旨在生成与用户定义的饮食偏好和限制相一致的个性化餐食计划。通过构建个性化的营养数据库并利用提示工程技术,我们的方法使LLM能够结合可靠的营养参考数据(如美国农业部营养数据库),同时保持灵活性和易于使用。我们证明了LLM在生成准确且用户友好的食物建议方面具有强大的潜力,通过提供结构化、实用且可扩展的餐食计划,解决了现有饮食推荐系统的关键局限性。我们的评估结果显示,Llama 3.1 8B和GPT-3.5 Turbo分别实现了最低的百分比误差1.55%和3.68%,生成的餐食计划与用户定义的热量目标高度契合,同时减小了偏差并提高了精度。此外,我们还将DeepSeek V3的性能与其他多个已建立的模型进行了比较,以评估其在个性化营养规划方面的潜力。
arXiv:2502.19546v3 通告类型: 替换
摘要:领先的视觉-语言模型(VLMs)在通用互联网内容上进行训练,忽视了科学期刊中丰富的、领域特定的知识。在专业文献上进行训练可能会产出高效率的、任务特定的工具,使生成式AI能够在特异性出版、教育和临床任务上与通用模型相匹敌。我们创建了NeuroPubs,这是一个包含23,000篇神经外科论文的多模态数据集(1.34亿词,78,000对图像-标题对)。使用NeuroPubs,VLMs生成了可发表的图形摘要(100份摘要中有70%),以及与人类撰写的一样难以区分的板式问题(89,587个问题中有54%)。我们利用这些问题训练了拥有340亿参数的VLM——CNS-Obsidian。在一项盲法随机对照试验中,我们的模型在神经外科鉴别诊断上表现出非劣效于当时的最新技术GPT-4o(临床效用:40.62%的投票率 vs. 57.89%,p=0.1150;准确性:59.38% vs. 65.79%,p=0.3797)。我们的试点研究显示,通过对专业特定期刊内容进行训练——而无需大规模互联网数据——生成式AI模型能够产出高性能的学术和临床工具,从而在各个领域实现领域定制化的人工智能。
arXiv:2502.17049v2 公告类型: 修改
摘要:急性冠脉综合征(ACS),包括ST段抬高型心肌梗死(STEMI)和非ST段抬高型心肌梗死(NSTEMI),仍然是全球主要的死亡原因。传统的心血管风险评分主要依赖于临床数据,常常忽视空气污染等环境因素对心脏健康的重大影响。此外,将复杂的时序环境数据与临床记录结合起来也颇具挑战性。
我们介绍了TabulaTime,这是一种多模态深度学习框架,通过结合临床风险因素和空气污染数据来增强ACS风险预测。TabulaTime具有三个关键创新:首先,它将时序空气污染数据与临床表格数据相结合,以提高预测精度。其次,其PatchRWKV模块自动提取复杂的时序模式,克服了传统特征工程的限制,同时保持了线性计算复杂度。第三,注意力机制通过揭示临床和环境因素之间的互动来增强可解释性。
实验结果表明,TabulaTime相比传统的模型(如CatBoost、随机森林和LightGBM)提高了超过20%的预测准确性,仅空气污染数据就贡献了超过10%的提升。特征重要性分析指出了关键预测因子,包括之前的胸痛、收缩压、PM10和NO2。总的来说,TabulaTime将临床和环境洞察结合起来,支持个性化的预防策略并为公共健康政策提供信息,以减轻ACS风险。
arXiv:2502.13392v2 宣告类型: 替换
摘要:Waymo 等先锋公司已经在多个美国城市部署了自动驾驶出租车服务。这些自动驾驶出租车是电动车辆,其运行需要在一个随机环境中联合优化行程匹配、车辆重新定位和充电调度。我们将配备自动驾驶出租车的叫车系统运行建模为一个具有无限 horizon 的离散时间、平均回报马尔可夫决策过程。随着车队规模的增大,调度变得更具挑战性,因为随车辆数量增加,系统状态空间和调度动作空间均以指数级增长。为了解决这一问题,我们引入了一种可扩展的深度强化学习算法,称为原子近端策略优化(Atomic-PPO),该算法通过原子动作分解减少了动作空间。我们使用纽约市的实际出租车行程记录来评估该算法,并通过与基于流体的上界实现的长期平均回报来衡量其性能。我们的实验表明,Atomic-PPO 在性能上优于基准方法。此外,我们还进行了广泛的数值实验来分析充电设施的有效分配,并评估车辆行驶范围和充电桩速度对系统性能的影响。
arXiv:2502.13107v3 宣告类型: 修改
摘要:理解和预测无机材料的性质对于加速材料科学的进步以及在能源、电子等领域中的应用至关重要。通过多模态大型语言模型(LLMs)将材料结构数据与基于语言的信息相结合,为增强人类与AI的交互提供了巨大的潜力。然而,一个关键挑战在于如何将原子结构在全分辨率下整合到LLMs中。在本文中,我们介绍了MatterChat,这是一个多功能结构感知多模态LLM,它将材料结构数据和文本输入统一到一个连贯的模型中。MatterChat采用了一个连接模块,有效地将预训练的机器学习原子间势与预训练的LLM对齐,从而降低训练成本并提高灵活性。我们的结果显示,MatterChat在材料性质预测和人类与AI交互方面显著提高了性能,超过了诸如GPT-4等通用型LLMs。我们还展示了它在更先进的科学推理和逐步材料合成等应用场景中的实用性。