arXiv:2502.02867v1 类型: cross
摘要:模仿学习(IL)使代理能够模仿专家行为,而无需奖励信号,但在高维、噪声大和观测不完整的跨领域场景中面临挑战。为了解决这一问题,我们提出了用于模仿学习的域不变每帧特征提取方法(DIFF-IL),这是一种新颖的IL方法,从单独的帧中提取域不变特征并将其适应为序列,以隔离和复制专家行为。我们还引入了一种帧时间标签技术,通过时间片段分隔专家行为,并在与时间上下文对齐的情况下分配奖励,从而增强任务性能。在多样化的视觉环境中进行的实验证明了DIFF-IL在处理复杂视觉任务方面的有效性。
arXiv:2502.02866v1 类型: cross
摘要: 软件测试确保软件产品质量和可靠性,但手动创建测试案例是一项劳动密集型工作。随着大型语言模型(LLMs)的兴起,使用LLMs创建单元测试逐渐引起了关注。然而,由于缺乏全面覆盖不同编程场景的标准基准评估,对LLMs生成测试案例的效果评估受到了限制。为了应对这一评估挑战以及缺乏用于评估的数据集,我们提出了一种基于控制流结构和变量使用组成生成基准(GBCV)的方法,该方法系统地生成用于评估LLMs测试生成能力的程序。通过利用基本的控制流结构和变量使用,GBCV提供了一种灵活的框架,可以创建从简单到复杂的程序谱系。由于GPT-4o和GPT-3-Turbo是公开可访问的模型,为了展示真实世界普通用户的使用案例,我们使用GBCV评估它们的性能。我们的研究发现,GPT-4o在复杂程序结构上表现更好,而所有模型在简单条件下都能有效检测边界值,但在算术计算方面面临挑战。这项研究突出了LLMs在测试生成方面的优势和局限性,提供了基准框架,并提出了未来改进的方向。
arXiv:2502.02863v1 Announce Type: cross
摘要:海洋生态系统面临着气候变化和塑料污染的前所未有的威胁,而传统的环境教育往往难以将意识转化为持续的行为改变。本文介绍了OceanChat,这是一个利用大规模语言模型创建交互式系统的方法,通过化身化为动画海洋生物的对话AI代理——具体来说是白鲸、水母和海马——来促进环境行为(PEB)并培养意识,通过个性化的对话来进行。通过一项被试间实验(N=900),我们比较了三种条件:(1)静态科学信息,通过文字和图像提供传统的环境教育;(2)静态角色叙事,以3D渲染的海洋生物第一人称讲故事;和(3)对话角色叙事,使用户能够与AI驱动的海洋角色进行实时对话。我们的分析显示,在对话角色叙事条件下,行为意图和可持续选择偏好显著高于静态方法。白鲸角色在多个指标上表现出一致的情感参与度,包括拟人性感知和同理心。然而,对更深的指标如气候政策支持和心理距离的影响有限,突显了转变根深蒂固的信念的复杂性。我们的工作扩展了关于促进PEB的可持续性界面的研究,并提供了创建情感共鸣和情境感知的AI角色的设计原则。通过平衡拟人性与物种的真实性,OceanChat展示了互动叙事如何弥合环境知识与实际行为变化之间的差距。
arXiv:2502.02862v1 Announce Type: cross
摘要:准确自动分割胫骨平台骨折(TPF)的计算机断层扫描(CT)需要大量标注数据来训练深度学习模型,但获取此类标注数据存在独特挑战。这一过程要求专家知识来识别多样的骨折模式、评估严重程度,并考虑个体解剖变异,使得注释过程耗时且昂贵。尽管半监督学习方法可以利用未标注数据,但现有方法往往难以应对骨折形态的复杂性和多变性,以及跨数据集的有限泛化能力。为解决这些问题,我们提出了一种基于掩码自编码器(MAE)的有效训练策略,以实现CT中TPF的准确分割。我们的方法利用MAE预训练从未标注数据中捕捉全局骨骼结构和细粒度的骨折细节,然后使用少量标注数据进行微调。这种方法减少了对大量标注数据的依赖,同时增强了模型学习可泛化和可迁移特征的能力。我们提出的这种方法在包含180张带有TPF的CT扫描的自建数据集上进行了评估。实验结果表明,我们的方法在仅用20例标注病例的情况下,始终优于半监督方法,平均Dice相似性系数(DSC)为95.81%,平均对称表面距离(ASSD)为1.91毫米,Hausdorff距离(95HD)为9.42毫米。此外,当应用于另一个包含髋部骨折的公开骨盆CT数据集时,我们的方法表现出较强的迁移性,这突显了其在骨折分割任务中更广泛应用的潜力。
arXiv:2502.02844v1 宣告类型: 交叉
摘要: 传统的多智能体强化学习(MARL)中的鲁棒方法在合作场景中往往难以应对协调的恶意攻击。为解决这一局限,我们提出了 Wolfpack 恶意攻击框架,该框架受到狼捕猎策略的启发,旨在破坏初始智能体及其辅助智能体的合作。此外,我们还引入了 Wolfpack-Adversarial Learning for MARL(WALL)框架,通过促进系统范围内的协作来训练鲁棒的 MARL 策略,以防御提出的 Wolfpack 攻击。实验结果强调了 Wolfpack 攻击的毁灭性影响以及 WALL 所取得的重大鲁棒性改进。
arXiv:2502.02834v1 交叉类型:综合
摘要:元强化学习的目标是开发能够在来自任务分布的未见过的任务中泛化的策略。尽管基于上下文的元强化学习方法通过任务潜在变量改进了任务表示,但在处理分布外(OOD)任务时它们往往遇到困难。为了解决这个问题,我们提出了任务感知虚拟训练(TAVT),这是一种新颖的算法,利用基于度量的学习方法准确捕捉任务特征,不仅适用于训练场景,也适用于OOD场景。我们的方法成功地在虚拟任务中保留了任务特征,并采用了一种状态正则化技术来减轻状态变化环境中状态估计误差的过高估计。数值结果显示,TAVT在各种MuJoCo和MetaWorld环境中显著提高了对OOD任务的泛化能力。
arXiv:2502.02810v1 宣告类型:交叉学科
摘要:近年来,大型语言模型(LLMs)的进步激发了开发适用于分子任务的通用LLMs的研究。尽管已有研究证明了微调后的LLMs可以在基准测试中取得令人印象深刻的性能,但由于缺乏对分子结构的基本理解,这些模型还远不是真正的通用分子LLMs。具体而言,当给定分子任务指令时,使用简单的下一个标记预测训练的LLMs会对原始分子和负向破坏的分子赋予相似的概率分数,暴露了它们缺乏对准确且通用分子LLMs至关重要的分子结构理解。为了克服这一局限性并获得真正的通用分子LLMs,我们提出了一种基于全面的多模态指令调优以及选定和拒绝图的分子结构偏好优化的新型多模态训练方法。在各种分子基准测试中,所提出的通用分子LLM(称为Mol-LLM)在大多数任务上实现了通用LLM中的最先进技术性能,同时超越或可与最先进的专业LLMs媲美。此外,Mol-LLM还在反应预测任务上展示了卓越的泛化性能,表明了分子结构理解在泛化视角中的效果。
arXiv:2502.02797v1 分类:交叉学科
摘要:在下游任务上微调预训练模型常常会削弱其原始能力,这一现象被称为“灾难性遗忘”。特别是在没有访问预训练模型开发所用数据和食谱的情况下,这一问题尤为突出。在这一约束条件下,大多数现有的防止遗忘的方法都不适用。为了解决这一挑战,我们提出了一种基于预训练模型损失的微调数据的样本加权方案。具体来说,我们强调预训练模型损失较低的简单样本的重要性,反之亦然,以限制模型向预训练状态的偏离。我们的方法与现有的方法既不冲突又互补;尽管这些方法主要在参数或梯度空间中操作,我们则集中在样本空间。我们在线性设置下理论分析了使用我们方法进行微调的影响,表明它在某个子空间内停滞学习,从而抑制对目标任务的过度拟合。我们实证地展示了我们在语言和视觉任务中的方法的有效性。例如,在对MetaMathQA进行Gemma 2 2B的微调时,我们的方法在GSM8K(另一个数学数据集)上的准确率仅比标准微调低0.8%,同时在预训练数据集上的准确率提高了5.4%。我们的代码已在https://github.com/sanyalsunny111/FLOW_finetuning 公开可供使用。
arXiv:2502.02789v1 类别:交叉
摘要:提高首个标记生成时间(TTFT)是现代大型语言模型(LLM)推理引擎中一个基础且重要的目标。由于直接优化TTFT会导致更高的最大QPS,并满足许多关键应用程序的要求。然而,提升TTFT是一个众所周知的挑战,因为它完全是计算量限制的,并且性能瓶颈从自我注意转移到了MLP部分。我们提出了一种名为SpecPrefill的无需训练的框架,该框架基于以下见解加速了查询的推理TTFT,无论是长上下文还是中等长度的查询:LLM在仅提供精心选择的提示标记子集的情况下,仍然能够保持质量。SpecPrefill的核心在于使用一个轻量级模型,根据上下文推测出重要性的局部标记。这些标记连同必要的位置信息,随后被传递给主模型进行处理。我们使用一系列多样化的任务对该框架进行了评估,并在一个实际的端到端设置和详细的基准测试中进行了性能改进的基准测试。SpecPrefill能够将Llama-3.1-405B-Instruct-FP8在实际下游任务中的最大端到端QPS提升多达7倍,并在基准测试中实现TTFT改善7.66倍。
arXiv:2502.02788v1 标题类型:交叉
摘要:可微搜索索引(DSI)是一种最近的信息检索范式,它使用基于Transformer的神经网络架构作为文档索引,以简化检索过程。可微索引有许多优势,可以方便地对索引进行修改、更新或扩展。在本文中,我们探索了利用Maximal Marginal Relevance(最大边际相关性,MMR)启发式方法训练DSI系统时,在训练DSI系统中平衡相关性和新颖信息量(多样性)的方法,并展示了我们方法相对于朴素的DSI训练方法的好处。我们使用我们的方法在NQ320K和MSMARCO数据集上的相关性和多样性衡量方面进行了定量和定性的评估,与朴素的DSI训练方法进行了比较。通过我们的方法,可以在不显著影响相关性的前提下实现多样性。由于我们在训练DSI时引入了多样性,因此训练模型已学会在保持相关性的同时进行多样化检索。这消除了通常使用MMR在召回集中引入多样性的后处理步骤的需要。我们的方法对于相关性和多样性都很重要的信息检索问题(如子主题检索)非常有用。我们的工作还可以轻松扩展到增量DSI设置,这将使在检索多样化召回集的同时对索引进行快速更新成为可能。