arXiv:2503.22674v1 任务类型: 新
摘要: 近年来,大量工作集中于提高大规模语言模型(LLMs)在数学和逻辑等推理基准任务上的表现。然而,过去的工作很大程度上假定任务是明确定义的。在现实世界中,对LLMs的查询通常并不明确,仅通过获取缺失信息才能解决。我们将这一问题形式化为包含缺失变量赋值的约束满足问题(CSP)。在这一形式化问题的一个特殊情况下,即仅缺少一个必要变量赋值的情况下,我们可以严格评估LLM识别最低必要询问的能力,并量化每个问题的难度轴。我们提出了QuestBench,这是一个可通过最多提出一个询问来解决的未充分说明的推理任务集,其中包括:(1)Logic-Q:缺失一个命题的逻辑推理任务,(2)Planning-Q:初始状态部分观察的PDDL规划问题,(3)GSM-Q:由人类标注的初中数学问题,缺失一个变量赋值,(4)GSME-Q:GSM-Q的版本,其中文字问题由人类标注者翻译成等式。LLM的任务是从列表选项中选择正确的澄清问题。虽然最新模型在GSM-Q和GSME-Q上表现出色,但在Logic-Q和Planning-Q上的准确率仅有40-50%。分析表明,能够解决明确定义的推理问题可能不足以在我们的基准测试中取得成功:即使他们能够解决完全定义的问题版本,模型也难以确定要提问的正确问题。此外,在Planning-Q领域,LLMs倾向于不进行含糊回答,即使明确提供了预测“不确定”的选项也是如此。这凸显了需要更深入地研究模型获取信息的能力。
arXiv:2503.22673v1 动作模型类型:新
摘要:动作模型是使自主代理能够执行复杂任务的关键。然而,由于代理环境的多样性以及代理数据的复杂性,训练大型动作模型仍然具有挑战性。尽管现有基础设施对可扩展的、特定代理的微调支持有限,但我们提出了一种名为ActionStudio的轻量级和可扩展的数据和训练框架,专门用于动作模型。ActionStudio通过标准化格式统一了异构代理轨迹,支持包括LoRA、完全微调和分布式设置在内的多种训练模式,并集成了强大的预处理和验证工具。我们通过跨公开和现实行业的基准测试验证了其有效性,展现出强大的性能和实际的可扩展性。我们已在https://github.com/SalesforceAIResearch/xLAM开放了代码和数据,以促进社区内的研究。
arXiv:2503.22655v1 通告类型: 新
摘要: 训练视觉-语言模型(VLMs)通常需要大量高质量的图像-文本对,但收集或合成这样的数据代价高昂。相比之下,文本数据丰富且成本低廉,促使人们提出一个问题:高质量的多模态训练数据是否可以纯粹从文本中合成?为了解决这一问题,我们提出了一种跨集成的三阶段多模态数据合成框架,该框架生成两个数据集:Unicorn-1.2M 和 Unicorn-471K-Instruction。在第一阶段:多样化的描述数据合成,我们通过使用大语言模型(LLMs)扩展稀疏的描述种子来构建1.2M语义上多样的高质量描述。在第二阶段:指令调优数据生成,我们将471K描述进一步处理成多轮指令调优任务,以支持复杂的推理。最后,在第三阶段:模态表示转移,这些文本描述的表示被转换为视觉表示,从而产生多样化的合成图像表示。这一三阶段过程使我们能够在不依赖真实图像的情况下构建Unicorn-1.2M用于预训练和Unicorn-471K-Instruction用于指令调优。通过消除对真实图像的依赖性,同时保持数据质量和多样性,我们的框架为VLMs的训练提供了成本效益高且可扩展的解决方案。代码可在https://github.com/Yu-xm/Unicorn.git 获取。
arXiv:2503.22342v1 宣布类型: 新颖
摘要: 本文介绍了一种用于加速基于组相对策略优化(GRPO)推理模型训练的完成修剪策略优化(CPPO)。尽管GRPO非常有效,但由于需要为每个问题采样多个完成,因而导致训练成本高昂。我们的实验和理论分析揭示了完成的数量影响模型的准确性,但同时增加了训练时间的乘法倍数,并非所有完成都对策略训练贡献相当——它们的贡献取决于它们的相对优势。为了解决这些问题,我们提出了CPPO,它修剪掉绝对优势较低的完成,显著减少了用于梯度计算和更新所需的完成数量。此外,我们引入了一种动态完成分配策略,通过结合额外的问题来最大化GPU利用率,进一步提高训练效率。实验结果表明,与原始GRPO相比,CPPO在GSM8K上的加速高达8.32倍,在Math上的加速高达3.51倍,同时保持或甚至提高了准确性。我们已在https://github.com/lzhxmu/CPPO发布了我们的代码。
arXiv:2503.22241v1 宣告类型: 新
摘要: 个性化多重聚类旨在根据不同的用户特定方面生成多样化的数据集分割,而不是单一的聚类。它最近因其能够适应不同用户偏好而引起了研究兴趣。最近的方法主要使用 CLIP 嵌入和代理学习来提取偏向用户聚类偏好的表示。然而,CLIP 主要集中在粗略的图像-文本对齐上,缺乏对用户兴趣的深入上下文理解。为了解决这些局限性,我们提出了一种以代理为中心的个性化聚类框架,利用多模态大型语言模型(MLLMs)作为代理,全面遍历关系图以根据用户兴趣搜索簇。由于 MLLMs 先进的推理机制,获得的簇与用户定义的标准更加一致,超过基于 CLIP 的表示。为了减少计算开销,我们通过使用 MLLMs 提取的偏向用户兴趣的嵌入构建关系图,缩短了代理的遍历路径。基于嵌入相似性可以过滤掉大量弱连接的边,从而促进代理的高效遍历搜索。实验结果表明,所提出的方法在 Card Order 和 Card Suits 基准上的 NMI 得分分别为 0.9667 和 0.9481,显著提高了最先进的模型超过 140%。
arXiv:2503.22137v1 宣布类型: 新
摘要: 人类反馈强化学习(RLHF)已成为大型语言模型(LLMs)训练和对齐管道的基石。最近的进步,如直接偏好优化(DPO),简化了偏好学习的步骤。然而,收集偏好数据仍然是一个具有挑战性和昂贵的过程,通常需要专家注释。通过谨慎选择用于注释的数据点,这部分成本可以得到缓解。在此工作中,我们提出了一种积极学习方法,通过基于夏普比率的风险评估策略高效选择提示和偏好配对。为了解决注释前未知偏好这一挑战,我们的方法评估了所有潜在偏好注释的梯度,以评估它们对模型更新的影响。基于梯度的评估使得即使在注释结果未知的情况下也能进行数据点的风险评估。通过利用DPO损失的推导,我们为每个配对推导出一个闭合形式的表达式来计算这些夏普比率,确保我们的方法在可实践性和计算效率方面都具有优势。我们还介绍了我们方法的两种变体,每种变体对先验信息做了不同的假设。实验结果表明,在有限的人类偏好数据下,我们的方法在多个语言模型和真实世界数据集上,在赢得比率方面相比于所选完成度超过了基线高达5%。
arXiv:2503.22064v1 宣传类型: 新
摘要: 人工智能(AI)承诺将重塑下一代通信系统的架构、优化和管理。在本文中,我们通过利用大型人工智能模型(LAMs)的多模态数据处理和生成能力,探讨将大型人工智能模型集成到语义通信(SemCom)中的可能性。尽管LAMs为提取原始数据的语义带来了前所未有的能力,但这种集成伴随着多方面的挑战,包括高资源需求、模型复杂性以及跨不同模态和任务的适应性需求。为克服这些挑战,我们提出了一种基于LAM的多任务语义通信(MTSC)架构,该架构包含一种自适应模型压缩策略和一种联邦分割 fine-tuning 方法,以促进在资源受限网络中基于LAM的语义模型的有效部署。此外,实现了一种检索增强的生成方案,以综合最新的本地和全局知识库,从而提高语义提取和内容生成的准确性,从而改善推理性能。最后,仿真结果证明了所提出的基于LAM的MTSC架构的有效性,在不同信道条件下,展示了各种下游任务的性能提升。
arXiv:2503.21902v1 宣布类型: 新
摘要: 本体对齐(OA)是实现跨异构知识系统的语义互操作性的基础。我们介绍了一种全面、模块化且稳健的 Python 工具包 OntoAligner,旨在解决现有工具面临的实践限制。现有工具在可扩展性、模块化以及与最近的人工智能进步集成方面存在局限性。OntoAligner 提供了一种灵活的架构,整合了现有的轻量级 OA 技术,如模糊匹配,但更进一步地支持带有检索增强生成和大规模语言模型的当代方法进行 OA。该框架优先考虑可扩展性,使研究人员能够集成自定义对齐算法和数据集。本文详细介绍了 OntoAligner 的设计原则、架构和实现,并通过标准 OA 任务基准测试展示了其实用性。我们的评估突显了 OntoAligner 能够以少量代码高效处理大规模本体,同时提供高质量的对齐。通过开源 OntoAligner,我们旨在为 OA 社区提供一个资源,促进创新和合作,使研究人员和从业人员能够利用该工具包进行可重复的 OA 研究和实际应用。
arXiv:2503.21878v1 宣告类型: 新
摘要: 推理时计算为扩展语言模型的性能提供了一个重要的维度,但通过如Best-of-$N$采样等技术简单地扩展计算可能会因为奖励作弊而导致性能下降。为了从理论上理解如何最好地利用额外的计算,我们专注于推理时对齐,将其形式化为改进预训练策略对特定提示响应的问题,前提可以访问一个不完美的奖励模型。我们从响应质量和计算量两个方面分析推理时对齐算法的性能,并提供了新的结果,突出了预训练策略对高质量响应的覆盖对于性能和计算扩展的重要性:
1. 我们展示了,对于严格的覆盖概念,具有理想选择的Best-of-$N$对齐可以实现最佳性能,但在$N$较大时,它可证明会遭受奖励作弊的困扰,并在更现实的覆盖条件下无法实现严格的保证。
2. 我们引入了$\texttt{InferenceTimePessimism}$,一种新的算法,通过故意利用推理时的计算来减轻奖励作弊,通过拒绝采样利用不确定性中的悲观原则;我们证明了它的性能是最佳的,并且不会随着$N$的增加而下降,这意味着它是计算扩展单调的。
我们通过实验评估补充了我们的理论结果,展示了$\texttt{InferenceTimePessimism}$在各种任务和模型上的益处。
arXiv:2503.20752v2 通告类型: replace-cross
摘要:视觉推理能力在理解复杂多模态数据方面发挥着关键作用,推动了特定领域应用和通用人工智能(AGI)的发展。现有方法通过链式思维(CoT)监督微调来提高VLM(视觉-语言模型)的推理能力,使用详细标注的训练数据来增强视觉推理能力。然而,这种训练方式可能导致过拟合和认知僵化,限制了模型跨领域的视觉推理技能的迁移,限制了其在现实世界中的应用。为了解决这些局限性,我们提出了Reason-RFT,这是一种新颖的强化微调框架,显著增强了视觉推理任务的一般化能力。Reason-RFT 引入了一种两阶段的视觉推理训练框架:(1)使用精心挑选的链式思维(CoT)数据的监督微调(SFT)激活视觉-语言模型(VLMs)的推理潜力,随后是(2)基于组相对策略优化(GRPO)的强化学习,生成多个推理-响应对,显著提高了视觉推理任务的一般化能力。为了评估Reason-RFT的视觉推理能力,我们构建了一个全面的数据集,涵盖了视觉计数、结构感知和空间变换等多个方面。实验结果展示了Reason-RFT的三个主要优势:(1)性能提升:在多个任务中取得了最先进的结果,优于大多数主流开源和专有模型;(2)一般化优越性:在各种任务和领域中保持了稳健的性能,优于其他训练范式;(3)数据效率:在少量样本学习场景中表现出色,超越了使用完整数据集的监督微调 baselines。项目网站:https://tanhuajie.github.io/ReasonRFT