arXiv:2502.10363v1 宣告类型: cross
摘要: 在稀疏立足点下穿越危险地形对类人机器人提出了重大挑战,要求精确的足部放置和稳定的移动。现有的专为四足机器人设计的方法由于足部几何形状和不稳定的形态差异,往往无法泛化到类人机器人上,而基于学习的方法在复杂地形上的类人移动仍然面临着巨大的挑战,原因在于稀疏的立足点奖励信号和低效的学习过程。为了应对这些挑战,我们引入了BeamDojo,这是一种专为在稀疏立足点上实现灵活动态移动而设计的强化学习 (RL) 框架。BeamDojo 首先引入了一种针对多边形足部定制的基于采样的立足点奖励,以及一个双批评家来平衡在密集移动奖励和平面稀疏立足点奖励之间的学习过程。为了促进充分的试错探索,BeamDojo 结合了一种两阶段的 RL 方法:第一阶段通过在平坦地形上训练类人机器人并为其提供任务地形感知观察,从而使地形动力学得以松弛;第二阶段在实际任务地形上进一步微调策略。此外,我们实现了基于机载 LiDAR 的高程图,以实现现实世界的部署。广泛的模拟实验和现实世界的实验表明,BeamDojo 在模拟中实现了高效的学习,并且能够在现实世界中实现精确踏步的灵活动态移动,即使在显著的外部扰动下也能保持高成功率。
arXiv:2502.10339v1 类型:交叉
摘要:模型合并是一种从多个预训练模型获得一个多任务模型的有效方法,而不需要进一步微调,并且在包括自然语言处理(NLP)在内的各种领域引起了关注。尽管模型合并具有高效性,但随着模型数量的增加,任务性能似乎不可避免地会下降。在本文中,我们提出了一种名为$\mathbf{S}$pectral $\mathbf{T}$runcation $\mathbf{A}$nd $\mathbf{R}$escale (STAR)的方法,旨在通过在各自的谱空间中截断小型组件来缓解“合并冲突”,随后采用一种自动参数缩放方案以保留原始矩阵的核范数。STAR不需要在原始训练数据上进行额外推断,并且对超参数选择具有鲁棒性。我们通过在多种NLP任务中进行广泛的模型合并案例,展示了STAR的有效性。具体而言,STAR在合并12个模型时,在Flan-T5上可以比基线高出4.2%。我们的代码可在https://github.com/IBM/STAR公开获取。
arXiv:2502.10338v1 交叉类型:公告
摘要:大型语言模型(LLMs)在自然语言任务中表现出色,但在要求复杂多步推理的问题回答(QA)任务中仍面临挑战。我们概述了这些任务中所需的推理类型,并将它们重新构想为元级推理(类似于高层次的战略性推理或规划)和对象级推理(体现在较低层次的任务中,如数学推理)。介绍了一个新的数据集Franklin,该数据集包含了元级和对象级推理的要求,并与另外三个数据集一起用于评估四个人工智能模型在需要多步推理的问题回答任务中的表现。人类注释研究结果表明,LLMs在元级推理方面表现频繁,但在某些数据集中遇到的对象级推理任务中表现不佳。此外,证据表明,LLMs认为Franklin数据集中问题所需的对象级推理具有挑战性,但它们在元级推理要求方面表现强劲。
arXiv:2502.10325v1 类型: cross
摘要: 我们引入了Agent Process Reward Models(AgentPRM),这是一种简单的可扩展框架,用于通过交互不断训练LLM代理以提高性能。AgentPRM遵循一个轻量级的演员-评论家范式,通过蒙特卡洛展开计算奖励目标并优化策略。它对现有的RLHF管道所需的修改极少,使其易于大规模集成。除了AgentPRM之外,我们还提出了InversePRM,它可以从演示中直接学习过程奖励,而无需显式的结果监督。我们还探讨了探索、过程奖励塑形和模型预测推理等关键挑战和机会。我们在ALFWorld基准上进行了评估,显示使用AgentPRM和InversePRM训练的小型3B模型超越了强大的GPT-4o基线,并分析了测试时缩放、奖励作弊等问题。我们的代码可在以下地址获得:https://github.com/sanjibanc/agent_prm。
arXiv:2502.10311v1 通告类型: cross
摘要: 大多数常用的非线性机器学习方法都是黑盒模型,对人类不可解释。可解释人工智能(XAI)领域的目标是开发工具来检查这些黑盒的内部机制。XAI中常用的一种模型无关的方法是使用简单的模型作为局部近似,以生成所谓的局部解释;这种方法的示例包括 LIME、SHAP 和 SLISEMAP。本文展示了如何将大量局部解释缩减为一个小的“代理集”,该代理集可以作为生成性的全局解释发挥作用。这种缩减过程可以形式化为一个优化问题,并且可以通过贪婪启发式方法高效地近似。
arXiv:2502.10284v1 声明类型: cross
摘要: 大规模推荐系统通常采用检索、预排序、排序和再排序的级联架构。由于存在严格的时间延迟要求,预排序利用轻量级模型对大量检索候选项进行初步筛选。然而,近期的工作仅专注于提高与排序的一致性,完全依赖下游阶段。由于下游输入来源于预排序输出,这将加剧样本选择偏差(SSB)问题和Matthew效应,导致次优化的结果。为了解决这一局限性,我们提出了一个名为Hybrid Cross-Stage Coordination Pre-ranking模型(HCCP)的新颖模型,以整合来自上游(检索)和下游(排序、再排序)阶段的信息。具体而言,跨阶段协调指的是预排序在整个流中的适应性和作为连接上游和下游更有效的桥梁的作用。HCCP包括杂合样本构建和杂合目标优化。杂合样本构建从整个流中捕获多级未暴露的数据,并重新排列以成为预排序学习的最佳引导“ground truth”。杂合目标优化通过我们提出的Margin InfoNCE损失实现了置信度和长尾精度的联合优化。它特别设计用于从这样的杂合未暴露样本中学习,提高整体性能并减轻SSB问题。附录描述了所提损失在选择潜在正样本方面的有效性证明。广泛的离线和在线实验表明,HCCP通过提高跨阶段协调优于现有的领先方法。在JD电子商务推荐系统中,它贡献了14.9%的UCVR和1.3%的UCTR。关于代码隐私,我们提供了参考用的伪代码。
arXiv:2502.10273v1 交叉公告类型:cross
摘要:知觉恒常性是指在感官输入发生变化(如距离、角度或照明的变化)时,仍能保持对象稳定感知的能力。这一能力对于在动态世界中识别视觉信息至关重要,因此对视觉-语言模型(VLMs)来说是必不可少的。然而,当前和理论上VLMs是否已经具备掌握这种能力仍然没有得到充分探索。在这项研究中,我们使用了涵盖三个领域的253次实验来评估33种VLMs:颜色、大小和形状恒常性。实验包括经典的认知任务的一图和视频改编,以及在野外条件下的一些新任务,目的是评估模型在不同条件下的物体属性识别能力。我们发现VLMs的表现存在显著差异,形状恒常性的模型表现与颜色和大小恒常性的模型表现明显不同。
arXiv:2502.10266v1 宣告类型:交叉学科
摘要:从人类参与者获取数据是经验语言学研究中核心的数据收集策略之一。这类研究中的参与者数量可能差别很大,从几个到大规模 crowdsourcing 数据量不等。尽管这两种方法都能提供大量资源丰富的数据,但它们仍然伴随着许多缺点,如任务完成时参与者注意力控制低、众包环境中工作条件差、以及耗时的实验设计。鉴于此,本研究旨在探讨大型语言模型(LLMs)是否可以在经验语言学管道中克服这些障碍。我们进行了两个再现案例研究以对此问题进行澄清:Cruz (2023) 和 Lombard et al. (2021)。原始为人类参与者设计的两个强制性语言获取任务在提出的框架中通过使用 OpenAI 的 GPT-4o-mini 模型进行了再现。其在零-shot 提示基线上的表现显示了 LLMs 的有效性及其高度的适用性,这些模型倾向于在语言任务中超越人类报告员。第二轮再现研究的发现进一步强调了探索更多提示技术的需求,如思维过程链(CoT)提示。在随后的跟进实验中,CoT 提示显示出更高的与人类表现一致的性能,包括关键项目和填充项目。鉴于本研究规模有限,有必要进一步探索 LLMs 在经验语言学及其他人文学科未来应用中的性能。
arXiv:2502.10263v1 交叉公开类型:交叉
摘要:追踪研究论文中数据的提及和使用情况,对于提高数据的可发现性、质量和生产至关重要。然而,手动识别和分类大量学术文献中的数据集提及是一项资源密集型且不可扩展的任务。本文提出了一种基于机器学习的框架,通过利用大型语言模型(LLMs)、合成数据和两阶段微调过程,自动化地在不同研究领域中检测数据集提及。我们采用零样本从研究论文中提取数据集提及,采用LLM作为裁判进行质量评估,并使用一个推理代理进行细化处理,生成一个弱监督合成数据集。Phi-3.5-mini指令模型预微调于此数据集,随后在手动注释子集上进行微调。在推理阶段,基于ModernBERT的分类器高效地过滤数据集提及,减少了计算开销同时保持高召回率。在保留的手动注释样本上进行评估,我们微调的模型在数据集提取准确性上优于NuExtract-v1.5和GLiNER-large-v2.1。我们的结果表明,LLM生成的合成数据可以有效解决训练数据稀缺问题,提高低资源环境下的泛化能力。该框架提供了一种可扩展的数据集使用监测途径,增强透明度,并支持研究人员、资助者和决策者识别数据缺口,以促进基于有效决策的数据可访问性。
arXiv:2502.10239v1 Announce Type: cross
摘要:联邦微调提供了一种有前途的方法,在边缘设备上调整大型语言模型(LLMs)同时保持数据隐私。然而,由于对内存、通信和计算需求的高要求,在边缘设备上微调这些模型仍然具有挑战性。零阶优化结合任务对齐提供了一种潜在的解决方案,使得在推理级别的内存要求下进行微调,但需要更长的收敛时间。在本文中,我们提出了联邦分割扰动零阶优化(FedSPZO),该方法将网络分成两块,在计算上有效的方式对每块应用不同数量的扰动,从而实现了更快的收敛。我们的评估结果显示,与联邦学习中的零阶优化最新技术相比,计算开销减少了2.5到7倍。