arXiv 论文列表

作者: Annie Feng, Nishanth Kumar, Tomas Lozano-Perez, Leslie Pack-Kaelbling

arXiv:2502.06146v2 宣布类型: 替换交叉摘要：在具有复杂且长期任务的大规模环境中学习关系模型时，高效的探索至关重要。随机探索方法常常收集冗余或无关的数据，限制了它们学习环境准确关系模型的能力。目标字面级咿呀学语（GLIB）通过设置和规划新的目标来改进随机探索，但它依赖于随机动作和随机新目标的选择，限制了其在更大领域的扩展性。在本文中，我们确定了关系域中高效探索的基本原则：(1) 通过涵盖规划所需的区别提升效应的演示来进行操作器初始化；(2) 通过选择有信息性的目标-动作对并执行其计划来收集最有信息性的过渡来细化先决条件。为了证明这些原则，我们引入了Baking-Large，这是一个具有广泛状态-动作空间和长期任务的具有挑战性的领域。我们使用由先验知识驱动的演示来进行操作器初始化，并使用先决条件目标导向的指导来高效地收集关键的过渡。实验结果表明，先验知识演示和先决条件目标导向的先验指导显著提高了样本效率和泛化能力，为未来的方法提供了使用这些原则在复杂环境中高效学习精确关系模型的道路。

发布时间: 5/13/2025

查看原文

HAMSTER：开放世界机器人操作的分层动作模型

作者: Yi Li, Yuquan Deng, Jesse Zhang, Joel Jang, Marius Memmel, Raymond Yu, Caelan Reed Garrett, Fabio Ramos, Dieter Fox, Anqi Li, Abhishek Gupta, Ankit Goyal

arXiv:2502.05485v4 通告类型: replace-cross 摘要：大型基础模型在视觉和语言方面对复杂问题展现了强大的开放世界泛化能力，但在机器人领域尚未达到类似的泛化水平。一个基本挑战在于缺乏机器人数据，这些数据通常通过昂贵的机器人操作获得。一种有前景的解决方案是利用更便宜的、跨域的数据，比如无动作视频、手工绘制的草图或仿真数据。在本文中，我们认为分层的视觉-语言-动作（VLA）模型比直接微调视觉-语言模型（VLMs）以预测动作的标准单模块VLA模型更能有效地利用跨域数据。特别是，我们研究了一类分层的VLA模型，其中高层的VLM被微调以生成一个粗略的2D路径，指示给定RGB图像和任务描述所需的机器人末端执行器轨迹。中间的2D路径预测则作为指导传递给低层的、对3D信息敏感的控制策略，该策略能够进行精确操作。这样可以减轻高层VLM对精细动作预测的负担，同时减少低层策略在复杂任务层面推理方面的负担。我们展示了通过分层设计，高层VLM能够在显著的跨域差距之间进行转移，包括 embodiment、dynamics、视觉外观和任务语义等方面的差异。在真实机器人实验中，我们观察到与OpenVLA相比，在七个不同泛化轴上的成功率平均提高了20%，相当于相对提高了50%。提供了视觉结果、代码和数据集：https://hamster-robot.github.io/

发布时间: 5/13/2025

查看原文

模拟人类学员：计算模型指导教学设计

作者: Christopher J. MacLellan

arXiv:2502.02456v4 宣布类型: replace-cross 摘要：教学设计人员面临着令人难以置信的设计选择，使得识别最有效的干预措施变得极具挑战性。为解决这一问题，我提出了模型人类学习者的概念，这是一种统一的学习计算模型，可以协助设计人员评估候选干预措施。本文首次成功展示了这一概念，证明了计算模型能够准确预测两个人类A/B实验的结果——一个测试了问题序列干预措施，另一个测试了项目设计干预措施。此外，该模型还证明了它可以在不依赖于人类数据的情况下生成学习曲线，并提供了有关为什么某种教学干预措施有效的理论洞察。这些发现为基础的教学设计中整合认知与学习理论的未来模型人类学习者奠定了基础，以支持多样化的任务和干预措施。

发布时间: 5/13/2025

查看原文

GP-GS: 高斯过程增强的高斯绘制

作者: Zhihao Guo, Jingxuan Su, Shenglin Wang, Jinlong Fan, Jing Zhang, Wei Zhou, Hadi Amirpour, Yunlong Zhao, Liangxiu Han, Peng Wang

arXiv:2502.02283v4 Announce Type: replace-cross 摘要：3D 高斯点积方法已成为一种高效的拟真实新型视图合成方法。然而，其依赖稀疏结构从运动（Structure-from-Motion，SfM）点云常常限制了场景重建的质量。为了解决这一限制，本文提出了一种新颖的3D重建框架——高斯过程增强高斯点积（GP-GS），其中开发了一种多输出高斯过程模型，以实现稀疏SfM点云的自适应和不确定性引导下的密集化。具体地，我们提出了一种动态采样和过滤流水线，通过利用基于高斯过程的预测来从输入的2D像素和深度图中推断新的候选点，以自适应扩展SfM点云。流水线利用不确定性估计来指导高方差预测的剪枝，确保几何一致性，并使生成密集点云成为可能。这些密集化的点云提供了高质量的初始3D高斯分布，从而增强重建性能。在不同尺度的合成和真实世界数据集上进行的广泛实验验证了所提出框架的有效性和实用性。

发布时间: 5/13/2025

查看原文

视觉理论思维使原始文字的创造成为可能

作者: Benjamin A. Spiegel, Lucas Gelfond, George Konidaris

arXiv:2502.01568v5 公告类型: replace-cross 摘要：符号书写系统是现代社会普遍存在的图形语义编码，在动物界中则不存在。人类学证据表明，某些书写系统最初的形态是由象形图构成的，这些图通过视觉相似性来表示它们所指代的事物。尽管以前的研究从计算的角度探讨了象形系统的出现，并分别探讨了它们的演变，但大多数研究方法并不自然，使得难以将这些发现与人类和动物的认知过程进行明确的类比。我们开发了一个名为示范游戏（Signification Game）的多智能体强化学习试验框架，以促进潜在的交流，并提出了一个基于视觉理论心智的理解模型，该模型使智能体能够通过象形图传达动作。我们的模型位于更广泛的动物交流形式主义之内，探讨了从原始文字的出现中体现的认知和文化过程。

发布时间: 5/13/2025

查看原文

基于离线模型的RL中的双重对齐最大最小优化

作者: Chi Zhou, Wang Luo, Haoran Li, Congying Han, Tiande Guo, Zicheng Zhang

arXiv:2502.00850v2 宣告类型: 替换-交叉摘要：由于合成数据与现实数据之间的分布不匹配，脱机强化学习代理面临着重大的部署挑战。尽管大多数先前研究主要集中在提高合成采样的真实性和引入非策略机制上，但直接集成的范式往往无法确保带偏见模型和底层环境动力学中的一致性策略行为，这源自行为策略和学习策略之间固有的差异。在这篇论文中，我们首先将重点从模型可靠性转移到策略差异，同时优化预期回报，然后自洽地引入合成数据，推导出一种新颖的演员-评论家范式，即双对齐最大极小优化（DAMO）。这是一个统一框架，确保模型-环境策略一致性和合成数据与脱机数据的兼容性。内部最小化执行双重保守价值估计，使策略和轨迹对齐，避免出现分布外的状态和动作，而外部最大化确保策略改进与内部价值估计保持一致。实验证明，DAMO 有效地确保了模型和策略对齐，在多种基准任务中取得了竞争力的表现。

发布时间: 5/13/2025

查看原文

学习融合时间临近网络：在黑猩猩社会互动中的案例研究

作者: Yixuan He, Aaron Sandel, David Wipf, Mihai Cucuringu, John Mitani, Gesine Reinert

arXiv:2502.00302v2 宣布类型: replace-cross 摘要: 我们如何识别出能够驱动社会结构的灵长类个体群体？为了解决这一问题，我们中的一位收集了黑猩猩社会互动的时间序列数据。在此基础上，我们使用网络表示法，从而将这些数据整合成一个每个时间戳都有一个加权网络的时间序列，其中不同的亲密程度应赋予不同的权重，以反映它们的相对重要性。我们以一种有原则的方式优化这些亲密程度类型权重，使用一种创新的损失函数，该函数奖励时间上的一致性结构。该方法通过精心设计的合成数据进行实证验证。通过统计检验，我们提供了一种方法来识别保持显著时间长度关系的个体群体。将该方法应用于黑猩猩数据集时，我们发现动物社会网络时间序列中的团块，并且可以通过前期研究和黑猩猩专家的定性观察来验证这些发现。

发布时间: 5/13/2025

查看原文

理解模型校准——一个温和的介绍和校准及其预期校准误差（ECE）的可视化探索

作者: Maja Pavlovic

arXiv:2501.19047v4 宣告类型: replace-cross 摘要：为了被认为是可靠的，一个模型必须进行校准，使其对每个决策的信心紧密反映其真实结果。在这篇博客中，我们将探讨最常用的校准定义，然后深入了解一种常用的模型校准评估指标。随后，我们将讨论这种指标的一些缺点，这些缺点揭示了需要其他校准概念的必要性，而这些概念需要新的评估指标。本文并不旨在对所有关于校准的作品进行深入剖析，也不专注于如何校准模型。相反，本文旨在提供不同类型及其评估指标的温和介绍，并重新强调一种仍然广泛用于评估校准的指标的一些问题。

发布时间: 5/13/2025

查看原文

自我监督学习的聚类特性

作者: Xi Weng, Jianing An, Xudong Ma, Binhang Qi, Jie Luo, Xi Yang, Jin Song Dong, Lei Huang

arXiv:2501.18452v2 通告类型: replace-cross 摘要: 通过联合嵌入架构实现的自我监督学习(SSL)方法已被证明在捕捉丰富语义表示和强聚类特性方面非常有效，即使在没有标签监督的情况下也是如此。尽管如此，其中很少有方法探索利用这些未充分利用的特性来改进自己。在本文中，我们通过多种指标提供了证据，证明编码器的输出 $encoding$ 比其他组件具有更优秀和更稳定的聚类特性。基于这一见解，我们提出了一种新颖的正反馈 SSL 方法，称为表示自我分配 (ReSA)，该方法利用模型的聚类特性以自我引导的方式促进学习。在标准 SSL 基准上的广泛实验表明，使用 ReSA 预训练的模型在其他最先进的 SSL 方法上具有显著的领先优势。最后，我们分析了 ReSA 如何促进更好的聚类特性，证明它有效地在细粒度和粗粒度层面上提升了聚类性能，从而形成更具结构和语义意义的表示。

发布时间: 5/13/2025

查看原文

RadioLLM：通过混合提示和令牌再编程将大型语言模型引入认知无线电

作者: Shuai Chen, Yong Zu, Zhixi Feng, Shuyuan Yang, Mengchang Li

arXiv:2501.17888v2 通知类型: 替换-交叉摘要: 频谱资源日益稀缺和无线设备的迅速普及使得高效的无线网络管理变得至关重要。虽然深度学习增强的认知无线电技术（CRT）为无线电信号分类（RSC）、降噪和频谱分配等任务提供了颇具前景的解决方案，但现有的基于深度学习的CRT框架通常具有任务特定性，且在多种实际应用场景中缺乏可扩展性。这种局限性自然促使人们探索大型语言模型（LLMs），其在跨领域泛化的出色能力为推动CRT的发展带来了新的潜力。为了解决这一差距，我们提出了一种名为RadioLLM的新颖框架，该框架结合了混合提示和令牌重新编程（HPTR）以将无线电信号特征与专家知识相结合，并引入了频率调整融合（FAF）模块以增强高频特征建模。在多个基准数据集上的广泛评估表明，在大多数测试场景中，RadioLLM相较于现有基线实现了更优的性能。

发布时间: 5/13/2025

查看原文