arXiv 论文列表

基于非单调注意力的读写策略学习以实现同步翻译

作者: Zeeshan Ahmed, Frank Seide, Zhe Liu, Rastislav Rabatin, Jachym Kolar, Niko Moritz, Ruiming Xie, Simone Merello, Christian Fuegen

arXiv:2503.22051v1 宣告类型: cross 摘要: 同时或流式机器翻译在读取输入流的同时生成翻译。这些系统面临质量/延迟的权衡，旨在以最小的延迟实现与非流式模型相媲美的高翻译质量。我们提出了一种有效管理这一权衡的方法。通过增强一个预训练的非流式模型，该模型使用seq2seq机制进行训练并代表了质量的上限，我们通过利用源和目标标记之间的对齐将其转换为流式模型。这种对齐被用于学习一个读写决策边界，以便在最少输入的情况下可靠地生成翻译。在训练过程中，模型通过一个读写策略模块学习决策边界，该模块在对齐点（伪标签）上进行监督学习。读写策略模块是一个小型的二元分类单元，在推理过程中可以控制质量/延迟的权衡。实验结果显示，我们的模型优于几个强baseline，并且与非流式基线模型的差距缩小了。

发布时间: 3/31/2025

查看原文

使用吉尔福德结构理论的认知提示方法

作者: Oliver Kramer

arXiv:2503.22036v1 类型: cross 摘要：大规模语言模型（LLMs）展示了强大的语言生成能力，但在结构化推理方面经常遇到困难，导致解决问题时出现不一致或次优的结果。为了缓解这一局限性，本文利用智力理论中基础框架之一——Guilford的智力结构（SOI）模型作为认知提示工程的基础。SOI模型对认知操作如模式识别、记忆检索和评估进行分类，提供了一种系统的方法来增强LLM的推理和决策能力。本文提出了一个基于SOI的新型认知提示方法，以提高模型响应的清晰性、连贯性和适应性。

发布时间: 3/31/2025

查看原文

保障自主权：聚焦机器学习决策系统

作者: Paula Sub\'ias-Beltr\'an, Oriol Pujol, Itziar de Lecuona

arXiv:2503.22023v1 类别:交叉学科摘要：随着全球对人工智能监管的讨论日益升温，本文重点在于界定机器学习对自主性的影响，并促进相关意识的提升。尊重自主性是生物伦理学的基本原则，将个体确立为决策者。虽然机器学习背景下自主性的概念在多个欧洲规范性出版物中出现，但它仍是一个理论概念，还未广泛应用于机器学习实践中。我们的贡献在于通过识别当前阻碍自主性应用的因素，来填补理论与实践之间的差距，鼓励在机器学习实践中将自主性应用于决策过程。因此，我们重点分析机器学习管道的不同阶段，以识别这些阶段对机器学习最终用户自主性的潜在影响。为了提高其实用性，我们为每个检测到的影响提出相关问题，旨在为识别可能的关注点提供指导，以确保在机器学习决策过程中尊重最终用户的自主性。

发布时间: 3/31/2025

查看原文

CoT-VLA：视觉链式思考推理在视觉语言行动模型中的应用

作者: Qingqing Zhao, Yao Lu, Moo Jin Kim, Zipeng Fu, Zhuoyang Zhang, Yecheng Wu, Zhaoshuo Li, Qianli Ma, Song Han, Chelsea Finn, Ankur Handa, Ming-Yu Liu, Donglai Xiang, Gordon Wetzstein, Tsung-Yi Lin

arXiv:2503.22020v1 交叉公告类型：摘要：视觉-语言-行动模型（VLAs）在利用预训练的视觉-语言模型和多样的机器人示范学习通用的传感器-运动控制方面表现出潜力。尽管这个模式有效地利用了来自机器人和非机器人的大规模数据，但当前的VLAs主要关注直接的输入-输出映射，缺乏完成复杂操作任务时至关重要的中间推理步骤。因此，现有的VLAs缺乏时间规划或推理能力。在本文中，我们介绍了一种方法，该方法将显式的视觉链状思考（CoT）推理融入视觉-语言-行动模型（VLAs）中，通过在生成行动序列之前预测未来图像帧作为视觉目标来实现这些目标。我们引入了CoT-VLA，这是一种最先进的7B VLA，能够理解和生成视觉和行动令牌。我们的实验结果表明，CoT-VLA在性能上表现出色，在真实世界的操作任务中优于最先进的VLA模型17%，在模拟基准中优于6%。项目网站：https://cot-vla.github.io/

发布时间: 3/31/2025

查看原文

BOOTPLACE：带有检测变换器的-bootstrap对象放置

作者: Hang Zhou, Xinxin Zuo, Rui Ma, Li Cheng

arXiv:2503.21991v1 Announce Type: cross 摘要：在本文中，我们提出了一种专注于对象放置学习的复制粘贴图像到图像合成问题。先前的方法利用生成模型来减少密集监督的依赖性。然而，这往往限制了它们对复杂数据分布的建模能力。作为替代，已经探索了使用稀疏对比损失的变压器网络，但其过度宽松的正则化经常导致不精确的对象放置。我们引入了BOOTPLACE，这是一种新颖的范式，将对象放置形式化为一个通过检测进行放置的问题。我们的方法首先通过在对象减去背景上训练专门的检测变压器来识别适合的对象放置区域，该背景还增强了多对象监督。然后，基于检测区域的互补特性，基于语义将每个目标合成对象与检测到的区域关联起来。通过应用于随机对象减去图像的自增强训练方法，我们的模型通过对配对数据的广泛增强来强制有意义的放置。在权威基准上的实验结果表明，与Cityscapes和OPA数据集上的最先进的基线相比，BOOTPLACE在对象重定位方面表现更优，IOU分数有显著提高。额外的消融研究进一步展示了我们方法的组合性和泛化能力，并得到了用户研究的评估支持。

发布时间: 3/31/2025

查看原文

预训练贝叶斯非参数知识先验在机器人长时 horizon 强化学习中的应用

作者: Yuan Meng, Xiangtong Yao, Kejia Chen, Yansong Wu, Liding Zhang, Zhenshan Bing, Alois Knoll

arXiv:2503.21975v1 宣告类型: cross 摘要: 通常，强化学习（RL）方法从头开始学习新的任务，往往忽视了可以加速学习过程的先前知识。虽然一些方法整合了之前学习的技能，但他们通常依赖于固定的结构，例如单一的高斯分布，来定义技能先验。这种刚性的假设可能会限制技能的多样性和灵活性，特别是在复杂的、长时间的任务中。在本工作中，我们引入了一种方法，将潜在的基本技能运动建模为具有非参数性质的特征，且这些特征的数量是未知的。我们利用贝叶斯非参数模型，特别是狄利克莱过程混合模型，并通过生和合并启发式算法对其进行增强，以提前训练一个有效的先验技能，该先验技能能够捕获技能的多样性质。此外，学习到的技能在先验空间中是显式可追踪的，这提高了可解释性和控制性。通过将这种灵活的先验技能整合到RL框架中，我们的方法在长时间操作任务中超过了现有的方法，使得在复杂环境中更加高效地转移技能并成功执行任务。我们的研究结果表明，富有多样性的、非参数表示的技能先验显著提高了复杂机器人任务的训练和执行。所有数据、代码和视频均可在 https://ghiara.github.io/HELIOS/ 获取。

发布时间: 3/31/2025

查看原文

基于视觉-语言引导的闭环反馈的无数据机器人长期 manipulation

作者: Yuan Meng, Xiangtong Yao, Haihui Ye, Yirui Zhou, Shengqiang Zhang, Zhenshan Bing, Alois Knoll

arXiv:2503.21969v1 交叉公告类型: cross 摘要: 语言条件下的机器人操作近期取得了进展，利用模仿和强化学习使机器人能够根据人类命令执行任务。然而，这些方法在泛化、适应性和大规模专用数据集方面通常存在局限性，不像计算机视觉等领域那样拥有丰富的数据，这使得长期任务执行具有挑战性。为了解决这些差距，我们介绍了DAHLIA，一种语言条件下的长期机器人操作数据无关框架，利用大型语言模型（LLMs）进行实时任务规划和执行。DAHLIA采用双重隧道架构，其中LLM驱动的规划器与协同规划器协作分解任务并生成可执行计划，而一个报告LLM提供闭环反馈，使适应性重新规划成为可能，并确保在潜在故障时任务的恢复。此外，DAHLIA在任务推理中集成思维链（CoT）和时间抽象，以提高操作执行的效率、可追溯性和鲁棒性。我们的框架在多种长期任务上展示了最先进的性能，在模拟和现实世界场景中均表现出强大的泛化能力。更多信息和代码可在https://ghiara.github.io/DAHLIA/获取。

发布时间: 3/31/2025

查看原文

熵感知分支以提高数学推理

作者: Xianzhi Li, Ethan Callanan, Xiaodan Zhu, Mathieu Sibue, Antony Papadimitriou, Mahmoud Mahfouz, Zhiqiang Ma, Xiaomo Liu

arXiv:2503.21961v1 类别: cross 摘要: 虽然大型语言模型（LLMs）通过广泛的预训练和微调有效实现了对齐，但在标记生成过程中仍然会遇到不同程度的不确定性。在我们对数学推理的调查中，我们观察到，在模型输出分布中表现出高熵和熵变异性的情况下，错误更可能产生。基于这一观察，我们提出了一种新的方法，该方法根据需要动态分支生成过程，而不是默认选择单一最可能的标记。通过并行探索来自关键决策点的高概率标记衍生出的多个分支，模型可以发现其他情况下可能错过的多样推理路径。我们进一步利用更大模型的外部反馈来评估和选择最连贯且准确的推理分支。我们在数学文字问题和计算问题上的实验结果显示，这种分支策略使小型语言模型的推理能力提高了4.6%，相较于传统的argmax解码方法。

发布时间: 3/31/2025

查看原文

文本到图像扩散模型中的参数化阴影控制Portrait Generation

作者: Haoming Cai, Tsung-Wei Huang, Shiv Gehlot, Brandon Y. Feng, Sachin Shah, Guan-Ming Su, Christopher Metzler

arXiv:2503.21943v1 类型: cross 摘要：文本到图像的扩散模型在生成多样化的肖像方面表现出色，但在阴影控制方面缺乏直观性。现有的编辑方法作为后处理手段，在提供跨多种风格的有效操作时存在困难。此外，这些方法要么依赖于昂贵的实地光线工作室数据收集，要么需要大量的计算资源进行训练。为了应对这些限制，我们引入了“Shadow Director”方法，该方法可以在训练良好的扩散模型中提取和操作隐藏的阴影属性。我们的方法使用一个小型的估计网络，只需要几千张合成图像和数小时的训练时间，无需昂贵的实地光线工作室数据。Shadow Director 在肖像生成过程中提供了参数化和直观的阴影形状、位置和强度控制，同时在整个多样风格中保持艺术完整性和个人身份。尽管仅在基于真实身份的合成数据上进行训练，但它能够有效地推广到具有多种风格的生成肖像，使其成为一种更易获取且资源友好的解决方案。

发布时间: 3/31/2025

查看原文

Lobster: 一种基于GPU加速的神经符号编程框架

作者: Paul Biberstein, Ziyang Li, Joseph Devietti, Mayur Naik

arXiv:2503.21937v1 Announce Type: cross 摘要：神经符号程序结合了深度学习与符号推理，与单独使用深度学习的方法相比，在数据效率、可解释性和泛化能力方面表现出色。然而，现有的神经符号学习框架将一个高度可扩展、GPU加速的神经组件与一个较慢的在CPU上运行的符号组件以一种勉强的结合方式整合在一起。我们提出了Lobster，一种全栈框架，用于端到端地利用GPU进行神经符号学习。Lobster将基于Datalog的通用神经符号语言映射到GPU编程范式。这种映射通过编译到一种新的中间语言APM来实现。APM提供的额外抽象使得Lobster既能灵活地支持GPU硬件上的离散、概率性和可微推理，同时又高效地实现了新的优化阶段。我们展示了Lobster程序能够解决跨自然语言处理、图像处理、程序推理、生物信息学以及规划领域的问题。在一组8个应用上，Lobster相对于最先进的神经符号框架Scallop实现了平均5.3倍的加速，并使神经符号解决方案能够扩展到以前难以解决的任务。

发布时间: 3/31/2025

查看原文