arXiv 论文列表

作者: Eylon Caplan, Tania Chakraborty, Dan Goldwasser

arXiv:2504.04640v1 Announce Type: 综合交叉学科摘要：理解不同人口统计学群体的想法、感受和表达方式（统称为群体表达）对于社会科学至关重要，这也是评估大型语言模型（LLMs）偏见的基础。虽然在提供实证示例的情况下，LLMs能够有效地总结群体表达，但在现实中提出一个能够概括群体表达表现形式的一般理论具有挑战性。在本文中，我们定义了一个新任务，称为群体理论化，在该任务中，系统必须编写能够区分群体之间表达的理论。我们提供了一个针对此任务的大规模数据集 Splits!，该数据集是通过将Reddit帖子按中立主题（例如，体育、烹饪和电影）以及人口统计学（例如，职业、宗教和种族）进行分割构建而成的。最后，我们建议了一种简单的评估框架，用于评估方法能够生成“更好的”关于群体表达的理论的有效性，并辅以人工验证。我们公开发布了 Splits! 的原语料库和评估脚本，以帮助研究人员评估方法如何推断群体表达差异，并且可能会误代表群体差异。我们通过 https://github.com/eyloncaplan/splits 公开了 Splits! 和我们的评估模块。

发布时间: 4/8/2025

查看原文

DanceMosaic：具有多模态可编辑性的高保真舞蹈生成

作者: Foram Niravbhai Shah, Parshwa Shah, Muhammad Usama Saleem, Ekkasit Pinyoanuntapong, Pu Wang, Hongfei Xue, Ahmed Helmy

arXiv:2504.04634v1 公告类型：交叉摘要：最近在舞蹈生成方面的进展使得自动合成3D舞蹈动作成为可能。然而，现有的方法仍然难以生成高保真度的舞蹈序列，这些序列能同时提供出色的逼真度、精准的舞蹈与音乐同步、高度的动作多样性以及物理上的合理性。此外，现有的方法缺乏根据多样化的指导信号编辑舞蹈序列的能力，例如音乐提示、姿势约束、动作标签和流派描述，这极大地限制了它们的创造性和适应性。与现有的方法不同，DanceMosaic 允许快速且高保真度的舞蹈生成，同时支持多模态动作编辑。具体而言，我们提出了一种多模态遮蔽动作模型，将文本到动作模型与音乐和姿势适配器融合，通过逐步生成遮蔽训练来学习从多样化的指导信号到高质量舞蹈动作序列的概率映射。为了进一步提高动作生成质量，我们提出了一种多模态无分类器引导和推理时优化机制，进一步强化了生成动作与多模态指导信号之间的对齐。广泛的实验表明，我们的方法在舞蹈生成方面建立了新的最佳性能，在现有的方法中显著提高了生成质量和可编辑性。

发布时间: 4/8/2025

查看原文

M2IV：走向高效且细粒度的多模态在上下文学习在大型视觉-语言模型中

作者: Yanshu Li, Hongyang He, Yi Cao, Qisen Cheng, Xiang Fu, Ruixiang Tang

arXiv:2504.04633v1 宣布类型: cross 摘要: 多模态在上下文学习（ICL）是大型视觉-语言模型（LVLMs）的一项关键能力，允许通过上下文提示实现任务适应而不需重新训练参数。然而，其应用受到输入的标记密集特性和跨模态少样本学习的高复杂性限制，这限制了表示方法的表达能力。为了解决这些挑战，我们提出了一种名为 **M2IV** 的方法，该方法直接将可学习的 **I** 背景 **V** 向量集成到 LVLMs 中，替代显式的示例。通过利用多头注意力（**M**HA）和多层感知器（**M**LP）的互补优势，M2IV 通过训练实现了稳健的跨模态保真度和精细的语义提炼。这显著提升了多种 LVLMs 和任务的性能，并且能够在多样本场景下高效扩展，绕过了上下文窗口的限制。我们还引入了 **VLibrary**，这是一个用于存储和检索 M2IV 的存储库，使其能够灵活地指导涉及跨模态对齐、定制生成和安全改进等任务的 LVLM。跨越七个基准和三种 LVLM 的实验表明，M2IV 在与相同样本量的 ICL 相比下，平均准确度提高了 **3.74%**，同时还具有显著的效率优势。

发布时间: 4/8/2025

查看原文

工具作为接口：通过imitation learning从人类工具使用中学习机器人策略

作者: Haonan Chen, Cheng Zhu, Yunzhu Li, Katherine Driggs-Campbell

arXiv:2504.04612v1 交叉公告类型：交叉摘要：工具使用对于使机器人能够执行复杂的现实世界任务至关重要，利用人类的工具使用数据可以有效地教机器人。然而，现有的数据采集方法如远程操作速度慢，容易出现控制延迟，并不适合动态任务。相比之下，人类自然数据，即人类直接使用工具执行任务，提供了自然的、结构松散的交互，既高效又容易采集。基于人类与机器人可以共用工具的洞察，我们提出了一种框架，将人类数据中的工具使用知识转移到机器人上。通过使用两个RGB摄像机，本方法生成3D重建，应用高斯放样法进行新颖视图扩充，利用分割模型提取体模无关的观察结果，并利用任务空间中的工具-动作表示来训练视觉-运动策略。我们对该方法在多样化的实际任务上进行了验证，包括肉丸舀取、平底盘子、酒瓶平衡以及其他复杂的任务。相比由远程操作数据训练的扩散策略，本方法平均成功率提高了71%，且数据采集时间减少了77%，某些任务仅能通过我们的框架解决。与手持式夹爪相比，本方法将数据采集时间缩短了41%。此外，本方法弥合了体态差异，提高了对摄像机视角和机器人配置变化的鲁棒性，并且能够在不同物体和空间布局之间有效泛化。

发布时间: 4/8/2025

查看原文

“你就是不能这么干，随意杀人”：向人类终结者解释智能体行为

作者: Uri Menkes, Assaf Hallak, Ofra Amir

arXiv:2504.04592v1 类型: cross 摘要: 假设一个预训练的智能体在某个环境中运作，人类操作者可以决定在某些时间段内暂时终止其运作并接管。这种类型的场景在人机交互中很常见，例如在自动驾驶、工厂自动化和医疗保健中。在这些场景中，我们通常会观察到两种极端情况之间的权衡——如果不允许接管，智能体可能会采用一个次优的，甚至可能是危险的策略。相反，如果接管次数太多，人类对智能体将没有信心，极大地限制了其 usefulness。在本文中，我们正式提出了这一设置，并提出了一种可解释性方案来帮助优化人类干预的数量。

发布时间: 4/8/2025

查看原文

你的图像生成器是你的新私人数据集

作者: Nicolo Resmini, Eugenio Lomurno, Cristian Sbrolli, Matteo Matteucci

arXiv:2504.04582v1 类型：交叉摘要：生成性扩散模型已成为合成生成训练数据的强大工具，为解决数据稀缺性和降低下游监督深度学习应用的标注成本提供了潜在解决方案。然而，有效利用文本条件化图像生成来构建分类器训练集需要解决关键问题：构造具有信息性的文本提示、适应生成模型到特定领域以及确保稳健性能。本文提出了文本条件化知识回收（TCKR）管道来解决这些问题。TCKR 结合动态图像描述、参数高效扩散模型微调和生成性知识蒸馏技术，创建适合图像分类的合成数据集。该管道在十个不同的图像分类基准上进行了严格的评估。结果表明，仅使用 TCKR 生成的数据训练的模型在分类准确率上与（并在某些情况下超过）使用真实图像训练的模型相当。此外，评估证明，这些使用合成数据训练的模型在隐私特性方面表现出显著增强：它们对成员推断攻击的易受攻击性显著降低，使用合成训练数据时，平均 AUC 降低了 5.49 个点，展示了性能-隐私权衡改进的巨大提升。这些发现表明，高保真度的合成数据可以有效地替代真实数据进行分类器训练，既能提供强大的性能，同时还能通过一种有价值的附加特性提供更好的隐私保护。相关代码和训练模型可在附带的开源库中获得。

发布时间: 4/8/2025

查看原文

基于双阶段、物理告知和交通知识驱动的大语言模型规划安全轨迹

作者: Rui Gan, Pei Li, Keke Long, Bocheng An, Junwei You, Keshu Wu, Bin Ran

arXiv:2504.04562v1 提纲类型: cross 摘要：基础模型在驾驶相关任务方面的表现展示了强大的推理和泛化能力，包括场景理解、规划和控制。然而，它们仍然面临幻觉、不确定性以及长推断延迟的挑战。尽管现有的基础模型一般具备避免碰撞的知识，但它们往往缺乏与运输相关的安全知识。为克服这些限制，我们提出了 LetsPi，这是一种基于物理驱动的、双阶段、知识导向的框架，用于安全的人类样轨迹规划。为了防止幻觉并最小化不确定性，这个混合框架将大型语言模型（LLM）推理与物理驱动的社会力动力学相结合。LetsPi 利用 LLM 分析驾驶场景和历史信息，为社会力模型提供适当的参数和目标目的地（目标），进而生成未来的轨迹。此外，双阶段结构通过记忆收集阶段和快速推理阶段来平衡推理和计算效率。记忆收集阶段利用物理驱动的 LLM 通过推理、反思和记忆模块处理和提炼规划结果，将安全、高质量的驾驶经验存储在记忆库中。引入了代理安全措施和基于物理的提示技术，分别增强 LLM 对运输安全和物理力的知识。快速推理阶段从相似的驾驶经验中提取少量示例以适用于新场景，同时简化输入输出要求以实现快速轨迹规划而不牺牲安全。使用 HighD 数据集进行了广泛的实验，结果表明，Letspi 在五个安全指标上优于基线模型。请参见 PDF 以获取项目 GitHub 链接。

发布时间: 4/8/2025

查看原文

基于多模态大规模语言模型推进第一人称视频问答研究

作者: Alkesh Patel, Vibhav Chitalia, Yinfei Yang

arXiv:2504.04550v1 广义类型: cross 摘要: 自我中心视频问答(QA)要求模型处理长期时间推理、第一人称视角以及频繁的摄像机移动等专门挑战。本文系统性地评估了 proprietary 和开源的多模态大语言模型(MLLMs)在 QaEgo4Dv2 上的表现，这是一个源自 QaEgo4D 的改进数据集。四种流行的 MLLMs（GPT-4o、Gemini-1.5-Pro、Video-LLaVa-7B 和 Qwen2-VL-7B-Instruct）分别使用零样本和微调方法，在 OpenQA 和 CloseQA 环境下进行评估。我们介绍了 QaEgo4Dv2 以减轻 QaEgo4D 中标注噪声的影响，使比较更加可靠。结果显示，微调后的 Video-LLaVa-7B 和 Qwen2-VL-7B-Instruct 达到了新的性能基准，在 OpenQA 上比之前的标准高出 +2.6% 的 ROUGE/METEOR，而在 CloseQA 上高出 +13% 的准确率。此外，我们还进行了详细的错误分析，表明模型在空间推理和细粒度物体识别方面的困难，这是未来改进的关键领域。

发布时间: 4/8/2025

查看原文

点、视觉与文本：点云能否提升大规模语言模型的空间推理能力？

作者: Weichen Zhang, Ruiying Peng, Chen Gao, Jianjie Fang, Xin Zeng, Kaiyuan Li, Ziyou Wang, Jinqiang Cui, Xin Wang, Xinlei Chen, Yong Li

arXiv:2504.04540v1 类型: cross 摘要: 利用点云中的空间信息进行三维（3D）空间推理的三维大型语言模型（3D LLMs）引起了极大的关注。尽管取得了一些令人鼓舞的结果，但点云在三维空间推理中的作用尚未得到充分探索。在本文中，我们全面评估和分析这些模型，以回答研究问题：点云真的增强了3D LLMs的空间推理能力吗？我们首先通过将点云替换为视觉和文本等效物来评估具有不同输入模态的LLMs的空间推理能力。然后，我们提出了一种新的3D QA（问答）基准——ScanReQA，该基准全面评估了模型对二元空间关系的理解能力。我们的发现揭示了几条关键见解：1) 即使在零样本情况下，没有点输入的LLMs也能取得竞争力的表现；2) 当前的3D LLMs在理解二元空间关系方面存在困难；3) 3D LLMs在利用点云中的结构坐标进行精细空间推理方面存在局限性。我们相信这些结论将有助于3D LLMs的下一步发展，并且也为其他模态的基础模型提供了见解。我们在匿名项目页面上发布了数据集和可重复的代码：https://3d-llm.xyz。

发布时间: 4/8/2025

查看原文

SnapPix：受高效编码启发的边缘视觉传感器内压缩

作者: Weikai Lin, Tianrui Ma, Adith Boloor, Yu Feng, Ruofan Xing, Xuan Zhang, Yuhao Zhu

arXiv:2504.04535v1 交叉公告类型摘要：在边缘进行能效图像采集对于传感器节点计算能力较弱且必须将数据传输到远程服务器/云进行处理的远程 sensing 应用至关重要。为了减少边缘的能量消耗，本文提出了一种名为 SnapPix 的传感器-算法联合设计系统，该系统在传感器内部对原始像素进行模拟域压缩。我们采用编码曝光（CE）作为传感器内的压缩策略，因为它可以灵活地在空间和时间上选择性地曝光像素。SnapPix 有三项贡献。首先，我们提出了一种任务无关的策略，基于高效编码的经典理论学习采样/曝光模式。其次，我们与曝光模式共同设计下游的视觉模型，以解决 CE 压缩图像固有的像素级非均匀性问题。最后，我们提出了对图像传感器硬件的轻量级增强，以支持我们的传感器内 CE 压缩。在动作识别和视频重建评估中，SnapPix 在相同的速度下优于现有的基于视频的方法，同时能量消耗最多可降低 15.4 倍。我们已在 https://github.com/horizon-research/SnapPix 开源了代码。

发布时间: 4/8/2025

查看原文