arXiv 论文列表

作者: Kailas Vodrahalli, Wei Wei, James Zou

arXiv:2503.24150v1 交叉公告类型摘要：生成式AI的最新进展主要得益于诸如基于人类反馈的强化学习（RLHF）之类的对齐技术。RLHF及其相关技术通常涉及构建一个人类偏好的二元或排序选择数据集，并随后对模型进行微调以与这些偏好对齐。本文将重点转移到理解此类数据集中编码的偏好，并识别常见的人类偏好。我们发现，从近5000种独特偏好中选择的21个偏好类别就捕捉到了超过89%的个体偏好变异。这套少量的偏好类似于人类偏好的一种标准基底，类似于心理学或面部识别研究中已确立的人类变异特征描述。通过合成和实证评估，我们确认我们的低秩、标准基底的人类偏好在整个数据集和特定主题内都能泛化。我们还进一步证明了我们在模型评估方面的偏好基底的实用性，其中我们的偏好类别为模型对齐提供了更深入的洞察，并在模型训练中展示了根据偏好定义的子集进行微调能够成功使模型对齐。

发布时间: 4/1/2025

查看原文

共鸣：通过AI增强记笔记来回忆往事以想象美好未来

作者: Wazeer Zulfikar, Treyden Chiaravalloti, Jocelyn Shen, Rosalind Picard, Pattie Maes

arXiv:2503.24145v1 交叉公告类型摘要：人们在想象未来时，会自然地运用过去的经验，这种能力在心理健康中发挥着重要作用。Resonance 是一个由人工智能驱动的记日记工具，旨在通过根据用户的个人过去记忆提供基于行动的未来活动建议来增强这种能力。新记忆记录时会提供建议，并要求用户想象执行这些建议。在为期两周的随机对照研究（N=55）中，我们发现使用 Resonance 显著改善了心理健康结果，降低了用户的心境障碍量表（PHQ8）评分，即当前抑郁水平，并增加了他们的日常正面情绪，尤其是在他们可能执行建议时。值得注意的是，当建议是个人的、新颖的且参考了用户记录的记忆时，建议的有效性更高。最后，通过开放式反馈，我们讨论了促进或阻碍使用该工具的因素。

发布时间: 4/1/2025

查看原文

基于图神经网络的机器人石膏打印预测建模

作者: Diego Machain Rivera, Selen Ercan Jenny, Ping Hsun Tsai, Ena Lloret-Fritschi, Luis Salamanca, Fernando Perez-Cruz, Konstantinos E. Tatsis

arXiv:2503.24130v1 交叉公告类型摘要：本文提出了一种图神经网络（GNN）建模方法，用于预测基于颗粒的制造过程所产生的表面。后者包括使用机械臂辅助的水泥砂浆喷射打印在墙壁上。预测是通过对机械臂轨迹特征（如位置、速度和方向）以及打印过程参数进行计算得出的。所提出的方法基于墙壁域和末端执行器的颗粒表示，允许采用基于图的解决方案。GNN模型采用编码器-处理器-解码器架构，并通过实验室测试数据进行训练，同时通过贝叶斯方案优化超参数。该模型的目的是充当打印过程的模拟器，并最终用于生成机械臂轨迹和优化打印参数，以实现自主抹灰过程的实现。该模型的性能通过与未见过的真实数据的预测误差进行评估，显示其在各种场景中的普遍性，以及与现有基准模型性能的比较。实验结果表明，与基准模型相比，该模型在性能上有了显著的改进，并且在预测步骤中的误差缩放方面表现更好。

发布时间: 4/1/2025

查看原文

结肠镜视频分析的统一基础模型：PolypSegTrack

作者: Anwesa Choudhuri, Zhongpai Gao, Meng Zheng, Benjamin Planche, Terrence Chen, Ziyan Wu

arXiv:2503.24108v1 交叉公告类型：cross 摘要：在结肠镜检查中早期检测、精确分割、分类和跟踪息肉对于预防结肠直肠癌至关重要。许多现有的基于深度学习的结肠镜视频分析方法要么需要特定任务的微调，要么缺乏跟踪能力，要么依赖于特定领域的预训练。在本文中，我们介绍了PolySegTrack，这是一个新颖的基础模型，可以同时解决结肠镜视频中的息肉检测、分割、分类和无监督跟踪问题。我们的方法利用了一种新型的条件掩码损失，这使我们在具有像素级分割掩码或边界框注释的不同数据集上实现灵活的训练，从而可以绕过特定任务的微调。我们的无监督跟踪模块可靠地在帧间关联息肉实例，而无需依赖任何启发法。我们利用了一个基于鲁棒视觉基础模型的骨干网络，该网络以无监督的方式在自然图像上进行了预训练，从而消除了特定领域的预训练需求。在多个息肉基准测试上的大量实验表明，我们的方法在检测、分割、分类和跟踪方面显著优于现有最先进的方法。

发布时间: 4/1/2025

查看原文

人工对话，真实成果：利用合成数据促进语言检测

作者: Fatemeh Mohammadi, Tommaso Romano, Samira Maghool, Paolo Ceravolo

arXiv:2503.24062v1 类型: cross 摘要：收集高质量的训练数据对于微调大规模语言模型（LLMs）至关重要。然而，获取这样的数据往往是昂贵且耗时的，尤其是在非英语语言（如意大利语）方面。最近，研究人员开始探索使用LLMs生成合成数据作为一种可行的替代方案。本研究提出了一种生成合成数据的流水线，并通过评估模型性能受提示策略、文本长度和特定任务中目标位置等因素的影响，全面调查了由LLMs生成的合成数据的有效性因素。我们的结果表明，大多数情况下，使用合成数据训练的微调模型在真实和合成测试数据集上的性能普遍优于其他模型。该研究讨论了使用合成数据进行LLMs的语言检测任务的实际意义和限制。

发布时间: 4/1/2025

查看原文

贝叶斯预测编码

作者: Alexander Tschantz, Magnus Koudahl, Hampus Linander, Lancelot Da Costa, Conor Heins, Jeff Beck, Christopher Buckley

arXiv:2503.24016v1 交叉公告类型：跨领域摘要：预测编码（PC）是一种影响深远的大脑信息处理理论，它为反向传播提供了一种生物学上合理的替代方案。PC 以贝叶斯推断为动机，通过变分自由能的梯度下降优化隐藏状态和参数。然而，PC 的实现依赖于隐藏状态的最大后验（MAP）估计和参数的最大似然（ML）估计，限制了其衡量表征不确定性的能力。在本工作中，我们探讨了一种贝叶斯扩展的 PC 方法，该方法估计了网络参数的后验分布。这种方法称为贝叶斯预测编码（BPC），保持了 PC 的局部性，并导致了封闭形式的希布式权重更新。与 PC 相比，我们的 BPC 算法在全批量设置中收敛更快，在小批量设置中仍具有竞争力。此外，我们展示了 BPC 在贝叶斯深度学习中的不确定性量化与现有方法相当，同时提高了收敛性能。这些结果表明，BPC 为大脑中的贝叶斯学习提供了一种生物学上合理的方案，并且是一种有吸引力的不确定性量化方法。

发布时间: 4/1/2025

查看原文

从RGB视频学习3D高斯模拟器

作者: Mikel Zhobro, Andreas Ren\'e Geist, Georg Martius

arXiv:2503.24009v1 公告类型: 交叉学科摘要: 从视频数据中学习物理模拟需要保持空间和时间一致性，这通常通过使用强烈的归纳偏见或真实三维信息来解决——这限制了可扩展性和泛化能力。我们提出了3DGSim，这是一种从多视角RGB视频中端到端学习物体动力学的三维物理模拟器。它将图像编码为三维高斯粒子表示，通过变压器传播动力学，并使用三维高斯插值进行渲染。通过使用时间编码和合并层共同训练逆渲染与动力学变换器，3DGSim将物理属性嵌入到点节点潜向量中，而无需强制执行显式的连接约束。这使模型能够捕捉从刚性到弹性和布料样式的各种物理行为，同时还实现了现实的光照效果，这些效果也能够泛化到未见过的多体交互和新的场景编辑。

发布时间: 4/1/2025

查看原文

H2VU-基准：层次整体视频理解的综合基准

作者: Qi Wu, Quanlong Zheng, Yanhao Zhang, Junlin Xie, Jinguo Luo, Kuo Wang, Peng Liu, Qingsong Xie, Ru Zhen, Haonan Lu, Zhenyu Yang

arXiv:2503.24008v1 类型: cross 摘要：随着多模态模型的迅速发展，对视频理解能力的评估需求也在稳步增加。然而，现有的视频理解评估基准在覆盖范围、任务多样性和场景适应性方面表现出明显局限性。这些不足阻碍了对模型综合视频理解能力的准确评估。为应对这一挑战，我们提出了一个层次化和整体的视频理解（H2VU）基准，旨在评估一般视频和在线流媒体视频的理解能力。该基准贡献了三个关键特性：拓展的视频时长：从短短3秒的片段到长达1.5小时的完整记录，从而填补当前基准中存在的时间空白。全面的评估任务：除了传统的感知和推理任务外，我们还引入了反常识理解模块和轨迹状态跟踪模块。这些新增内容测试了模型超越先验知识的深刻理解能力。丰富的视频数据：为了跟上当前AI代理的快速发展，我们扩展了第一人称流媒体视频数据集。这一扩展允许探索多模态模型在理解第一人称视角流媒体视频方面的性能。H2VU的广泛结果表明，现有的多模态大型语言模型（MLLMs）在我们新提出的评估任务中具有显著改进的潜力。我们期望H2VU将通过提供对MLLMs的全面和深入分析来促进视频理解研究的进步。

发布时间: 4/1/2025

查看原文

CITRAS：针对时间序列预测的协变量指导变换器

作者: Yosuke Yamaguchi, Issei Suemitsu, Wenpeng Wei

arXiv:2503.24007v1 类型: cross 摘要: 因变量在实际时间序列预测中起着不可或缺的作用，它们提供了丰富的过去背景，并且有时甚至延伸到未来。然而，它们的可用性取决于特定场景，而且通常会涉及多个目标变量同时进行。此外，因变量与因变量之间的跨变量依赖关系是多粒度的，有些因变量对目标变量有短期影响，而另一些则显示出长期相关性。这种异质性以及在基于因变量的预测中产生的复杂依赖关系，给现有的深度模型带来了重大挑战。为了解决这些问题，我们提出了一种基于补丁的Transformer——CITRAS，它灵活地利用了涵盖过去和未来预测范围的目标变量和因变量。虽然CITRAS保留了经典Transformer强大的自回归能力，但在补丁级别的跨变量注意力中引入了两种新颖机制：Key-Value (KV) Shift和注意力得分平滑。KV Shift无缝地根据因变量的当前依赖关系将已知的未来因变量纳入目标变量的预测。此外，注意力得分平滑通过平滑过去一系列注意力得分，将局部准确的补丁级别跨变量依赖关系转换为全局变量级别的依赖关系。实验结果显示，CITRAS在基于因变量的预测和多变量预测中均取得了最先进的性能，证明了其利用跨变量依赖关系提高预测准确性的能力。

发布时间: 4/1/2025

查看原文

重新思考大型语言模型服务中键值缓存压缩技术

作者: Wei Gao, Xinyu Zhou, Peng Sun, Tianwei Zhang, Yonggang Wen

arXiv:2503.24000v1 类型: cross 摘要: Key-Value 缓存（\texttt{KV} 缓存）压缩作为一种优化大型语言模型（LLM）服务的技术已经崭露头角。它主要通过减少 \texttt{KV} 缓存的内存消耗来降低计算成本。尽管已经开发了许多压缩算法，但在生产环境中的应用仍然不多。在本文中，我们从实用的角度重新审视主流的 \texttt{KV} 缓存压缩解决方案。我们的贡献有三个方面。首先，我们全面回顾了现有的 \texttt{KV} 缓存压缩算法和基准研究，并指出现有研究在性能衡量上的缺失环节，这可能阻碍其在实际中的应用。其次，我们实证评估了代表性的 \texttt{KV} 缓存压缩方法，发现了影响计算效率的两个关键问题：（1）虽然压缩 \texttt{KV} 缓存可以减少内存消耗，但当前实现（如 FlashAttention、PagedAttention）并未针对生产级别的 LLM 服务进行优化，导致吞吐量性能不佳；（2）压缩 \texttt{KV} 缓存可能会导致输出时间变长，从而增加端到端的延迟。我们进一步调查了单个样本的准确性能，揭示了在处理特定 LLM 任务时 \texttt{KV} 缓存压缩的内在限制。第三，我们提供了工具以照亮未来 \texttt{KV} 缓存压缩研究的方向，并促进其实用部署。这些工具已在 \href{https://github.com/LLMkvsys/rethink-kv-compression}{https://github.com/LLMkvsys/rethink-kv-compression} 中开源。

发布时间: 4/1/2025

查看原文