arXiv 论文列表

F$^3$OCUS——基于多目标元启发式的联邦微调视觉-语言基础模型与最优客户端层更新策略

作者: Pramit Saha, Felix Wagner, Divyanshu Mishra, Can Peng, Anshul Thakur, David Clifton, Konstantinos Kamnitsas, J. Alison Noble

arXiv:2411.11912v2 宣告类型: replace-cross 摘要: 在联邦学习（FL）中，在资源受限的客户端设备上有效地训练大型视觉语言模型（VLMs）需要使用参数高效调优（PEFT）策略。为此，我们展示了两个因素的影响：一是客户端特定的层重要性评分，该评分选择最适合调优的VLM层；二是客户端之间层多样性评分，该评分鼓励在客户端之间选择多样化的层以实现最佳VLM层选择。我们首先通过理论论证并利用逐层神经 tangent 核的主要特征值来证明其作为客户端特定层重要性评分的有效性。接着，我们提出了一种新的逐层更新策略，称为 F$^3$OCUS，该策略通过在服务器上采用无数据的多目标元启发式优化来同时优化层的重要性与多样性因素。我们探索了5种不同的元启发式算法，并将它们的有效性用于选择模型层和适配器层以实现PEFT-FL。此外，我们发布了一个新的MedVQA-FL数据集，包括707,962个VQA三元组和9种模态特定的客户端，并利用该数据集来训练和评估我们的方法。总体而言，我们在涉及58个医学图像数据集和4种不同大小的VLM架构的6种视觉语言FL任务设置中进行了超过10,000次客户端级实验，以证明所提出方法的有效性。

发布时间: 4/1/2025

查看原文

学习多 agent 位移操作以进行长时 horizon 四足推举

作者: Yuming Feng, Chuye Hong, Yaru Niu, Shiqi Liu, Yuxiang Yang, Wenhao Yu, Tingnan Zhang, Jie Tan, Ding Zhao

arXiv:2411.07104v4 公告类型: replace-cross 摘要: 最近，四足运动已经取得了显著的成果，但在处理大型物体方面的操作能力仍然有限，这限制了它们在搜索和救援、建筑业、工业自动化和房间整理等苛刻的现实应用中的实用性。本文解决的是多只四足机器人具有避障意识的长期规划推举任务。我们提出了一种具有三级控制的层次化多代理强化学习框架。高层控制器结合了一个RRT规划器和一个集中式自适应策略，以生成子目标，而中层控制器使用了一个去中心化的目标条件策略来引导机器人向这些子目标前进。预训练的低层运动策略执行运动命令。我们在仿真中将我们的方法与几个基线方法进行了对比评估，结果显示，相较于基线方法，我们的方法在成功率方面提高了36.0%，完成时间减少了24.5%。我们的框架成功地使Go1机器人能够在现实世界中完成具有长期视角和避障意识的抓取任务，如Push-Cuboid和Push-T。

发布时间: 4/1/2025

查看原文

增强大型语言模型一致性与三元偏好 컴퓨xing

作者: Yuxiang Guo, Lu Yin, Bo Jiang, Jiaqi Zhang

arXiv:2411.02442v2 宣告类型: replace-cross 摘要：使大型语言模型（LLMs）与人类意图对齐对于提升其在各种任务中的性能至关重要。标准对齐技术，如直接偏好优化（DPO），通常依赖于二元Bradley-Terry（BT）模型，但在捕捉人类偏好复杂性方面经常遇到困难，特别是在存在嘈杂或不一致标签以及频繁平局的情况下。为解决这些局限性，我们引入了Tie-rank Oriented Bradley-Terry模型（TOBT），这是一种扩展的BT模型，明确包含了平局，从而使偏好表示更加精炼。在此基础上，我们提出了Tie-rank Oriented Direct Preference Optimization（TODO），这是一种新颖的对齐算法，利用TOBT的三元排名系统来提高偏好对齐。在对Mistral-7B和Llama 3-8B模型进行的评估中，TODO在分布内和分布外数据集中始终优于DPO在建模偏好方面的性能。使用MT Bench以及Piqa、ARC-c和MMLU等基准测试进一步证明了TODO在对齐性能方面的优越性。值得注意的是，TODO在二元偏好对齐方面也表现出色，突显了其灵活性及其在更广泛的大规模语言模型对齐中的潜在应用。详细的实现细节可在 https://github.com/XXares/TODO 找到。

发布时间: 4/1/2025

查看原文

LSEAttention 适用于时间序列预测

作者: Dizhen Liang

arXiv:2410.23749v5 通告类型: replace-cross 摘要：基于变换器的架构在自然语言处理和计算机视觉领域取得了显著成功。然而，在多变量长期预测方面，它们的表现往往不及简单的线性基线。之前的研究已将传统的注意力机制识别为限制其在该领域有效性的关键因素。为了弥合这一差距，我们提出了一种新的方法LATST，旨在缓解变换器时间序列预测中常见的熵坍塌和训练不稳定性等挑战。我们通过多个实际的多变量时间序列数据集严格评估了LATST，证明了其能够超越现有的最先进变换器模型。值得注意的是，在某些数据集上，LATST能够用比一些线性模型更少的参数实现竞争性性能，这突显了其高效性和有效性。

发布时间: 4/1/2025

查看原文

InjecGuard：评估和缓解提示注入防御护栏模型中的过度防御

作者: Hao Li, Xiaogeng Liu

arXiv:2410.22770v3 宣告类型：替换-交叉摘要：提示注入攻击对大型语言模型（LLMs）构成了关键威胁，使攻击者能够篡改目标和泄露数据。尽管提示防护模型在防御方面卓有成效，但由于触发词偏见，它们在防护时会过度防护——误将良性输入标记为恶意输入。为了应对这一问题，我们引入了NotInject，这是一个系统性地衡量各种提示防护模型过度防护的评估数据集。NotInject包含了339个良性样本，这些样本中富含常见的提示注入攻击触发词，从而实现精细的评估。我们的结果显示，最新的模型存在过度防护问题，准确率下降至接近随机猜测水平（60%）。为缓解这一问题，我们提出了一种新的提示防护模型InjecGuard，它整合了一种新的训练策略——免费缓解过度防护（MOF），显著减少了对触发词的偏见。InjecGuard在包括NotInject在内的多样基准测试中表现出色，相比现有的最佳模型提高了30.8%，提供了用于检测提示注入攻击的稳健和开源解决方案。代码和数据集可在https://github.com/leolee99/InjecGuard上获得。

发布时间: 4/1/2025

查看原文

ContextIQ：一种基于多模态专家的 contextual 广告视频检索系统

作者: Ashutosh Chaubey, Anoubhav Agarwaal, Sartaki Sinha Roy, Aayush Agrawal, Susmita Ghose

arXiv:2410.22233v3 宣告类型：替换交叉摘要：上下文广告通过对用户正在查看的内容进行对齐来投放广告。随着社交平台和流媒体服务上的视频内容快速增长，以及隐私问题的增加，对上下文广告的需求也随之增加。将合适的广告放置在合适的情境中，可以创建顺畅且愉悦的广告观看体验，从而提高受众参与度，并最终改善广告变现。从技术角度来看，有效的上下文广告需要一个能够精细理解视频内容的多模态检索系统。现有的基于联合多模态训练的文本到视频检索模型需要大量数据集和计算资源，限制了它们的实际应用，并缺乏将广告生态系统整合所需的最关键功能。我们提出了ContextIQ，这是一种专门针对上下文广告设计的多模态专家检索系统。ContextIQ 利用特定于模态的专家——视频、音频、字幕（字幕）以及元数据（对象、动作、情绪等）——来创建语义丰富的视频表示。我们展示了在没有联合训练的情况下，我们的系统在多个文本到视频检索基准测试上取得了与最先进的模型和商用解决方案相当甚至更好的效果。我们的消融研究表明，利用多种模态可以提高视频检索的准确性，而不是仅使用视觉-语言模型。此外，我们展示了如何使用如ContextIQ这样的视频检索系统在广告生态系统中进行上下文广告投放，同时解决品牌安全和过滤不当内容的问题。

发布时间: 4/1/2025

查看原文

概念的几何结构：稀疏自编码器特征结构

作者: Yuxiao Li, Eric J. Michaud, David D. Baek, Joshua Engels, Xiaoqing Sun, Max Tegmark

arXiv:2410.19750v2 更新类型: 替换-交叉摘要：稀疏自编码器最近生成了与大型语言模型表示的概念宇宙相对应的高维向量字典。我们发现这种概念宇宙在三个层次上表现出有趣的影响：1）“原子”级的小尺度结构包含“晶体”，其表面是平行四边形或梯形，这些平行四边形和相关功能向量的质量在去除如单词长度等全球干扰向量后大幅提高，这可以通过线性判别分析高效实现。2）“大脑”级的中等尺度结构具有显著的空间模块化；例如，数学和代码特征形成一个类似于神经fMRI图像中功能叶的“叶”。我们用多种度量标准量化了这些叶的空间局部性，并发现足够粗糙尺度下共现特征的聚类远比随机几何特征的聚类空间上更接近。3）概念太空点云的“星系”级大尺度结构不是各向同性的，而是具有中间层中幂律的特征值，斜率最陡。我们还量化了聚类熵随层的变化情况。

发布时间: 4/1/2025

查看原文

在复杂场景中强调鉴别特征进行数据集萃取

作者: Kai Wang, Zekai Li, Zhi-Qi Cheng, Samir Khaki, Ahmad Sajedi, Ramakrishna Vedantam, Konstantinos N Plataniotis, Alexander Hauptmann, Yang You

arXiv:2410.17193v2 更新类型: replace-cross 摘要：数据集蒸馏在CIFAR、MNIST和TinyImageNet等简单数据集上表现出强大的性能，但在更复杂的情景中却难以获得类似的结果。本文提出了一种名为EDF（强调鉴别性特征）的数据集蒸馏方法，该方法利用Grad-CAM激活图增强合成图像中的关键鉴别性区域。我们的方法灵感来源于一个关键观察：在简单数据集中，高激活区通常占据整个图像的大部分，而在复杂情景中，这些区域的大小要小得多。与之前的方法不同，EDF在合成图像时不会平等对待所有像素，而是利用Grad-CAM激活图来增强高激活区。从监督角度来看，我们降低了低损失的监督信号的权重，因为这些信号包含常见模式。此外，为了帮助DD社区更好地探索复杂情景，我们精心选择了ImageNet-1K的十六个子集，其中包括八个容易的情景和八个困难的情景，构建了Complex Dataset Distillation (Comp-DD) 基准。特别是，EDF在复杂情景中（如ImageNet-1K子集）始终优于最先进的结果。希望更多的研究人员能够受到启发，被鼓励去提高数据集蒸馏的实用性和有效性。我们的代码和基准将公开发布在 https://github.com/NUS-HPC-AI-Lab/EDF。

发布时间: 4/1/2025

查看原文

场景语言：用程序、文字和嵌入表示场景

作者: Yunzhi Zhang, Zizhang Li, Matt Zhou, Shangzhe Wu, Jiajun Wu

arXiv:2410.16770v2 宣告类型: replace-cross 摘要: 我们引入了场景语言，这是一种简洁而精确的视觉场景表示方式，能够描述视觉场景的结构、语义和身份。它通过三个关键组件表示一个场景：一个程序，用于指定场景中实体的层次和关系结构；自然语言词汇，用于概括每个实体的语义类别；以及嵌入式表示，用于捕捉每个实体的视觉身份。该表示可以从预训练的语言模型通过无训练的推理技术推断出来，给定文本或图像输入。生成的场景可以用传统的、神经网络的或混合图形渲染器渲染成图像。这一系统共同构成了一个强大的自动化系统，用于高质量的3D和4D场景生成。与现有的场景图等表示相比，我们提出的场景语言能够生成更高保真度的复杂场景，同时明确建模场景结构以实现精确的控制和编辑。

发布时间: 4/1/2025

查看原文

satori: 向前展望的AR助手与信念-愿望-意图用户建模

作者: Chenyi Li, Guande Wu, Gromit Yeuk-Yin Chan, Dishita G Turakhia, Sonia Castelo Quispe, Dong Li, Leslie Welch, Claudio Silva, Jing Qian

arXiv:2410.16668v3 公告类型: replace-cross 摘要：增强现实（AR）辅助越来越多地用于支持用户完成物理任务，如组装和烹饪。然而，大多数系统依赖于由用户输入触发的反应性响应，忽视了丰富的环境和用户特定的信息。为了解决这一问题，我们提出了Satori，一种新颖的AR系统，它主动引导用户，同时建模他们的心理状态和环境上下文。Satori将Belief-Desire-Intention（BDI）框架与最先进的多模态大语言模型（LLM）相结合，以提供适当的上下文指导。我们的系统基于对十二名专家进行的两阶段形成性研究设计。我们在十六项以内被试研究中评估了系统，并发现Satori在无需手动配置或启发式方法的情况下，匹配了设计师创建的Wizard-of-Oz（WoZ）系统的性能，从而提高了通用性、重用性，并扩展了AR辅助的潜在应用。

发布时间: 4/1/2025

查看原文