arXiv 论文列表

作者: Hyung-Il Kim, Kimin Yun, Jun-Seok Yun, Yuseok Bae

近年来，在海量数据集上训练的，能够适应多种任务的基础模型引起了计算机视觉领域的广泛关注，并得到了积极探索。其中，Segment Anything Model (SAM) 在图像分割任务中取得了显著进展，其通过基于提示的物体掩码生成实现了非凡的泛化性和灵活性。然而，尽管 SAM 实力强大，但在应用于实例分割（即分割特定物体或独特环境中的物体，例如对训练数据中不存在的物体进行特定任务的适应）时，它仍然面临着两个关键限制：1）输入提示的内在歧义性；2）为了实现最佳分割，需要进行大量的额外训练。为了解决这些挑战，我们提出了一种通过针对 SAM 的提示学习来进行任务特定适应（即定制）的分割基础模型。我们的方法包括一个提示学习模块 (PLM)，该模块调整嵌入空间中的输入提示，使其更好地与目标任务的特殊性相匹配，从而实现更有效的训练。此外，我们还引入了点匹配模块 (PMM) 来增强特征表示，通过确保与地面真实边界进行详细对齐来实现更精细的分割。在各种定制分割场景上的实验结果证明了所提出方法的有效性。

发布时间: 10/14/2024

查看原文

可控偏好优化：迈向可控的多目标对齐

作者: Yiju Guo, Ganqu Cui, Lifan Yuan, Ning Ding, Zexu Sun, Bowen Sun, Huimin Chen, Ruobing Xie, Jie Zhou, Yankai Lin, Zhiyuan Liu, Maosong Sun

人工智能中的对齐旨在使模型的响应与人类的偏好和价值观保持一致。在实践中，人类偏好的多面性无意中引入了所谓的“对齐税”——一种妥协，即在一个目标（例如，无害性）中对齐的增强会降低其他目标（例如，帮助性）的性能。然而，现有的对齐技术大多是单向的，导致在各种目标上权衡不佳且灵活性差。为了应对这一挑战，我们认为用明显偏好来为大型语言模型提供依据至关重要。我们引入了可控偏好优化 (CPO)，它明确地指定了不同目标的偏好分数，从而引导模型生成满足要求的响应。我们的实验分析表明，对齐后的模型可以提供符合“3H”（帮助性、诚实性、无害性）期望中的各种偏好的响应。此外，通过引入多样化的数据和对齐目标，我们在与单一目标对齐方面超越了基线方法，从而减轻了对齐税的影响，并在多目标对齐方面取得了改进。

发布时间: 10/14/2024

查看原文

利用音位表示来减轻语言差异，实现鲁棒的跨语言迁移

作者: Haeji Jung, Changdae Oh, Jooeon Kang, Jimin Sohn, Kyungwoo Song, Jinkyu Kim, David R. Mortensen

提升多语言理解能力的方法通常在高资源语言和低资源语言之间存在显著的性能差距。虽然有一些努力将语言对齐到一个单一的潜在空间来减轻这种差距，但尚未研究不同输入级表示如何影响这种差距，特别是对于音素输入。我们假设这些语言之间的表示差异会影响性能差距，并重新审视使用音素表示来缓解这些差异。为了证明音素表示的有效性，我们对总共 12 种语言的三个代表性跨语言任务进行了实验。结果表明，与正字法表示相比，音素表示在语言之间表现出更高的相似性，并且在资源相对较少的语言上始终优于基于字母的基线模型。我们从三个跨语言任务中提供了定量证据来证明音素表示的有效性，并通过对跨语言性能差距的理论分析进一步证明了这一点。

发布时间: 10/14/2024

查看原文

SPRINQL：次优演示驱动的离线模仿学习

作者: Huy Hoang, Tien Mai, Pradeep Varakantham

我们专注于离线模仿学习 (IL)，其目标是在不与环境交互的情况下，利用演示来模仿专家的行为。离线 IL 的主要挑战之一是专家演示的支持有限，通常仅涵盖状态-动作空间的一小部分。虽然可能无法获得大量专家演示，但通常可以收集更多次优演示。例如，在治疗优化问题中，不同慢性病可获得不同级别的医生治疗。这些治疗范围从治疗专家和经验丰富的全科医生到经验不足的全科医生。类似地，当机器人被训练来模仿人类执行日常任务时，它们可能会从不同专业水平和效率的人那里学习。在本文中，我们提出了一种离线 IL 方法，该方法利用更大的次优演示集，同时有效地模仿专家轨迹。现有的基于行为克隆或分布匹配的离线 IL 方法通常面临着诸如过度拟合有限的专家演示集或无意中模仿来自更大数据集的次优轨迹等问题。我们的方法基于逆软 Q 学习，从专家和次优演示中学习。它为与专家演示对齐分配更高的重要性（通过学习的权重），而为与次优演示对齐分配更低的重要性。我们方法的关键贡献，称为 SPRINQL，是将离线 IL 问题转化为 Q 函数空间上的凸优化问题。通过全面的实验评估，我们证明了 SPRINQL 算法在离线 IL 基准测试中实现了最先进 (SOTA) 的性能。代码可在 https://github.com/hmhuy0/SPRINQL 获取。

发布时间: 10/14/2024

查看原文

“你说我的语言，我学得更好”：理解使用 LLM 生成的响应微调大型语言模型的优越性能

作者: Xuan Ren, Biao Wu, Lingqiao Liu

本文探讨了一个有趣的现象：使用大型语言模型 (LLM) 生成的响应微调大型语言模型 (LLM) 通常比使用人类生成的响应获得更好的结果，尤其是在推理任务中。我们进行了深入研究以了解为什么会发生这种情况。与人们普遍认为的这些现象是由于 LLM 生成的内容更详细的性质造成的这一观点相反，我们的研究确定了另一个促成因素：LLM 本质上对 LLM 生成的响应更加“熟悉”。这种熟悉性在微调前的困惑度降低中有所体现。我们设计了一系列实验来了解“熟悉度”的影响，我们的结论表明这种“熟悉度”对学习性能有重大影响。使用 LLM 生成的响应进行训练不仅可以提高性能，还可以帮助在特定任务上微调后保持模型在其他推理任务中的能力。

发布时间: 10/14/2024

查看原文

利用截断双Q学习中的估计偏差解决连续控制强化学习问题

作者: Niccol\`o Turcato, Alberto Sinigaglia, Alberto Dalla Libera, Ruggero Carli, Gian Antonio Susto

连续控制深度强化学习 (RL) 方法因估计偏差而导致次优策略。本文介绍了 RL 的创新方法，重点关注解决和利用深度双 Q 学习中 Actor-Critic 方法连续控制任务中的估计偏差。我们设计了一种偏差利用 (BE) 机制，在 RL 智能体训练期间动态选择最有利的估计偏差。大多数最先进的深度 RL 算法都可以配备 BE 机制，而不会影响性能或计算复杂度。我们在各种连续控制任务中的大量实验证明了我们方法的有效性。我们表明，配备该方法的 RL 算法可以匹配或超越其对应算法，尤其是在估计偏差显着影响学习的环境中。结果强调了在 RL 中偏差利用对提高策略学习的重要性。

发布时间: 10/14/2024

查看原文

更多智能体，就是你所需要的

作者: Junyou Li, Qin Zhang, Yangbin Yu, Qiang Fu, Deheng Ye

我们发现，仅仅通过一种采样投票的方法，大型语言模型（LLM）的性能就可以随着实例化代理数量的增加而提升。此外，这种被称为“代理森林”的方法与现有的复杂方法正交，可以进一步增强 LLM，而增强程度与任务难度相关。我们在各种 LLM 基准测试上进行了全面的实验，以验证我们的发现的存在，并研究有助于其发生的属性。我们的代码已公开发布在：https://github.com/MoreAgentsIsAllYouNeed/AgentForest

发布时间: 10/14/2024

查看原文

融合超声心动图图像和医疗记录以实现患者持续分层

作者: Nathan Painchaud, J\'er\'emie Stym-Popper, Pierre-Yves Courand, Nicolas Thome, Pierre-Marc Jodoin, Nicolas Duchateau, Olivier Bernard

深度学习能够从超声心动图序列中自动提取心功能描述符，如射血分数或应变。这些描述符提供了细粒度的信息，医生会结合临床记录中的更全局变量来评估患者的状况。借鉴应用于表格数据的最新Transformer模型，我们提出了一种方法，该方法考虑从医疗记录和超声心动图中提取的所有描述符，以学习一个难以表征连续体的血管病理学的表示，即高血压。我们的方法首先使用特定于模态的方法将每个变量投影到其自身的表示空间中。然后将这些标准化的多模态数据表示馈送到Transformer编码器，该编码器学习将它们合并成患者的综合表示，通过预测临床评分来完成此任务。这种分层任务被表述为序数分类，以在表示空间中强制执行病理连续体。我们在 239 名高血压患者的队列中观察到沿此连续体的主要趋势，为描述高血压对各种心脏功能描述符的影响提供了前所未有的细节。我们的分析表明：i) XTab 基础模型的架构即使在数据量有限的情况下（少于 200 个训练样本）也能达到出色的性能（98% 的 AUROC）；ii) 人群之间的分层在训练之间是可重复的（在 3.6% 的 MAE 内）；iii) 描述符中出现了模式，其中一些模式与已建立的高血压生理知识一致，而另一些模式则可能为更全面地了解这种病理铺平道路。

发布时间: 10/14/2024

查看原文

基于激活信标的长文本压缩

作者: Peitian Zhang, Zheng Liu, Shitao Xiao, Ninglu Shao, Qiwei Ye, Zhicheng Dou

长文本压缩是一个关键的研究问题，因为它对于降低与大型语言模型 (LLM) 相关的巨大计算和内存成本至关重要。在本文中，我们提出了 Activation Beacon，一个用于基于 Transformer 的 LLM 的插件模块，旨在有效、高效和灵活地压缩长文本。为了实现这一目标，我们的方法引入了以下技术设计：1) 我们直接压缩激活值（即每一层的键和值），而不是利用软提示来传递信息（这是封装长文本中复杂信息的重大瓶颈）。2) 我们定制了压缩工作流程，其中每个细粒度的输入单元被逐步压缩，从而在训练和推理过程中实现高质量的压缩和高效的计算。3) 我们通过基于压缩的自回归训练模型，充分利用纯文本和指令数据来优化模型的压缩性能。4) 在训练过程中，我们在每一步随机采样一个压缩率，教导模型支持各种压缩配置。我们对各种长文本任务进行了广泛的评估，这些任务的长度（例如 128K）可能远远超过最大训练长度 (20K)，例如文档理解、小样本学习和 Needle-in-a-Haystack。虽然现有方法难以处理这些具有挑战性的任务，但 Activation Beacon 在各种情况下保持了与未压缩基线相当的性能，推理时间提高了 2 倍，KV 缓存的内存成本降低了 8 倍。我们的数据、模型和代码已在 \url{https://github.com/FlagOpen/FlagEmbedding/} 发布。

发布时间: 10/14/2024

查看原文

面向视觉语言模型的难度无关高效迁移学习

作者: Yongjin Yang, Jongwoo Ko, Se-Young Yun

近年来，CLIP 等视觉语言模型（VLM）在各种下游任务中展现出了非凡的适用性，包括零样本图像分类。最近，利用提示或适配器进行高效迁移学习 (ETL) 越来越受到关注，因为它们可以有效地适应下游任务。然而，以往的研究忽略了不同下游任务迁移难度的挑战。在本文中，我们对每种 ETL 方法在迁移难度方面的表现进行了实证分析。我们的观察表明，在难度较高的领域中，利用视觉提示和文本适配器对于可适应性和泛化能力至关重要。此外，通过应用自适应集成方法，将任务适应的 VLM 与预训练的 VLM 集成，并在难度较低的领域中战略性地利用更多通用知识，而在难度较高的领域中利用更少的通用知识，我们可以在两种类型的领域中始终提高性能。基于这些观察结果，我们提出了一种自适应集成方法，该方法将视觉提示和文本适配器与预训练的 VLM 相结合，并根据迁移难度进行调整，以实现任何目标领域的最佳性能。通过对广泛基准的实验，我们的方法始终优于所有基线，特别是在看不见的任务上，证明了其有效性。

发布时间: 10/14/2024

查看原文