arXiv 论文列表

作者: Fuchen Zheng, Xinyi Chen, Xuhang Chen, Haolun Li, Xiaojiao Guo, Guoheng Huang, Chi-Man Pun, Shoujun Zhou

医学图像分割是计算机视觉中一项至关重要的任务，它能够自动勾勒出解剖结构和病理特征，从而辅助临床医生进行诊断、治疗计划制定和疾病监测。值得注意的是，采用移位窗口自注意机制的Transformer模型已经展现出优异的性能。然而，它们对局部窗口注意的依赖限制了局部和全局上下文信息的融合，而这对于微小肿瘤和微型器官的分割至关重要。为了解决这一限制，我们提出了自适应语义分割网络（ASSNet），这是一种能够有效整合局部和全局特征以实现精确医学图像分割的Transformer架构。ASSNet包含一个基于Transformer的U型编码器-解码器网络。编码器利用五个分辨率的移位窗口自注意力机制提取多尺度特征，然后通过跳跃连接将这些特征传播到解码器。我们在编码器中引入了一个增强型多层感知器，以在特征提取过程中明确地建模长程依赖关系。考虑到传统对称编码器-解码器设计的局限性，我们提出了一种自适应特征融合（AFF）解码器来补充我们的编码器。该解码器包含三个关键组件：长程依赖（LRD）块、多尺度特征融合（MFF）块和自适应语义中心（ASC）块。这些组件协同作用，有效地融合了解码器提取的多尺度特征，同时捕获长程依赖关系并细化目标边界。在包括多器官、肝肿瘤和膀胱肿瘤分割在内的各种医学图像分割任务上的综合实验表明，ASSNet取得了最先进的结果。代码和模型可在以下网址获取：\url{https://github.com/lzeeorno/ASSNet}。

发布时间: 11/25/2024

查看原文

将多模态输入令牌混合器集成到基于Mamba的决策模型中：MetaMamba决策模型

作者: Wall Kim

基于状态空间模型（SSM）的序列建模在各种任务中已展现出超越Transformer的性能，这让人们期待其在离线强化学习（RL）中也能超越决策Transformer及其改进版本。然而，基于最先进SSM——Mamba的决策模型，却未能取得优于这些改进型决策Transformer的性能。我们假设这种局限性源于选择性扫描阶段的信息丢失。为了解决这个问题，我们提出了决策元Mamba（DMM），它在Mamba的输入层增加了令牌混合器。该混合器明确地考虑了离线RL输入的多模态特性，包括状态、动作和剩余回报。DMM在提高性能的同时，与之前的模型相比显著减少了参数数量。值得注意的是，使用简单的线性令牌混合器也能取得类似的性能提升，这强调了保留来自相邻时间步的信息比令牌混合器的具体设计本身更重要。这种对Mamba输入层的改进代表了对Transformer中使用的传统基于时间戳的编码方法的突破。通过增强Mamba在离线RL中的性能（其特点是内存效率高和推理速度快），这项工作为其在未来RL研究中的更广泛应用开辟了新的途径。

发布时间: 11/25/2024

查看原文

Scored.co 用户原型与讨论特征分析

作者: Andrea Failla, Salvatore Citraro, Giulio Rossetti, Francesco Cauteruccio

近年来，社交平台的激增彻底改变了个人互动、组织和信息共享的方式。在这种情况下，我们经历了互动规模和复杂性的空前增长，同时，对一些边缘社交平台的研究却很少。本文提出了一个用于刻画社交超网络中节点和超边的多维度框架，重点关注鲜为人知的另类右翼平台Scored.co。我们的方法整合了基于超网络表示研究高阶交互的可能性，以及各种节点特征，例如用户活动、情绪和毒性，旨在定义不同的用户原型并理解它们在网络中的作用。利用Scored.co的综合数据集，我们分析了这些原型随时间的动态变化，并探讨了它们在社区内的互动和影响。该框架的多功能性允许对单个用户行为和更广泛的社会结构进行详细分析。我们的研究结果强调了高阶交互在理解社会动态中的重要性，为复杂在线环境中出现的角色和行为提供了新的见解。

发布时间: 11/25/2024

查看原文

基于正负样本学习从演示中学习通用的连续约束

作者: Baiyu Peng, Aude Billard

针对广泛的现实世界任务进行规划，需要了解并编写所有约束条件。然而，在某些情况下，这些约束条件未知或难以准确指定。一种可能的解决方案是从专家演示中推断未知约束。大多数先前的工作仅限于学习简单的线性约束，或者需要对真实的约束参数化或环境模型有深入的了解。为了解决这些问题，本文提出了一种基于正负样本学习 (PU learning) 的方法，用于从演示中推断连续的、任意的且可能是非线性的约束。从正负样本学习的角度来看，我们将演示中的所有数据视为正样本（可行数据），并学习一个（次）最优策略来生成高奖励但可能不可行的轨迹，这些轨迹作为包含可行和不可行状态的未标记数据。在对数据分布的假设下，通过后处理正负样本学习技术，从这两个数据集学习可行-不可行分类器（即约束模型）。整个方法采用迭代框架，在更新策略（生成和选择更高奖励的策略）和更新约束模型之间交替进行。此外，还引入了一个内存缓冲区来记录和重用先前迭代的样本，以防止遗忘。该方法的有效性在两个 Mujoco 环境中得到验证，成功地推断出连续非线性约束，并在约束精度和策略安全性方面优于基线方法。

发布时间: 11/25/2024

查看原文

拒绝的艺术：语言模型中的上下文不遵从

作者: Faeze Brahman, Sachin Kumar, Vidhisha Balachandran, Pradeep Dasigi, Valentina Pyatkin, Abhilasha Ravichander, Sarah Wiegreffe, Nouha Dziri, Khyathi Chandu, Jack Hessel, Yulia Tsvetkov, Noah A. Smith, Yejin Choi, Hannaneh Hajishirzi

基于聊天的语言模型旨在提供帮助，但它们不应遵守用户的每一个请求。虽然大多数现有工作主要关注拒绝“不安全”的查询，但我们认为不遵守的范围应该扩大。我们引入了一个全面的情境化不遵守分类法，描述了模型何时以及如何不应遵守用户请求。我们的分类法涵盖了广泛的类别，包括不完整、不支持、不确定和人性化请求（以及不安全请求）。为了测试语言模型的不遵守能力，我们使用此分类法开发了一个包含 1000 个不遵守提示的新评估套件。我们发现，大多数现有模型在某些先前未充分研究的类别中显示出明显较高的遵从率，例如 GPT-4 错误地遵守了多达 30% 的请求。为了解决这些差距，我们探索了使用合成生成的请求训练集和预期不符合响应的不同训练策略。我们的实验表明，虽然直接微调指令微调模型可能导致过度拒绝和整体能力下降，但使用低秩适配器等参数高效方法有助于在适当的不遵守和其他能力之间取得良好的平衡。

发布时间: 11/25/2024

查看原文

GTA：通用工具代理基准测试

作者: Jize Wang, Zerun Ma, Yining Li, Songyang Zhang, Cailian Chen, Kai Chen, Xinyi Le

大型语言模型（LLM）与各种工具相集成以开发通用代理已成为研究重点。但这对LLM的工具使用能力提出了挑战。然而，现有工具使用评估与现实场景之间存在明显差距。目前的评估通常使用AI生成的查询、单步任务、虚拟工具和纯文本交互，无法有效揭示代理在现实世界中解决问题的能力。为了解决这个问题，我们提出了GTA，一个用于通用工具代理的基准测试，它具有三个主要方面：（i）真实的使用者查询：人工编写的查询具有简单的现实世界目标，但工具使用隐含，需要LLM推理合适的工具并规划解决方案步骤。（ii）实际部署的工具：一个配备了感知、操作、逻辑和创造力类别工具的评估平台，用于评估代理的实际任务执行性能。（iii）真实的多种模态输入：真实的图像文件，例如空间场景、网页截图、表格、代码片段以及打印/手写材料，用作查询上下文，以紧密贴合现实世界场景。我们设计了229个现实世界任务和可执行工具链来评估主流LLM。我们的研究结果表明，现实世界的用户查询对现有的LLM来说具有挑战性，GPT-4完成的任务不到50%，大多数LLM的完成率低于25%。此评估揭示了当前LLM在现实世界场景中工具使用能力的瓶颈，这为推进通用工具代理的发展提供了未来方向。代码和数据集可在https://github.com/open-compass/GTA获取。

发布时间: 11/25/2024

查看原文

更具辨识度的黑色女性面孔导致视觉语言模型中刻板印象的增加

作者: Messi H. J. Lee, Jacob M. Montgomery, Calvin K. Lai

视觉语言模型（VLMs），例如 GPT-4V，巧妙地整合了文本和视觉模式。这种整合增强了大型语言模型模拟人类感知的能力，使其能够处理图像输入。然而，尽管 VLMs 具有先进的功能，但人们担心 VLMs 会以更普遍和难以缓解的方式继承两种模式的偏见。我们的研究探讨了 VLMs 如何延续关于种族和性别的同质性偏见和特征关联。当被提示根据人脸图像编写故事时，GPT-4V 对附属种族和性别群体的描述比优势群体更加同质化，并且依赖于不同但通常是积极的刻板印象。重要的是，VLM 的刻板印象是由视觉线索而非仅仅是群体成员身份驱动的，因此，那些被评为更典型黑人和女性的面孔更容易受到刻板印象的影响。这些发现表明，VLMs 可能将与种族和性别群体相关的细微视觉线索与刻板印象联系起来，这可能难以缓解。我们探讨了这种行为背后的根本原因，并讨论了其影响，并强调了在 VLMs 开始模拟人类感知时解决这些偏见的重要性。

发布时间: 11/25/2024

查看原文

深度视觉模型的一个根本性局限：缺乏空间注意力

作者: Ali Borji

这篇论文的主要目的是强调当前深度学习模型，特别是视觉模型的一个重要局限性。与人类视觉高效地只选择必要的视觉区域进行进一步处理，从而实现高速和低功耗不同，深度视觉模型会处理整个图像。本文从更广泛的角度探讨了这个问题，并提出了两种解决方案，这些方案可能为下一代更高效的视觉模型铺平道路。第一种方案是选择性地将卷积和池化操作应用于改变的区域，并将变化图发送到后续层。该图指示哪些计算需要重复。第二种方案是仅由语义分割模型处理修改后的区域，并将生成的片段插入到先前输出图的相应区域。代码可在https://github.com/aliborji/spatial_attention 获取。

发布时间: 11/25/2024

查看原文

AdaZeta：一种用于内存高效的大型语言模型微调的自适应零阶张量列车适配方法

作者: Yifan Yang, Kai Zhen, Ershad Banijamal, Athanasios Mouchtaris, Zheng Zhang

大型语言模型（LLM）的微调在各种自然语言处理任务中取得了显著的性能提升，然而随着模型规模的不断增长，其内存需求也越来越高。为了解决这个问题，最近提出的内存高效零阶（MeZO）方法试图仅使用前向传播来微调LLM，从而避免了反向传播图的需求。然而，显著的性能下降和较高的发散风险限制了其广泛应用。在本文中，我们提出了自适应零阶张量列车自适应（AdaZeta）框架，专门用于提高ZO方法的性能和收敛性。为了提高维度相关的ZO估计精度，我们引入了一个快速前向、低参数的张量化适配器。为了解决大规模ZO微调任务中经常出现的发散问题，我们提出了一种自适应查询数量调度方案，以保证收敛性。在Roberta-Large和Llama-2-7B模型上的详细理论分析和大量实验结果证实了我们的AdaZeta框架在准确性、内存效率和收敛速度方面的有效性。

发布时间: 11/25/2024

查看原文

视觉语言模型智能体生成自身记忆：将经验提炼为具身化的思维程序

作者: Gabriel Sarch, Lawrence Jang, Michael J. Tarr, William W. Cohen, Kenneth Marino, Katerina Fragkiadaki

大型生成语言模型和视觉语言模型（LLM和VLM）擅长于少量样本的上下文学习，用于决策和指令遵循。然而，它们需要在其上下文窗口中具有高质量的示例演示。这项工作探讨了：LLM和VLM能否从通用的、次优的演示中生成自己的示例？我们提出了上下文抽象学习（ICAL）方法，该方法从次优演示和人为反馈中构建多模态经验的记忆。给定可能包含低效或错误的任务演示，VLM通过纠正低效操作并注释认知抽象（因果关系、对象状态变化、时间子目标和与任务相关的视觉元素）将轨迹抽象成通用的思维程序。这些思维程序通过人为反馈迭代改进，同时智能体在类似环境中执行轨迹。生成的示例显著提高了增强检索的LLM和VLM智能体的决策能力。此外，随着智能体示例库的增长，它变得更高效，减少了对人为反馈的依赖，并且每个演示所需的交互环境更少。我们的ICAL智能体在TEACh的基于对话的指令遵循、VisualWebArena的多模态网络智能体以及Ego4D的动作预测方面超越了最先进水平。在TEACh中，我们实现了目标条件成功率12.6%的提升。在VisualWebArena中，我们的任务成功率超过了少量样本的GPT4V。在Ego4D动作预测中，我们优于少量样本的GPT-4V，并且与监督模型相比具有竞争力。我们展示了微调我们增强检索的上下文智能体可以带来额外的改进。我们的方法显著减少了对人工提示工程的依赖，并且始终优于缺乏此类思维程序的动作计划的上下文学习。

发布时间: 11/25/2024

查看原文