arXiv 论文列表

作者: Zijie Li, Henry Li, Yichun Shi, Amir Barati Farimani, Yuval Kluger, Linjie Yang, Peng Wang

arXiv:2501.00289v2 通知类型: 替换-交叉摘要：扩散模型在文本到图像生成中取得了巨大成功，但在视觉理解任务中仍落后于由自回归视觉语言模型主导的领域。我们提出了一种大规模的端到端多模态理解与生成扩散模型，该模型显著优于现有的多模态扩散模型，并且是首个能够支持全套视觉语言建模能力的模型。受多模态扩散变换器（MM-DiT）和离散扩散语言建模近期进展的启发，我们利用一种跨模态最大似然估计框架，在单一损失函数下同时训练图像和文本的条件似然性，该损失函数通过扩散变换器的两个分支进行反向传播。所得到的模型具有高度的灵活性，能够执行广泛的任务，包括图像生成、描述和视觉问答。我们的模型在与最近统一的图像理解和生成模型的性能上具有竞争力，这表明多模态扩散建模作为一种替代自回归下个词预测模型的有前途的替代方案的潜力。

发布时间: 4/3/2025

查看原文

奥林帕斯：计算机视觉任务的通用任务路由器

作者: Yuanze Lin, Yunsheng Li, Dongdong Chen, Weijian Xu, Ronald Clark, Philip H. S. Torr

arXiv:2412.09612v3 Announce Type: replace-cross 摘要：我们介绍了Olympus，这是一种新的方法，能够将多模态大规模语言模型（MLLMs）转换为一个统一的框架，能够处理广泛的计算机视觉任务。利用一个控制器MLLM，Olympus将超过20种专门的任务分配给专门的模块，这些任务涉及图像、视频和3D对象。基于指令的路由机制可以通过链接的动作流程来实现复杂的工作流程，而无需训练重型生成模型。Olympus很容易与现有的MLLMs集成，扩展其功能，同时保持相当的性能。实验结果表明，Olympus在20个任务上的平均路由准确率达到94.75%，在链接动作场景中的精细度达到91.82%，展示了其作为通用任务路由的有效性，能够解决各种计算机视觉任务。项目页面：http://yuanze-lin.me/Olympus_page/

发布时间: 4/3/2025

查看原文

基于知识的视觉问答中增强多模态LLM的自我反思性令牌

作者: Federico Cocchi, Nicholas Moratelli, Marcella Cornia, Lorenzo Baraldi, Rita Cucchiara

arXiv:2411.16863v2 宣告类型: replace-cross 摘要：多模态大语言模型（MLLMs）是大语言模型的自然扩展，用于处理多模态输入，结合文本和图像数据。由于它们能够处理涉及两种模态的复杂任务，因此它们最近受到了关注。然而，它们的有效性受限于训练期间获取的知识，这限制了它们的实际用途。在这项工作中，我们介绍了一种新的方法来增强MLLMs的适应性，通过集成外部知识来源。我们提出的模型，Reflective LLaVA（ReflectiVA），利用反射性令牌动态确定是否需要外部知识，并预测从外部数据库检索信息的相关性。令牌是按照两阶段两模型训练食谱进行训练的。这最终使MLLM能够在管理外部知识的同时保留流畅性和在不需要外部知识的任务上的性能。通过我们的实验，我们展示了ReflectiVA在基于知识的视觉问题回答中的有效性，突显了其与现有方法相比的优越性能。源代码和训练模型可以在https://aimagelab.github.io/ReflectiVA 公开获得。

发布时间: 4/3/2025

查看原文

场景aware音视频语音增强与选择性状态空间模型

作者: Xinyuan Qian, Jiaran Gao, Yaodan Zhang, Qiquan Zhang, Hexin Liu, Leibny Paola Garcia, Haizhou Li

arXiv:2411.07751v2 宣布类型: replace-cross 摘要：语音增强在各种应用中扮演着重要角色，而视觉信息的整合已被证明可以带来显著的优势。然而，当前大部分研究主要集中在面部和唇部运动的检查上，在发生遮挡或摄像机视角距离较远的情况下，这些面部和唇部运动可能受损或完全不可用。而环境中的上下文视觉线索已被忽视：例如，当我们听到狗叫声时，我们的大脑自然能够分辨并过滤掉狗叫声。为了解决这一问题，本文引入了一个新的任务，即SAV-SE。据我们所知，这是首次利用同步视频中的丰富上下文信息作为辅助线索来指示噪声类型，最终提高语音增强性能。具体而言，我们提出了VC-S$^2$E方法，该方法结合了Conformer和Mamba模块，利用它们各自的优点。我们在公开的MUSIC、AVSpeech和AudioSet数据集上进行了广泛的实验，结果表明VC-S$^2$E优于其他竞争方法。我们将会公开源代码。项目演示页面：https://AVSEPage.github.io/

发布时间: 4/3/2025

查看原文

Community FairGNN: 社区公平图神经网络

作者: Yonas Sium, Qi Li

arXiv:2411.04371v2 宣布类型: replace-cross 摘要：图神经网络（GNNs）已成为解决各种现实场景中图分析问题的主要方法。然而，由于节点属性和围绕节点的邻居，GNNs可能会对某些人口子群体产生有偏差的预测。当前关于GNN公平性的大部分研究主要集中在使用简化公平评估指标来去偏GNN，这可能会使人对公平性的认识产生误导。理解由于图结构的复杂性而可能引起的评估悖论对于开发有效的GNN去偏机制至关重要。在本文中，我们评估了当前GNN去偏方法在不公平性评估方面的效果。具体来说，我们引入了一种社区级别的策略来衡量GNN中的偏差，并在这一级别评估去偏方法。此外，我们引入了ComFairGNN，这是一种新颖的框架，旨在减轻GNN中的社区级别偏差。我们的方法采用了一个基于可学习核心集的去偏函数，该函数在GNN邻居聚合过程中解决了由于多样化局部邻域分布引起的偏差。在三个基准数据集上的全面评估表明，我们的模型在准确性和公平性指标上都表现出有效性。

发布时间: 4/3/2025

查看原文

MrT5：高效字节级语言模型的动态-token 合并

作者: Julie Kallini, Shikhar Murty, Christopher D. Manning, Christopher Potts, R\'obert Csord\'as

arXiv:2410.20771v3 宣告类型: replace-cross 摘要: 依赖于子词分词的模型存在重大缺陷，例如对字符级噪声（如拼写错误）的敏感性以及不同语言和文字系统的压缩率不一致。虽然像ByT5这样的字符级或字节级模型试图解决这些问题，但它们并没有广泛采用——在不进行分词处理原始字节流的情况下，会导致显著增加的序列长度，使得训练和推断效率低下。本文介绍了MrT5（MergeT5），这是ByT5的一个更有效的变体，在其编码器中集成了一个令牌删除机制，以动态缩短输入序列长度。经过固定数量的编码器层处理后，一个学习得到的删除门控确定哪些令牌将被删除，哪些将被保留用于后续层。MrT5有效地“合并”来自被删除令牌的关键信息到一个更紧凑的序列中，依赖于剩余令牌的上下文信息。在持续的预训练实验中，我们发现MrT5可以在最小影响性能（以字节/字节为单位衡量）的情况下，实现显著的推理运行时提升。此外，通过多语言训练，MrT5适应每种语言的拼写特征，学习特定于语言的压缩率。进一步而言，在下游评估任务如XNLI、TyDi QA以及字符级任务中，MrT5显示出了与ByT5相当的准确率，同时将序列长度减少多达75%。我们的方法为现有字节级模型的实际限制提供了解决方案。

发布时间: 4/3/2025

查看原文

Bench4Merge：一种针对实际密集交通中微互动车辆合并的综合基准

作者: Zhengming Wang, Junli Wang, Pengfei Li, Zhaohan Li, Chunyang Liu, Bo Zhang, Peng Li, Yilun Chen

arXiv:2410.15912v3 宣告类型: replace-cross 摘要：虽然自动驾驶的能力取得了快速进步，但在密集交通中汇入仍然是一个重大挑战。在这个场景下提出的许多运动规划方法难于评估。现有的大多数闭环模拟器依赖于基于规则的控制方法，其他车辆，这导致缺乏多样性和随机性，因此无法准确评估在高度互动场景下的运动规划能力。此外，传统的评估指标对于全面评估在密集交通中汇入的表现是不足的。为此，我们提出了一种闭环评估基准，用于评估在汇入场景下的运动规划能力。我们的方法涉及在大规模数据集中训练其他车辆，具有微观行为特征，显著增强了复杂性和多样性。此外，我们通过利用大型语言模型（LLMs）重构评估机制，以评估每辆自动驾驶车辆合并到主车道上的表现。广泛的实验和测试车辆部署已经展示了该基准的进展性。通过这个基准，我们得到了对现有方法的评估并发现了常见问题。该模拟环境和评估过程可以在 https://github.com/WZM5853/Bench4Merge 获取。

发布时间: 4/3/2025

查看原文

学习图量化分词器

作者: Limei Wang, Kaveh Hassani, Si Zhang, Dongqi Fu, Baichuan Yuan, Weilin Cong, Zhigang Hua, Hao Wu, Ning Yao, Bo Long

arXiv:2410.13798v2 宣告类型: replace-cross 摘要：Transformer 是基础模型的核心架构，其中领域特定的分词器使它们能够适应各种领域。图变压器（GTs）最近在几何深度学习中崭露头角，各种图学习任务中表现出色，优于图神经网络（GNNs）。然而，图的分词器的发展滞后于其他模态。为了解决这个问题，我们引入了 GQT（图量化分词器），通过利用多任务图自监督学习将分词器训练与 Transformer 训练分离，从而生成健壮且通用的图分词。此外，GQT 利用残差向量量化（RVQ）学习分层离散分词，显著减少了内存需求并提高了泛化能力。通过将 GQT 与分词调节结合，一个 Transformer 编码器在 22 个基准中的 20 个上实现了最佳性能，包括大规模同质和异质数据集。

发布时间: 4/3/2025

查看原文

EditRoom：参数化图扩散的LLM建模用于可组合的3D房间布局编辑

作者: Kaizhi Zheng, Xiaotong Chen, Xuehai He, Jing Gu, Linjie Li, Zhengyuan Yang, Kevin Lin, Jianfeng Wang, Lijuan Wang, Xin Eric Wang

arXiv:2410.12836v2 更新类型: 替换-交叉摘要：鉴于专业3D软件的学习曲线陡峭以及管理和处理大型3D资产所需的时间，语言引导的3D场景编辑在虚拟现实、增强现实和游戏等领域具有巨大的潜力。然而，近期的语言引导3D场景编辑方法要么需要人工干预，要么只关注外观修改而不支持全面的场景布局变化。针对这一问题，我们提出了一种名为EditRoom的统一框架，该框架能够通过自然语言命令执行多种布局编辑，无需人工干预。具体而言，EditRoom利用大型语言模型（LLMs）进行指令规划，并使用基于扩散的方法生成目标场景，支持六种类型的编辑：旋转、平移、缩放、替换、添加和删除。为了应对语言引导3D场景编辑数据的缺乏，我们开发了一个自动化流水线来扩充现有的3D场景合成数据集，并引入了包含83,000个编辑配对的EditRoom-DB大規模数据集，用于训练和评估。我们的实验表明，我们的方法在所有指标上都优于其他基线方法，表明在语言引导的场景布局编辑中具有更高的准确性和一致性。

发布时间: 4/3/2025

查看原文

文档ETL: 代理查询重写与评估以处理复杂文档

作者: Shreya Shankar, Tristan Chambers, Tarak Shah, Aditya G. Parameswaran, Eugene Wu

arXiv:2410.12189v3 通知类型: replace-cross 摘要：处理非结构化数据一直是数据处理中的一个持续性挑战。大型语言模型（LLMs）在这方面表现出潜力，导致了最近提出了一些声明式的框架来利用LLM处理非结构化数据。然而，这些框架主要关注在执行用户指定的操作时降低成本，而不是提高准确性，大多数操作都是按原样执行（在一个LLM调用中）。对于复杂的任务和数据而言，这是一种问题，因为即使经过优化提示，用户自定义操作的LLM输出也时常不准确。例如，LLM可能在处理冗长的法律文件时难以识别所有特定的条款，如不可抗力或赔偿条款，这需要分解数据、任务或两者。我们提出了DocETL系统，该系统优化了复杂的文档处理流水线，并考虑到LLM的不足之处。DocETL提供了一个声明性接口，让用户定义这些流水线，并采用基于代理的方法自动优化它们，利用新颖的基于代理的重写（我们称之为重写指令），以及一个优化和评估框架。我们引入了(i) 针对基于LLM的任务进行逻辑重写的流水线，(ii) 由代理指导的计划评估机制，该机制合成和协调特定任务的验证提示，以及(iii) 一种优化算法，该算法能够高效地找到有前景的计划，同时考虑基于代理的计划生成和评估的延迟。我们在四个不同的非结构化文档分析任务上的评估表明，DocETL找到了比精心设计的基线更准确25%到80%的计划，填补了非结构化数据分析中的关键缺口。DocETL在docetl.org上开源，并截至2025年3月，已在GitHub上积累了超过1700颗星，用户遍布多个领域。

发布时间: 4/3/2025

查看原文