arXiv 论文列表

多模态视觉基础模型在临床皮肤科的应用

作者: Siyuan Yan, Zhen Yu, Clare Primiero, Cristina Vico-Alonso, Zhonghua Wang, Litao Yang, Philipp Tschandl, Ming Hu, Lie Ju, Gin Tan, Vincent Tang, Aik Beng Ng, David Powell, Paul Bonnington, Simon See, Elisabetta Magnaterra, Peter Ferguson, Jennifer Nguyen, Pascale Guitera, Jose Banuls, Monika Janda, Victoria Mar, Harald Kittler, H. Peter Soyer, Zongyuan Ge

arXiv:2410.15038v2 通知类型: 替换-跨领域摘要：诊断和治疗皮肤疾病需要跨领域的高级视觉技能，并且能够从多种成像模态中综合信息。尽管当前的深度学习模型在如从皮肤镜图像诊断皮肤癌等特定任务上表现出色，但在满足临床实践中复杂的、多模态要求方面仍存在困难。在这里，我们介绍了一种名为PanDerm的多模态皮肤科基础模型，通过在来自4种成像模态的11个临床机构的超过200万张真实世界皮肤疾病图像上进行自我监督学习预训练而成。我们对PanDerm进行了28个多样化的基准测试评估，包括皮肤癌筛查、风险分层、常见和罕见皮肤状况的鉴别诊断、病灶分割、纵向监测、以及转移预测和预后。PanDerm在所有评估任务上均实现了最先进的性能，常常仅使用10%的标记数据就能超越现有模型。我们进行了3项读者研究以评估PanDerm在临床中的潜在实用性。通过纵向分析，PanDerm在早期黑色素瘤检测方面比临床医生提高了10.2%的表现；在皮肤镜图像上的皮肤癌诊断准确性提高了11%；并且在128种皮肤状况的临床照片上提高了非皮肤科医疗提供者的鉴别诊断能力16.5%。这些结果表明，PanDerm有潜力在各种临床场景中改善患者护理，并且作为一种在其他医学专科开发多模态基础模型的模型，有可能加速AI支持在医疗保健领域的应用。

发布时间: 3/27/2025

查看原文

DAWN：动态帧头像与非自回归扩散框架在生成说话头像视频中的应用

作者: Hanbo Cheng, Limin Lin, Chenyu Liu, Pengcheng Xia, Pengfei Hu, Jiefeng Ma, Jun Du, Jia Pan

arXiv:2410.13726v3 Announce Type: replace-cross 摘要：生成对话头部旨在从单一肖像和语音音频片段中生成生动且现实的对话头部视频。尽管基于扩散的对话头部生成已经取得了显著进展，但几乎所有方法都依赖于自回归策略，这些策略在当前生成步骤之外受限于有限的上下文利用、错误累积以及生成速度较慢。为了解决这些挑战，我们提出了DAWN（动态帧Avatar非自回归扩散）框架，该框架能够一次性生成动态长度的视频序列。具体来说，它由两个主要组件组成：（1）受音频驱动的整体面部动态生成在潜在运动空间中，以及（2）受音频驱动的头部姿态和眨眼生成。大量实验表明，我们的方法生成了真实且生动的视频，具有精确的唇部运动和自然的姿态/眨眼动作。此外，DAWN 具有较高的生成速度，表现出强大的外推能力，确保了高质量长视频的稳定生成。这些结果突出了DAWN在对话头部视频生成领域的巨大潜力和潜在影响。此外，我们希望DAWN能激发对扩散模型中非自回归方法的进一步探索。我们的代码将在https://github.com/Hanbo-Cheng/DAWN-pytorch公开提供。

发布时间: 3/27/2025

查看原文

机器人操作中的自回归动作序列学习

作者: Xinyu Zhang, Yuhan Liu, Haonan Chang, Liam Schramm, Abdeslam Boularias

arXiv:2410.03132v5 宣告类型: 替换交叉摘要: 设计一种在各种不同的机器人和任务配置下都能表现出色的通用策略架构仍然是一个关键挑战。在这项工作中，我们通过将机器人动作表示为顺序数据，并通过自回归序列建模生成动作来解决这个问题。现有的自回归架构按顺序生成末端执行器的航点，作为语言建模中的词元，这限制了它们在低频控制任务中的应用。与语言不同，机器人动作是异构的，并且经常包含连续值——例如关节位置、2D像素坐标和末端执行器姿态——这些值不太适合基于语言的建模。基于这一见解，我们引入了一个简单的改进：我们将因果变压器的一次性单词预测扩展为支持单步骤中预测不同数量的词元，通过我们的块因果变压器（CCT）。这一改进使策略在各种不同控制频率的任务中表现出更强的鲁棒性，减少了自回归步骤的效率，并导致混合动作序列设计，通过混合不同类型的动作，并为每种动作类型使用不同的块大小。基于CCT，我们提出了自回归策略（ARP）架构，该架构通过生成混合动作序列来解决操作任务。我们在包括Push-T、ALOHA和RLBench在内的各种机器人操作环境上评估了ARP，并展示了ARP作为一种通用架构，在所有测试基准中与环境特定的最新技术相匹配或表现更好，同时在计算和参数量上更具效率。我们的实地机器人演示视频、所有源代码和ARP的预训练模型可以在 http://github.com/mlzxy/arp 找到。

发布时间: 3/27/2025

查看原文

Retro-li：支持噪声相似性搜索和领域偏移泛化的小型规模检索增强生成

作者: Gentiana Rashiti, Geethan Karunaratne, Mrinmaya Sachan, Abu Sebastian, Abbas Rahimi

arXiv:2410.00004v2 通知类型: 替换-交叉摘要: 回溯等检索增强生成(RAG)系统已被证明通过从包含万亿条条目的非参数记忆数据库中检索，可以提高语言建模能力并减少有毒性和幻觉现象。我们介绍了回溯-li，展示了即使使用小型数据库，检索也可以提供帮助，但要求在较小且因此更稀疏的非参数记忆中搜索时更具准确性和更好的邻近性。这可以通过使用适当的语义相似性搜索来满足。我们还首次提出对非参数记忆进行正则化：在推理过程中邻近搜索操作噪声较大时，它可以显著降低困惑度；在出现领域转移时，它可以提高泛化能力。我们还展示了回溯-li的非参数记忆可以潜在地在模拟内存计算硬件上实现，在检索邻近项时具有O(1)的搜索时间，并且不会造成性能损失（<1%）。我们的代码可在以下地址获得：https://github.com/IBM/Retrieval-Enhanced-Transformer-Little。

发布时间: 3/27/2025

查看原文

基于语义关键点的通用服装 manipulation

作者: Yuhong Deng, David Hsu

arXiv:2408.08160v3 宣布类型: 替换-交叉摘要：衣物操作是家庭机器人的一项关键能力；但由于可变形织物的复杂高维几何结构，现有的方法往往局限于特定任务，如折叠或摊平。本文提出了用于通用衣物操作的 CLASP (Clothes manipulation with Semantic keyPoints)，使机器人能够对不同类型的衣物执行多种操作任务。CLASP 的关键思想是语义关键点——例如，“右肩”、“左袖”等，这是一种同时适用于感知和行动的稀疏空间语义表示。衣物的语义关键点可以从深度图像中有效提取，并足以表示广泛的衣物操作策略。CLASP 利用语义关键点在具有两层层次结构的任务规划和低级动作执行之间搭建桥梁。广泛的仿真实验表明，CLASP 在多种已见和未见任务中均优于基线方法。此外，对 Kinova 双臂系统进行的四项不同任务——折叠、摊平、悬挂和放置——的实验进一步证实了 CLASP 在真实机器人上的性能。

发布时间: 3/27/2025

查看原文

BRIGHT：一个富有挑战性的用于推理密集型检索的基准测试

作者: Hongjin Su, Howard Yen, Mengzhou Xia, Weijia Shi, Niklas Muennighoff, Han-yu Wang, Haisu Liu, Quan Shi, Zachary S. Siegel, Michael Tang, Ruoxi Sun, Jinsung Yoon, Sercan O. Arik, Danqi Chen, Tao Yu

arXiv:2407.12883v4 提取类型: replace-cross 摘要: 现有的检索基准主要由信息查询组成（例如，来自搜索引擎的汇总问题），在这种情况下，基于关键字或语义的检索通常就足够了。然而，许多复杂的现实世界查询需要深入的推理来识别远远超出表面匹配的相关文档。例如，查找编程问题的文档需要理解涉及的功能的逻辑和语法。为了更好地在这些具有挑战性的查询上测试检索，我们引入了 BRIGHT，这是第一个需要进行深入推理以检索相关文档的文本检索基准。我们的数据集包含 1,384 条来自各个领域的现实世界查询，涵盖经济、心理学、数学和编码等领域。这些查询源自自然发生和精心筛选的人类数据。广泛评估表明，即使是最先进的检索模型在 BRIGHT 上的表现也很差。MEDEVIB 领先排行榜（Muennighoff 等人，2023 年）上的 SFR-Embedding-Mistral（Meng 等人，2024 年），在 MTEB 上取得 59.0 nDCG@10 的成绩，但在 BRIGHT 上仅取得 18.3 的 nDCG@10。我们展示了在查询中明确地进行推理可以提高检索性能多达 12.2 分。此外，从表现最好的检索器检索到的文章还能提升问题回答性能。我们认为 BRIGHT 为未来在更现实和更具挑战性的环境下研究检索系统铺平了道路。

发布时间: 3/27/2025

查看原文

Fantastic 版权怪兽及其（不）生成方法

作者: Luxi He, Yangsibo Huang, Weijia Shi, Tinghao Xie, Haotian Liu, Yue Wang, Luke Zettlemoyer, Chiyuan Zhang, Danqi Chen, Peter Henderson

arXiv:2406.14526v2 宣布类型: replace-cross 摘要：最近的研究表明，图像和视频生成模型可以被指导复制其训练数据中的版权内容，这引发了严重的版权侵权法律问题。受版权保护的角色（例如，马里奥、蝙蝠侠）带来了巨大的挑战：已经有至少一起诉讼基于生成这些角色赔偿了损失。因此，商业服务如 DALL-E 已开始部署干预措施。然而，很少有研究系统地探讨这些问题：（1）用户是否容易无意中指导模型生成受版权保护的角色？；（2）现有的缓解策略有多有效？为了回答这些问题，我们介绍了一个新的评估框架，该框架使用评估指标来衡量生成图像与受版权保护角色的相似程度以及与用户意图的一致性，基于来自不同工作室和地区的一系列受欢迎的受版权保护角色集。我们展示了即使角色名称未明确提到，最先进的图像和视频生成模型仍然可以生成角色，有时只需要两个通用关键词（例如，使用“电子游戏、水管工”始终生成任天堂的马里奥角色）。我们还介绍了半自动技术来识别触发角色生成的关键词或描述。使用这个框架，我们评估了缓解策略，包括重新写提示和我们提出的新方法。我们的发现表明，通常的方法，如 DALL-E 的重新写提示，在单独使用时是不够的，并需要补充策略，如否定提示。我们的工作为关于版权缓解策略的讨论提供了实证依据，并为模型部署者实施这些保障措施提供可操作性的见解。

发布时间: 3/27/2025

查看原文

基于特征结构化实现细粒度领域泛化

作者: Wenlong Yu, Dongyue Chen, Qilong Wang, Qinghua Hu

arXiv:2406.09166v3 宣告类型: replace-cross 摘要：细粒度领域泛化（FGDG）比传统的领域泛化（DG）任务更具挑战性，因为它的小类间差异和相对大的类内差异。当领域分布发生变化时，细微特征的脆弱性会导致模型性能严重下降。然而，人类天生具有将知识泛化到分布外数据的能力，利用从类别共性和特定性中涌现出的结构化多粒度知识。同样地，我们提出了一种特征结构化领域泛化（FSDG）模型，在该模型中，特征经历结构化，分为普通、特定和共因部分，并与相关的语义概念和谐对齐，以提高FGDG中的性能。具体而言，特征结构化（FS）是通过五种约束的联合优化实现的：应用于拆分部分的去相关函数、三种确保常见特征一致性与特定特征独特性的约束，以及一个预测校准项。通过施加这些规定，FSDG 被促使基于多粒度知识拆分和对齐特征，从而帮助在类别间建立坚固的细微区别。通过在三个基准数据集上的广泛实验，FSDG 优于现有最先进的方法，FGDG 性能平均提高 6.2%。此外，对共享概念与模型通道之间显式概念匹配强度的可解释性分析，以及在各种主流模型架构上的实验，证实了FS的有效性。

发布时间: 3/27/2025

查看原文

地球观测中的数据增强：一种扩散模型方法

作者: Tiago Sousa, Beno\^it Ries, Nicolas Guelfi

arXiv:2406.06218v2 更新类型: 替换-交叉摘要：高质量的地球观测（EO）图像对于准确的分析和明智的决策至关重要。然而，由于大气条件、季节变化和有限的地理覆盖面造成的数据稀缺性，阻碍了人工智能（AI）在EO中的有效应用。传统的数据增强技术依赖于基本的参数化图像变换， often 未能在关键语义轴上引入足够的多样性。这些轴包括自然变化如雪和洪水，人类影响如城市化和道路，以及灾害如野火和风暴，这限制了AI模型在EO应用中的准确性。为了解决这一问题，我们提出了一种四阶段数据增强方法，该方法结合了扩散模型以增强语义多样性。我们的方法利用元提示进行指令生成，利用视觉-语言模型进行丰富的图像描述，利用特定于EO的扩散模型微调，并进行迭代数据增强。使用四个增强技术进行的广泛实验表明，我们的方法在所有方法中一致性地表现更好，生成了语义多样化的EO图像并提高了AI模型的性能。

发布时间: 3/27/2025

查看原文

ManiCM：用于机器人操作的实时三维扩散策略一致性模型

作者: Guanxing Lu, Zifeng Gao, Tianxing Chen, Wenxun Dai, Ziwei Wang, Wenbo Ding, Yansong Tang

arXiv:2406.01586v2 机器人操作类型: 替换-交叉摘要：扩散模型已被验证为能够从自然图像生成到运动轨迹的复杂分布。最近基于扩散的方法在3D机器人操作任务中表现出色，但由于多步去噪步骤，特别是高维观测时，它们面临着严重的运行时效率低下问题。为了解决这个问题，我们提出了一种名为ManiCM的实时机器人操作模型，该模型对扩散过程施加了一致性约束，使得模型可以在单步推理中生成机器人动作。具体而言，我们基于点云输入，将一致的扩散过程形式化到机器人动作空间中，在任何沿着ODE轨迹的点上直接从原始动作去噪。为了建模这个过程，我们设计了一种一致性蒸馏技术，直接预测动作样本而不是预测视觉社区中的噪声，以实现低维动作流形的快速收敛。我们在Adroit和Metaworld的31个机器人操作任务上评估了ManiCM，结果显示，我们的方法将最先进的方法的平均推理速度加快了10倍，同时保持了竞争性的平均成功率。

发布时间: 3/27/2025

查看原文