arXiv 论文列表

作者: Anneketh Vij, Changhao Liu, Rahul Anil Nair, Theodore Eugene Ho, Edward Shi, Ayan Bhowmick

arXiv:2502.02028v2 宣告类型: 替换-交叉摘要：本研究通过细调各种非常小的语言模型，对食谱生成任务进行了探索和研究，重点在于开发稳健的评估指标，并在不同语言模型中比较开放式食谱生成任务的表现。本研究对多种模型架构进行了广泛的实验，从T5-small（Raffel等，2023）和SmolLM-135M（Allal等，2024）到Phi-2（科研团队，2023），实施了传统NLP指标和自定义领域特定评估指标。我们的新型评估框架引入了针对内容质量的食谱特定指标，并提出了过敏原替代的方法。结果显示，虽然较大的模型通常在标准指标上表现更好，但在考虑领域特定指标时，模型大小与食谱质量之间的关系更为复杂。经过微调的SmolLM-360M和SmolLM-1.7B在大小不同的情况下仍表现出相当的性能，而微调Phi-2在食谱生成方面的表现存在明显局限，尽管其参数量更大。综合评估框架和过敏原替代系统为未来在食谱生成和需要领域专业知识和安全考虑的更广泛NLG任务中的研究提供了宝贵的见解。

发布时间: 2/18/2025

查看原文

VidSketch：基于手绘草图的视频生成与扩散控制

作者: Lifan Jiang, Shuang Chen, Boxi Wu, Xiaotong Guan, Jiahui Zhang

arXiv:2502.01101v2 更新类型: replace-cross 摘要：随着生成式人工智能的进步，先前的研究已经实现了从手绘草图生成美观图像的任务，满足了公众的绘图需求。然而，这些方法仅限于生成静态图像，缺乏使用手绘草图控制视频动画生成的能力。为了解决这一问题，我们提出了VidSketch，这是第一个能够直接从任意数量的手绘草图和简单的文本提示生成高质量视频动画的方法，从而弥合了普通用户与专业艺术家之间的差距。具体而言，我们的方法引入了一种基于层次的草图控制策略，以在生成过程中自动调整草图的指导强度，以适应不同绘画技能的用户。此外，设计了一种时空注意力机制，以增强生成视频动画的时空一致性，显著提高了帧间的一致性。您可以在我们的官方网站上找到更多详细案例。

发布时间: 2/18/2025

查看原文

MergeME：同构和异构MoE的模型合并技术

作者: Yuhang Zhou, Giannis Karamanolakis, Victor Soto, Anna Rumshisky, Mayank Kulkarni, Furong Huang, Wei Ai, Jianhua Lu

arXiv:2502.00997v3 宣布类型: replace-cross 摘要：近年来，专门的大型语言模型（LLMs）在数学推理和编程等领域取得的成功，引发了将这些专家级LLMs合并为一个统一的专家混合模型（MoE）的兴趣，目标是在每个领域增强性能的同时，保持对通用任务的有效性。然而，有效地合并专家模型仍然是一个开放性挑战，尤其是对于具有高度不同权重参数或不同架构的模型。目前最先进的MoE合并方法只能处理同构模型架构，并依赖于简单的未加权平均来合并专家层，这种方法无法解决参数干扰，并且需要对合并的MoE进行大量微调以恢复性能。为了解决这些限制，本论文介绍了新的MoE合并技术，包括缓解参数干扰的策略、减少MoE微调需求的路由启发式方法以及一种合并具有不同架构专家的新方法。在多个领域的广泛实验表明，我们提出的方法有效，减少了微调成本，提高了相对于最先进的方法的性能，并扩展了MoE合并的应用范围。

发布时间: 2/18/2025

查看原文

ML-Dev-Bench：对ML开发工作流中AI代理的比较分析

作者: Harshith Padigela, Chintan Shah, Dinkar Juyal

arXiv:2502.00964v2 宣告类型: replace-cross 摘要: 在本报告中，我们介绍了ML-Dev-Bench，这是一个旨在测试在实际机器学习开发任务上代理能力的基准测试。虽然现有的基准测试主要关注单独的编码任务或Kaggle风格的比赛，但ML-Dev-Bench 测试了代理处理整个机器学习开发工作流的全部复杂性的能力。该基准测试评估了数据集处理、模型训练、改进现有模型、调试以及与流行ML工具集成等方面的关键性能。我们对三种代理——ReAct、Openhands 和 AIDE——进行了30项多样化的任务评估，提供了它们在处理实际机器学习开发挑战方面的强项和局限性的见解。

发布时间: 2/18/2025

查看原文

大型多模态模型能解决科学图表的 caption 生成问题吗？来自 SCICAP 挑战 2023 的教训

作者: Ting-Yao E. Hsu, Yi-Li Hsu, Shaurya Rohatgi, Chieh-Yang Huang, Ho Yin Sam Ng, Ryan Rossi, Sungchul Kim, Tong Yu, Lun-Wei Ku, C. Lee Giles, Ting-Hao K. Huang

arXiv:2501.19353v2 通知类型: 替换交叉摘要: 自2021年SCICAP数据集发布以来，研究界在生成学术文章中科学图表的描述中取得了显著进展。2023年，首次举办了SCICAP挑战，邀请全球团队使用扩展的SCICAP数据集，开发适用于各种学术领域的不同图表类型的描述模型。与此同时，文本生成模型取得了快速进步，许多强大的预训练大模型（LMMs）涌现出来，在各种视觉和语言任务中展示了令人印象深刻的性能。本文概述了首次SCICAP挑战的情况，并详细描述了各种模型在该数据集上的表现，捕捉到该领域的现状。我们发现，专业编辑普遍更偏好GPT-4V生成的图表描述，而非其他所有模型甚至作者最初撰写的描述。基于这一关键发现，我们进行了详细的分析，以解决这个问题：先进的LMMs是否已解决科学图表描述任务？

发布时间: 2/18/2025

查看原文

3D重建鞋子以实现增强现实

作者: Pratik Shrestha, Sujan Kapali, Swikar Gautam, Vishal Pokharel, Santosh Giri

arXiv:2501.18643v2 Announce Type: replace-cross 摘要：本文介绍了一种基于移动设备的解决方案，该方案通过3D建模和增强现实(AR)增强在线购鞋体验，利用3D高斯斑点技术提高效率。该框架从2D图像生成逼真的3D鞋模型，平均峰值信噪比(PSNR)达到32，并通过智能手机实现沉浸式AR交互。作者创建了一个包含3120张图像的自定义鞋类分割数据集，最佳分割模型的交并比(IoU)得分为0.95。本文展示了3D建模和AR在提供逼真虚拟交互方面革命性影响的潜力，并适用于更广泛的时尚类别。

发布时间: 2/18/2025

查看原文

多模态适应与泛化的进步：从传统方法到基础模型

作者: Hao Dong, Moru Liu, Kaiyang Zhou, Eleni Chatzi, Juho Kannala, Cyrill Stachniss, Olga Fink

arXiv:2501.18592v3 展示类型: 替换-交叉摘要：在现实世界场景中，实现领域适应和泛化面临着重大挑战，因为模型必须适应或跨未知目标分布进行泛化。将这些能力扩展到未见过的多模态分布，即多模态领域的适应和泛化，由于不同模态的独特特征，更是增加了难度。近年来，已经在各个领域取得了显著进展，从动作识别到语义分割。此外，大型预训练多模态基础模型的出现，如CLIP，激发了许多利用这些模型提高适应性和泛化性能或将其适配到下游任务的研究工作。本文综述了从传统方法到基础模型的最新进展，涵盖如下内容：（1）多模态领域适应；（2）多模态测试时适应；（3）多模态领域泛化；（4）借助多模态基础模型的领域适应和泛化；以及（5）多模态基础模型的适配。对于每个主题，我们正式定义问题并全面回顾现有方法。另外，我们分析相关的数据集和应用，强调存在的挑战并指出潜在的未来研究方向。我们维护一个活跃的仓库，其中包含最新的文献，网址为 https://github.com/donghao51/Awesome-Multimodal-Adaptation。

发布时间: 2/18/2025

查看原文

WhiSPA: 语义上和心理上对齐的 Whisper 与自我监督对比学习及学生-教师学习

作者: Rajath Rao, Adithya Ganesan, Oscar Kjell, Jonah Luby, Akshay Raghavan, Scott Feltman, Whitney Ringwald, Ryan L. Boyd, Benjamin Luft, Camilo Ruggero, Neville Ryant, Roman Kotov, H. Andrew Schwartz

arXiv:2501.16344v2 通知类型: 替换-交叉摘要：当前的语音编码管道经常会依赖于额外的基于文本的语言模型（LM）以获得稳健的人类交流表示，即使最先进的语音到文本模型内部也包含语言模型。这项工作提出了一种方法，以改进内部音频模型的语言模型，使得后续的文本LM变得不再必要。我们引入了WhiSPA（Whisper具有语义和心理对齐），它利用了一个新的语音训练目标：对比损失，其中语言模型嵌入充当教师。使用超过50万段心理健康音频访谈，我们评估了将Whisper的潜在空间与文本自动编码器（SBERT）的语义表示以及从基本的心理维度（情感和个性）中派生的词汇嵌入对齐的效用。在自监督情感任务和下游的心理学任务中，WhiSPA超越了当前的语音编码器，分别实现了73.4%和83.8%的平均错误率降低。WhiSPA表明，在获得丰富的人类交流的心理表征时，不一定需要在语音到文本输出上运行后续的文本LM。

发布时间: 2/18/2025

查看原文

iFormer: 结合卷积神经网络和 Transformer 技术的移动应用版本

作者: Chuanyang Zheng

arXiv:2501.15369v2 更新类型: 替换-交叉摘要：我们提出了一种新的移动混合视觉网络家族，称为iFormer，专注于在移动应用中优化延迟和准确性。iFormer有效地结合了卷积的快速局部表示能力和自注意力的高效全局建模能力。局部交互是从将标准卷积网络，即ConvNeXt，转换设计出一种更轻量级的移动网络而来。我们引入的新移动调制注意力移除了MHA中的内存密集型操作，并采用了一种有效的调制机制来增强动态全局表示能力。我们在综合实验中证明，iFormer在各种任务中超过了现有的轻量级网络。值得注意的是，iFormer在iPhone 13上实现了ImageNet-1k的惊人Top-1准确性80.4%，延迟仅为1.10 ms，超越了在相似延迟约束下最近提出的MobileNetV4。此外，我们的方法在下游任务中显示出显著的改进，包括COCO目标检测、实例分割和ADE20k语义分割，同时仍能保持低延迟，适用于这些场景中的高分辨率输入。

发布时间: 2/18/2025

查看原文

基于选项ID的消除策略用于多项选择题

作者: Zhenhao Zhu, Bulou Liu, Qingyao Ai, Yiqun Liu

arXiv:2501.15175v2 提示类型: 替换交叉摘要：多项选择题（MCQs）是评估大型语言模型（LLMs）的一种流行且重要的任务。基于人们在回答MCQs时常用的方法，逐步排除法（PoE）已被提出作为一种有效的问题解决方法。现有的PoE方法通常分为两类：一类是让LLM直接选择错误选项，另一类是评分选项。然而，这两种方法都会导致高昂的计算成本，并且通常比直接使用选项ID回答MCQs的方法效果更差。为了应对这一问题，本文提出了一种基于选项ID的PoE方法。具体来说，我们的方法通过选择概率最低的选项ID来进行逐步排除。我们在零样本设置下对10种不同LLM在7个公开可用的数据集上进行了实验。实验结果表明，我们的方法显著提高了LLM的性能。进一步分析发现，逐步排除策略可以有效增强LLM的推理能力。此外，我们发现逐步排除也适用于少样本设置，并且可以与去偏方法结合使用，以进一步提升LLM的性能。

发布时间: 2/18/2025

查看原文