arXiv:2504.13165v1 Announce Type: 相交领域
摘要:灵巧操作是机器人系统的一项基本能力,但由于硬件在精确度、紧凑性、力量和经济性之间的权衡限制了进步。现有控制方法在手部设计和应用方面需要做出妥协。然而,基于学习的方法为重新思考这些权衡提供了机会,特别是在解决肌腱驱动的执行和低成本材料难题方面。本文介绍了RUKA,一种紧凑、经济且功能强大的肌腱驱动人形手。RUKA 由3D打印部件和现成组件制成,具有5个手指和15个欠驱动自由度,允许各种类似人类的抓握。其肌腱驱动的执行机构使得在紧凑的人类大小的范围内实现强大的抓握。为解决控制难题,我们通过MANUS手套采集的动作捕捉数据学习关节到执行器和指尖到执行器模型,利用手部的形态准确性。广泛的评估表明,RUKA 在可达性、耐用性和强度方面优于其他机器人手。远程操作任务进一步展示了RUKA 的灵巧动作。RUKA 的开源设计和组装说明、代码和数据可在 https://ruka-hand.github.io/ 获取。
arXiv:2504.13151v1 交叉类型
摘要:我们如何知道新的机制可解释性方法是否实现了实际的进步?为了追求有意义和持久的评估标准,我们提出了MIB基准,该基准涵盖了四个任务和五个模型的两个轨。MIB偏向前者能够准确且简洁地恢复神经语言模型中相关因果路径或特定因果变量的方法。电路定位轨比较了能够定位执行任务最重要的模型组件及其之间连接的方法(例如:归因补丁或信息流路径)。因果变量定位轨则比较了能够特征化隐藏向量(例如:稀疏自编码器(SAEs)或分布式对齐搜索(DAS))并将模型特征与任务相关的因果变量定位的方法。使用MIB,我们发现归因和掩码优化方法在电路定位方面表现最佳。对于因果变量定位,我们发现监督DAS方法表现最佳,而SAE特征与神经元(即,隐藏向量的标准维度)相比并没有显示出更好的效果。这些发现表明,MIB能够进行有意义的方法比较,并增强我们对领域内确实取得了实际进步的信心。
arXiv:2504.13143v1 编辑类型:交叉
摘要:我们引入了$\texttt{Complex-Edit}$,这是一个综合基准,旨在系统地评估基于指令的图像编辑模型在不同复杂度指令下的表现。为了开发这个基准,我们利用GPT-4o自动生成大量多样化的编辑指令。我们的方法遵循一个清晰的“编辑链”管道:首先独立生成个体原子编辑任务,然后将其整合成连贯复杂的指令。此外,我们还引入了一套评估编辑性能各个方面的新颖度量标准,并提供了一个基于VLM的自动评估管道,支持大规模评估。我们的基准提供了几个重要见解:1)开源模型相对于专有闭源模型显著表现较差,随着指令复杂性的增加,性能差距也变得更加显著;2)增加指令的复杂性主要影响模型保留输入图像中的关键元素和保持整体美感的能力;3)将复杂的指令分解为一系列原子步骤,分步执行,会严重影响多个度量标准下的表现;4)直接编辑和分步序列方法的简单最佳选择策略(Best-of-N)可以提高结果;5)我们观察到了“合成数据的诅咒”现象:当合成数据参与模型训练时,随着编辑指令复杂性的增加,这些模型生成的编辑图像会显得越来越合成——这一现象在最新的GPT-4o输出中也同样出现。
arXiv:2504.13139v1 宣告类型: cross
摘要: 一系列语言模型(LM)应用需要生成符合句法或语义约束的文本。施加这些约束可以自然地被框架为概率条件,但在生成过程中,从所得到的分布生成文本(该分布可能与LM的基本分布相差甚远)通常是不可行的。在本文中,我们开发了一种基于顺序蒙特卡罗(SMC)的受控LM生成架构。我们的SMC框架允许我们在推理时灵活地纳入特定领域的约束,并在生成过程中根据新信息有效地重新分配计算资源。通过在四个具有挑战性的领域——数据科学中的Python代码生成、文本到SQL、目标推理和分子合成——上与多个替代方案和消融实验进行比较,我们证明,在很少增加额外开销的情况下,我们的方法可以让开源语言模型优于大小超过其8倍的模型,以及闭源的、微调过的模型。为了支持概率视角,我们展示了这些性能提升是由更好的后验分布近似所驱动的。我们的系统基于Lew等人(2023)的框架,并与该语言模型的概率编程语言集成,为用户提供了一种简单、可编程的方式来将SMC应用于广泛的受控生成问题。
arXiv:2504.13131v1 交叉公告类型:跨领域
摘要:本文概述了2025年NTIRE挑战赛中的短时用户生成内容(UGC)视频质量评估与增强。该挑战包含两个赛道:(i)高效视频质量评估(KVQ),和(ii)基于扩散的图像超分辨率(KwaiSR)。赛道1旨在推进轻量级和高效的视频质量评估(VQA)模型的发展,重点在于消除对模型堆栈、冗余权重以及其他在以往IQA/VQA比赛中昂贵的计算组件的依赖。赛道2引入了一个新的适用于单张图像超分辨率的短时UGC数据集,即KwaiSR数据集。它包含1800对合成生成的S-UGC图像对和1900张真实世界的S-UGC图像,并按照8:1:1的比例划分为训练集、验证集和测试集。挑战的主要目标是促进有利于Kwai和TikTok等短时UGC平台用户体验的研究。该挑战吸引了266名参与者并收到了18份有效的最终提交,附带相应的事实单,显著促进了短时UGC视频质量评估和图像超分辨率的进步。该项目已在https://github.com/lixinustc/KVQE-ChallengeCVPR-NTIRE2025公开可用。
arXiv:2504.13129v1 Announce Type: cross
摘要:我们提出了一种将科学知识整合到生成模型中的新方法,从而增强其在图像合成中的真实性和一致性。首先,我们引入了Science-T2I,这是一个包含9000个提示和20000幅图像对的专家注释对抗性数据集,涵盖了广泛的科学知识类别。利用Science-T2I,我们提出了SciScore,这是一个端到端的奖励模型,基于科学知识对生成图像的评估进行优化,这通过增强预训练的CLIP模型的科学理解和视觉能力来实现。此外,基于SciScore,我们提出了一个两阶段训练框架,包括监督微调阶段和带掩码的在线微调阶段,以将科学知识融入现有的生成模型。通过全面的实验,我们展示了该框架在建立评估生成内容科学真实性的新标准方面的有效性。具体而言,SciScore的表现与人类水平相当,显示出5%的改进,类似于经验丰富的人类评估者进行的评估。此外,通过将我们提出的方法应用于FLUX,我们在SciScore上实现了超过50%的性能提升。
arXiv:2504.13128v1 交叉类型公告
摘要:我们介绍了 FreshStack,这是一个可复用的框架,用于从社区提出的问题和答案自动构建信息检索(IR)评估基准。FreshStack 执行以下步骤:(1) 从代码和技术文档中自动收集语料库,(2) 从社区提出的问题和答案生成知识片段,以及 (3) 在融合检索技术并采用混合架构的基础上进行知识片段级支持,检索文档。我们使用 FreshStack 构建了五个专注于快速发展的、近期的和小众话题的数据集,以确保任务具有足够的挑战性。在 FreshStack 上,现有的检索模型在所有五个主题上均显著落后于Oracle方法,表明在提高IR质量方面还有很大的改进空间。此外,我们发现有两个主题的再排序器并未明显提高第一阶段检索准确性。我们希望 FreshStack 能够促进未来构建现实、可扩展且不受污染的IR和RAG评估基准的工作。FreshStack 数据集可在:https://fresh-stack.github.io 获得。
arXiv:2504.13125v1 Announce Type: 跨域
摘要:本文研究了大语言模型(LLMs)在金融任务中的应用。我们使用Open FinLLM Leaderboard作为基准,对基础模型进行了微调。基于Qwen2.5和Deepseek-R1,我们采用了监督微调(SFT)、直接偏好优化(DPO)和强化学习(RL)等技术来增强它们的金融能力。微调后的模型在广泛的金融任务中展示了显著的性能提升。此外,我们测量了金融领域的数据规模法则。我们的工作展示了大语言模型(LLMs)在金融应用中的潜在价值。
arXiv:2504.13123v1 交叉类型:cross
摘要:近年来,视觉-语言模型预训练领域经历了快速的发展,主要驱动力是大型语言模型中文本能力的持续提升。然而,当前针对多模态大型语言模型的预训练范式严重依赖高质量的图文对。随着模型和数据规模的指数级增长,这类精心策划的数据变得越来越稀缺和饱和,从而严重限制了该领域进一步的发展。本研究探讨了适用于视觉-语言模型预训练的可扩展的标题生成技术,并展示了大规模低幻觉合成标题的双重作用:1)作为预训练范式的一种可行替代数据源;2)在视觉-语言模型中集成时通过实证验证实现了更优的性能提升。本文提出了三个主要贡献:1)一种新颖的生成高质量、低幻觉和知识丰富的合成标题的管线。我们的连续DPO方法在减少幻觉方面取得了出色的结果。具体而言,对于一个7B大小的模型,在预留测试集中无幻觉标题的比例从48.2%提高到77.9%。2)全面的实证验证表明,我们的合成标题在预训练方面的优势远超其竞争对手。在35个视觉语言任务中,使用我们数据训练的模型与alt-text对和以往工作相比,实现了至少6.2%的显著性能提升,同时在文本到图像领域也提供了显著的支持。使用我们的数据集,在一个实际验证基准上FID分数降低了17.1,在MSCOCO验证基准上降低了13.3。3)我们将发布Hunyuan-Recap100M数据集,这是一个低幻觉和知识密集型的合成标题数据集。
arXiv:2504.13120v1 Announce Type: cross
摘要:将现有概念组合成新颖想法的能力是人类智能的基本标志。 recent Vision-Language Models(VLMs)如GPT-4V和DALLE-3的进展引发了对其输出是否体现了组合创造力的争论——组合创造力被M. A. Boden(1998年)定义为通过组合现有概念来合成新颖想法——或仅仅是训练数据中复杂的模式匹配。受到认知科学的启发,我们从概念融合的角度研究了VLMs的组合创造力。我们提出了识别-解释-暗示(IEI)框架,该框架将创造过程分解为三个层面:识别输入空间、提取共享属性和推导新颖语义暗示。为了验证这一框架,我们策划了CreativeMashup,这是一个高质量的数据集,包含666个艺术家生成的视觉混搭作品,并按照IEI框架进行注释。通过大量的实验,我们证明在理解任务中,最佳的VLMs已经超越了普通人类的表现,但在理解深度上仍不如专家级别的理解;在生成任务中,将我们的IEI框架纳入生成管道中显著提高了VLMs输出的创造质量。我们的研究结果为评估人工创造力奠定了理论基础,并为提高VLMs的创造性生成提供了实际指南。