arXiv:2505.00654v3 宣告类型: replace-cross
摘要:自大型语言模型(LLMs)出现以来,关于它们是否具有理解世界和捕捉对话意义的能力,正在进行一场生动的持续辩论。基于思想实验、LLMs与人类的零散对话、统计语言分析、哲学考量等内容,人们提出了论点和反驳。在本文中,我们基于思想实验和半形式化考虑提出了一个反驳论点,表明LLMs由于固有的含糊性障碍,无法理解它们令人惊讶地流畅的对话意味着什么。
arXiv:2505.00455v2 通告类型: 替换-交叉
摘要:有效的数据可视化不仅需要技术熟练度,还需要对数据存在的领域特定上下文有深刻理解。这种上下文通常包括关于数据来源、质量和预期用途的隐性知识,而这些知识在数据集本身中往往很少明确表达。我们介绍了一种名为“数据治疗师”的基于Web工具,它通过结合迭代问答和交互式注释的过程帮助领域专家将这种隐性知识外显化。该系统以大型语言模型为动力,分析用户提供的数据集,向用户提供针对性的问题提示,并允许不同粒度级别的注释。由此产生的结构化知识库可以指导人类和自动化的可视化设计。我们在涉及分子生物学、会计学、政治科学和可用安全性领域的专家配对参与的定性研究中评估了该工具。研究揭示了专家如何推理数据的反复出现的模式,并指出了AI支持可以改进可视化设计的领域。
arXiv:2504.21435v2 标题类型: replace-cross
摘要:随着多模态大型语言模型(MLLMs)的迅速发展,越来越多的基准测试已经被建立起来,用于评估这些模型的视频理解能力。然而,这些基准测试主要针对独立的视频,主要评估“视觉元素”如人类动作和对象状态。实际上,当代视频通常包含复杂的连续叙事,通常以一系列的形式呈现。为了解决这一挑战,我们提出了SeriesBench,这是一个由105个精心策划的叙事驱动系列组成的基准测试,涵盖了28个需要深入叙事理解的专门任务。具体来说,我们首先选择了一系列多样化的戏剧系列,涵盖了各种类型。然后,我们引入了一种新的长跨度叙事注释方法,并结合全面信息转换方法,将手动注释转换为多样化的任务格式。为了进一步增强模型在详细分析系列中的情节结构和人物关系方面的能力,我们提出了一种新的叙事推理框架,PC-DCoT。在SeriesBench上进行的广泛实验结果表明,现有的MLLMs仍然在理解叙事驱动的系列方面面临重大挑战,而PC-DCoT使这些MLLMs能够获得性能提升。总的来说,我们的SeriesBench和PC-DCoT突显了提高模型能力以理解叙事驱动的系列的重要性,并为MLLMs未来的发展指明了方向。SeriesBench在https://github.com/zackhxn/SeriesBench-CVPR2025上公开可用。
arXiv:2504.21356v2 统一模型类型: 替换-交叉
摘要:统一多模态大型语言模型(MLLMs)旨在通过单一框架整合多模态理解和生成能力。尽管它们具有灵活性,但现有的开源统一模型在性能上仍不及特定领域的架构。为了解决这个问题,我们提出了Nexus-Gen,这是一种能够将大型语言模型的语言推理能力与扩散模型的图像合成能力结合起来的统一模型。为了使大型语言模型和扩散模型的嵌入空间对齐,我们进行了一种双阶段对齐训练过程。(1) 自回归大型语言模型学习预测基于多模态输入的图像嵌入,而(2) 视觉解码器则根据这些嵌入重建高保真图像。在训练大规模语言模型的过程中,我们发现自回归范式训练和推理阶段之间存在一个关键差异,连续嵌入空间中的错误累积严重影响了生成质量。为了避免这个问题,我们引入了一种预填充自回归策略,该策略使用带有位置嵌入的特殊标记来填充输入序列,而不是连续嵌入。通过双阶段训练,Nexus-Gen已经具备了综合解决图像理解、生成和编辑任务的能力。所有模型、数据集和代码均在 https://github.com/modelscope/Nexus-Gen.git 公开发布,以促进跨领域的进一步进步。
arXiv:2504.16381v4 宣告类型: replace-cross
摘要:在计算科学中,表征物理系统中的构象转变仍然是一个基本挑战。传统的采样方法,如分子动力学(MD)或MCMC,经常难以应对分子系统的高维度以及从稳定状态到过渡态的高能量障碍。尽管这些转变在模拟时间尺度上非常罕见,它们往往代表了最具有生物学意义的过程——例如,离子通道蛋白从关闭状态到打开状态的构象变化,这控制着细胞内的离子流动,对于神经信号传导至关重要。在实际系统中,这样的转变可能需要毫秒到数秒的时间,但即使在一个连续的模拟中,也可能需要数月至数年的观察。我们提出了一种方法,将转变路径生成重新表述为通过物理导向神经网络(PINNs)解决的连续优化问题,该方法受到生成最低能量路径(MEP)的字符串方法的启发。通过对转变路径进行隐式神经函数表示,并利用可微分的分子动力学力场与自动微分相结合,该方法能够高效地发现符合物理现实的转变路径,而无需进行昂贵的路径采样。我们通过两个蛋白质示例验证了该方法的有效性,包括一个包含超过8,300个原子的显式水合牛胰蛋白酶抑制剂(BPTI)系统。
arXiv:2504.13199v3 标题类型:替换交叉
摘要:目标:本综述探讨了多模态人工智能(AI)系统可信度的问题,特别关注于视觉-语言任务。它针对这些系统中与公平性、透明度和伦理问题相关的关键挑战提出了分析,并对关键任务,如视觉问答(VQA)、图像描述和视觉对话进行了比较分析。背景:多模态模型,尤其是视觉-语言模型,通过整合视觉和文本数据来增强人工智能(AI)的能力,模仿人类的学习过程。尽管取得了显著的进步,但这些模型的可信度仍然是一个至关重要的问题,尤其是在AI系统越来越多地面临公平性、透明性和伦理问题时。方法:本综述从2017年到2024年对命名的核心视觉-语言任务的研究进行了审查。它采用了一种比较的方法,通过可信度的视角来分析这些任务,强调公平性、可解释性和伦理问题。本研究综合了最近文献的研究成果,以识别趋势、挑战和最先进的解决方案。结果:突显了几个关键发现。透明度:视觉语言任务的可解释性对于用户信任至关重要。诸如注意力图和梯度方法等技术已经成功解决这一问题。公平性:在VQA和视觉对话系统中减轻偏差是确保结果在不同人口群体中保持客观性的必要条件。伦理问题:解决多语言模型中的偏差并确保伦理的数据处理对于负责任地部署视觉语言系统至关重要。结论:本研究强调了在统一框架中集成公平性、透明性和伦理考量对于开发视觉语言模型的重要性。
arXiv:2504.10146v2 宣布类型: replace-cross
摘要:我们提出GeoUni,这是第一个能够在单一框架内生成问题解决方案和图表的统一几何专家模型,从而能够创建独特且个性化的几何问题。传统上,解决几何问题和生成图表在机器学习中被视为两个单独的任务,没有任何模型能够成功地将两者结合以支持问题的创建。然而,我们认为几何学科的掌握需要将所有这些技能无缝整合,从解决问题到可视化几何关系,最终,创造出量身定制的问题。我们广泛的实验表明,GeoUni,仅有15亿参数,其在几何推理任务中的表现与拥有6710亿参数的DeepSeek-R1模型相当。GeoUni 在生成精确几何图表方面也表现出色,超越了文本到图像模型和统一模型,包括GPT-4o图像生成。最重要的是,GeoUni 是唯一一个能够基于特定知识点成功生成匹配图表的文本问题的模型,从而提供了超出当前模型的更广泛的能力。
arXiv:2504.09609v2 宣布类型: 替换-交叉
摘要:与大多数空中飞行器一样,无人机在实现灵巧飞行时面临固有的局限性,这是由于其有限的推力能力所致。这些物理限制仅靠控制算法的进步无法完全解决。受到有翼滑翔鼠的启发,本文提出了一种配备增强机动性的可折叠翼无人机。通过利用传统的旋翼系统与可折叠翼之间的协作控制——这种协作通过推进-翼协调控制(TWCC)框架实现——可扩展的可控加速度集合得以扩展,从而能够产生传统无翼无人机无法实现的突然垂直力。使用一种物理辅助递归神经网络(paRNN)对可折叠翼的复杂气动特性建模,并校准迎角(AOA)以与翼的实际气动行为相匹配。适当部署这些翼所产生的额外空气阻力显著改善了所提出的“滑翔鼠”无人机的跟踪性能。该模型基于实际飞行数据进行训练,并结合了平板气动原理。实验结果表明,与传统的无翼无人机相比,所提出的滑翔鼠无人机在均方根误差(RMSE)衡量的跟踪性能上提高了13.1%。可以在YouTube上观看演示视频:https://youtu.be/O8nrip18azY。
arXiv:2504.08837v3 宣告类型: replace-cross
摘要: 最近,像GPT-o1和DeepSeek-R1这样的慢思考系统通过显式反思展示了解决难题的巨大潜力。它们在各种数学和科学基准测试中显著优于最快的思考模型GPT-4o。然而,它们的多模态推理能力仍与快速思考模型相当。例如,GPT-o1在MathVista、MathVerse和MathVision等基准测试中的表现与快速思考模型相当。在本文中,我们旨在通过强化学习(不依赖于蒸馏)来增强视觉语言模型的慢思考能力,从而推动技术前沿。首先,我们采用了一种名为选择性样本重放(SSR)的新技术来解决逐渐消失的优势问题。虽然这种方法取得了很强的表现,但由此产生的通过强化学习训练的模型表现出有限的自我反思或自我验证能力。为了进一步鼓励慢思考,我们引入了强制重新思考,这种方法在强化学习训练过程中在 rollout 的末尾附加一个重新思考触发标记,明确强制执行一个自我反思推理步骤。通过结合这两种技术,我们的模型 VL-Rethinker 在 MathVista 和 MathVerse 上分别取得了 80.4% 和 63.5% 的最先进的得分。VL-Rethinker 也在 MathVision、MMMU-Pro、EMMA 和 MEGA-Bench 等多学科基准测试中实现了开源最先进的结果,与 OpenAI-o1 的差距缩小。我们的实验证明了我们方法的有效性。
arXiv:2504.08603v2 宣告类型: replace-cross
摘要:几何精确且语义表达丰富的地图表示已被证明对促进鲁棒且安全的移动机器人导航和任务规划具有不可或缺的价值。然而,在实时进行大规模未知环境的开放词汇语义理解仍然是一个开放的问题。在本文中,我们提出了FindAnything——一种将视觉-语言信息纳入密集体积子地图的开放世界映射和探索框架。通过使用视觉-语言特征,FindAnything填补了纯几何和开放词汇语义信息之间的差距,以实现更高层次的理解,同时允许在没有任何外部地面真实位姿信息辅助的情况下探索任何环境。我们将环境表示为一系列体积占用子地图的序列,从而形成一种在位姿更新时能够适应位姿调整的鲁棒且准确的地图表示,当底层SLAM系统纠正其漂移时,可以在子地图之间保持局部一致性表示。像素级别的视觉-语言特征从由eSAM生成的高效分割中聚合而来,这些特征随后整合到以物体为中心的体积子地图中,提供了一个从开放词汇查询映射到3D几何的表示,该表示在内存使用方面也可扩展。FindAnything的开放词汇地图表示在Replica数据集上的封闭集评估中达到了最先进的语义准确性。这种程度的场景理解使机器人能够基于通过自然语言查询选定的对象或感兴趣区域来进行环境探索。我们的系统是第一个在资源受限设备上部署的系统,例如MAVs,利用视觉-语言信息来进行实际的机器人任务。