arXiv:2503.18278v2 通报类型: 替换-交叉
摘要:视觉-语言模型(VLMs)在推理过程中需要大量的计算资源,主要原因在于需要表示视觉信息的大量视觉输入标记。以往的研究指出,视觉标记相比于文本标记倾向于获得较少的注意力,这表明它们在推理过程中的重要性较低,并具有潜在的精简空间。然而,他们的方法遇到了一些挑战:依赖贪婪启发式标准来衡量标记的重要性以及与FlashAttention和KV缓存不兼容。为了解决这些问题,我们引入了**TopV**,一种与推理时间优化兼容的**TO**ken **P**runing(标记精简)方法,旨在实现快速且低内存消耗的**V**LM,无需额外的训练或微调就能实现高效的精简。我们不依赖于注意力分数,而是将标记精简建模为优化问题,准确地识别重要的视觉标记,同时与FlashAttention兼容。此外,由于我们仅在预填充阶段执行此类精简,因此它有效减少了KV缓存的大小。我们的优化框架考虑了诸如特征相似性、相对空间距离和绝对中心距离等因素,形成一个感知视觉的代价函数来衡量每个来源视觉标记的重要性,从而有效地精简低重要性的标记。大量的实验表明,我们的方法优于以往的标记精简方法,验证了我们方法的有效性和效率。
arXiv:2503.17794v2 通告类型: replace-cross
摘要:文本到图像生成模型往往难以处理包含复杂场景、多种具有独特视觉特征和空间关系的物体的长提示。在本文中,我们提出了SCoPE(逐步插值的粗到细提示嵌入),这是一种无需训练的方法,通过逐步细化输入提示的方式改进文本到图像的对齐。给定一个详细的输入提示,我们首先将其分解为多个亚提示,这些亚提示从描述广泛的场景布局逐步演变为高度复杂的细节描述。在推理过程中,我们在这些亚提示之间进行插值,从而逐步将更细粒度的细节引入生成的图像。我们的无需训练的即插即用方法显著增强了提示对齐,在GenAI-Bench数据集中85%的提示上,相对于Stable Diffusion基线在视觉问答(VQA)得分上实现了高达+4%的平均改进。
arXiv:2503.17661v2 公告类型: replace-cross
摘要:在专业工作流程中采用AI副驾驶为提高生产力、效率和决策提供了机会。本文报告了我们在2024年进行的为期六个月的M365 Copilot试验结果。我们对27名参与者进行了定性访谈。研究探讨了用户对M365 Copilot效果、生产力影响、不断变化的期望、伦理问题以及总体满意度的看法。工具初期的热情在试用后体验中遭遇了矛盾。虽然一些用户发现M365 Copilot在邮件辅导、会议总结和内容检索等方面有益,但其他用户在需要更深层次语境理解和推理的领域表示期望未被满足。伦理问题是一个反复出现的主题,用户提到了与数据隐私、透明度和AI偏见相关的问题。尽管M365 Copilot在特定运营领域展现出了价值,但它更大的影响仍然受到易用性限制的约束,并且需要人工监督来验证AI生成的输出。
arXiv:2503.17426v2 公告类型: replace-cross
摘要:智能合约可信度的评估对于促进去中心化生态系统中的信任至关重要。然而,现有的方法依赖于代码分析或交易数据,这些方法在了解信任度的演变方面提供的见解有限。我们提出了一种多模态数据融合框架,将代码特征与交易数据结合起来,以增强可信度预测。我们的框架最初侧重于基于AI的代码分析,利用生成对抗网络(GAN)增强的opcodes嵌入来解决类别不平衡问题,准确率达到97.67%,召回率达到0.942,在检测非法合约方面超越了传统的过采样方法。这是以可信度为中心的融合策略的核心,其中将代码和交易数据的结合,相较于单源模型,召回率提高了7.25%,展示了在验证集上的稳健性能。通过提供对智能合约行为的整体视图,我们的方法提高了模型评估可信度、识别欺诈活动和预测异常模式的能力。这些功能有助于更准确的可信度评估、主动的风险缓解和增强区块链安全。
arXiv:2503.17401v2 通知类型: replace-cross
摘要: 环境新闻学对于提高对生态危机的认识并推动基于证据的政策具有至关重要的作用,但传统方法由于延误、不准确性和可扩展性限制而在监测不足的区域尤其难以奏效,这些区域对联合国可持续发展目标至关重要。为弥补这些差距,本文提出了AI-环境新闻学整合模型(AEJIM),这是一种结合实时危害检测、自动化报道、众包验证、专家审查和透明传播的创新框架。
通过在马洛卡进行的试点研究验证,AEJIM 显著提高了环境危害报道的速度、准确性和透明度,相比于传统方法。此外,该模型直接解决了关键的伦理、监管和可扩展性挑战,通过可解释人工智能(XAI)、符合GDPR的数据治理和积极的公众参与确保问责制。AEJIM 的模块化和不依赖特定技术的设计提供了一个透明且可适应的解决方案,为增强环境新闻学和促进不同社会政治背景下知情全球决策制定了新的标准。
arXiv:2503.16980v2 宣布类型: replace-cross
摘要:基于标记的视频表示已成为使大型语言模型(LLMs)能够解释视频内容的有前途的方法。然而,现有的标记削减方法,如标记修剪和标记合并,往往会破坏重要的空间-时间位置嵌入,无法在减少标记数量的同时充分平衡计算效率。因此,这些方法导致了繁琐的标记序列,限制了它们在需要极端标记压缩场景(如视频大型语言模型)中的应用。在本文中,我们提出了极端短标记削减这一新任务,旨在用最少的标记来表示大量的视频序列。为了解决这一挑战,我们提出了标记动态新视频表示框架,该框架能够动态减少标记数量同时保持空间-时间一致性。具体来说,我们通过对视觉嵌入和网格级别运动信息进行分离,将视频表示结构化为:1. 一个紧凑的标记哈希表,通过聚类描述对象级内容的标记创建;2. 一个标记索引键图,捕捉网格间详细的空间-时间运动模式;3. 一个标记哈希函数,将标记哈希表矢量化以从键图重构标记序列。此外,我们引入了一种跨动态注意机制,该机制能够在不增加标记长度的情况下将运动特征集成到标记基础中,从而保持紧凑性和空间-时间完整性。实验结果显示,标记数量减少了原始标记的0.07%,性能下降仅1.13%。此外,我们提出了极端标记削减中的两个新子任务(固定长度和自适应长度压缩)。我们的方法提供了显著更低的理论复杂度、更少的标记和增强的吞吐量,因此为视频LLMs提供了高效的解决方案。
arXiv:2503.16929v2 通知类型: 替换-交叉
摘要:通过利用两阶段范式进行开发,视频大型语言模型(Video LLMs)取得了显著的成功:首先在大规模视频-文本数据上进行预训练以实现视觉-语言对齐,然后进行监督微调(SFT)以获得任务特定的能力。然而,现有的方法在时间推理方面存在困难,因为数据中的时间对应关系较弱,并且在训练过程中依赖于下一个标记预测范式。为了解决这些限制,我们提出了TEMPLE(TEMporal Preference Learning),这是一种系统框架,通过直接偏好优化(DPO)增强了Video LLMs的时间推理能力。为了实现这一目标,我们引入了一种自动化偏好数据生成管道,该管道系统地构建偏好对,通过选择富含时间信息的视频、设计特定于视频的扰动策略,并最终在干净和扰动的视频输入上评估模型响应。我们的时间对齐包含两个关键创新:逐级递增扰动难度的课程学习,以提高模型的稳健性和适应性;以及“预-SFT 对齐”,在指令调优之前应用偏好优化,以优先考虑细微的时间理解。广泛的实验结果显示,我们的方法在多个基准上始终能够通过少量自动生成的DPO数据提高Video LLM的性能。我们还分析了DPO数据在不同架构之间的迁移能力和优化中的难度调度的作用。我们的研究结果突显了TEMPLE作为基于SFT方法的可扩展和高效的补充,并为开发可靠的Video LLM铺平了道路。代码可在 https://github.com/lscpku/TEMPLE 获取。
arXiv:2503.15699v2 宣布类型:替换交叉
摘要:两个深度神经网络在做出决策时有何不同?测量深度网络之间的相似性是一个长期存在的开放问题。现有的大多数方法在给定层提供一个单一的数字来衡量两个网络的相似性,但无法揭示使它们相似或不同的原因。我们引入了一种可解释的表示相似性方法(RSVC),用于比较两个网络。我们使用RSVC来发现两个模型之间的共享和独特视觉概念。我们证明,某些模型差异方面可以归因于一个模型发现的独特概念,而这些概念在另一个模型中并没有很好地体现。最后,我们在不同的视觉模型架构和训练协议上进行了广泛的评估,以证明其有效性。
arXiv:2503.14456v2 宣告类型: 替换交叉
摘要:我们提出了一种新的序列建模架构 RWKV-7 "鹅",具有恒定的内存使用量和每词恒定的推理时间。尽管与其他顶级模型相比,我们的 29 亿参数语言模型在训练时使用了显著较少的令牌数量,但其在多语言任务上的表现达到了 3B 最佳水平,并在英语下游任务上的表现与当前的 3B 最佳水平持平。RWKV-7 引入了一种新的泛化形式的 delta 规则,具有向量门控和上下文相关学习率,并且还引入了一种宽松的价值替换规则。我们展示了 RWKV-7 可以进行状态跟踪并识别所有正规语言,同时保持训练的并行化。这超出了标准复杂性猜想下变压器的能力,这些猜想将变压器的能力限制在 $\mathsf{TC}^0$。为了展示 RWKV-7 的语言建模能力,我们还提供了一个扩展的开源 3.1 万亿令牌多语言语料库,并在该语料库上训练了四个大小从 0.19 亿到 29 亿参数的 RWKV-7 模型。
为了促进开放、复制和采用,我们发布了我们的模型和数据集组件列表,地址为 https://huggingface.co/RWKV,以及我们的训练和推理代码,地址为 https://github.com/RWKV/RWKV-LM,所有代码均采用 Apache 2.0 许可证。
arXiv:2503.13522v3 宣告类型: replace-cross
摘要:AlphaFold 获得诺贝尔奖后,蛋白质预测再次成为深度学习的热点话题。我们全面探索了用于蛋白质结构预测和设计的先进深度学习方法。文章首先考察了预测架构的最新创新,详细讨论了基于扩散框架和新颖的成对注意模块等改进。文本分析了关键组成部分,包括结构生成、评价指标、多序列比对处理和网络架构,从而展示了计算蛋白质建模的当前前沿状态。随后章节集中于实际应用,展示了从单个蛋白质预测到复杂生物分子相互作用的各种案例研究。文章深入探讨了提高预测准确性的策略,以及将深度学习技术与实验验证结合的方法。后期部分回顾了蛋白质设计的行业状况,突出了人工智能在生物技术中的变革性作用,并讨论了新兴市场趋势和未来挑战。附录提供了必要的资源,如数据库和开源工具,使其成为研究人员和学生的宝贵参考。