arXiv 论文列表

作者: Claudio Gallicchio, Giuseppe Nuti

arXiv:2502.14788v1 Announce Type: cross 摘要：在本文中，我们介绍了一种新的条件激活神经网络架构，该架构结合了多层Mixture of Experts（MoEs）的分层构建和一个逐步优化专家激活配置的采样机制。该方法使网络架构的动态展开成为可能，从而促进针对特定路径的高效训练。实验结果表明，该方法在与传统基线相当的准确率同时显著减少了推理所需的参数计数。值得注意的是，这种参数减少与输入模式的复杂性相关，这一特性自然地从网络的操作动态中产生，而无需显式使用辅助惩罚函数。

发布时间: 2/21/2025

查看原文

SigLIP 2：具有改进的语义理解、定位和密集特征的多语言视觉-语言编码器

作者: Michael Tschannen, Alexey Gritsenko, Xiao Wang, Muhammad Ferjad Naeem, Ibrahim Alabdulmohsin, Nikhil Parthasarathy, Talfan Evans, Lucas Beyer, Ye Xia, Basil Mustafa, Olivier H\'enaff, Jeremiah Harmsen, Andreas Steiner, Xiaohua Zhai

arXiv:2502.14786v1 交叉公告类型：cross 摘要：我们介绍了SigLIP 2，这是一个基于原始SigLIP成功的新型多语言视觉-语言编码器的家族。在这一版中，我们将原始的图像-文本训练目标扩展为一个统一的配方，其中包括基于描述词的预训练、自我监督损失（自我蒸馏、遮罩预测）以及在线数据管理。通过这些变化，SigLIP 2模型在所有模型规模的核心能力上超过了其SigLIP对应的模型，包括零样本分类、图像-文本检索和为视觉语言模型（VLMs）提取视觉表示时的迁移性能。此外，新的训练配方在定位和密集预测任务上取得了显著的改进。我们还训练了支持多种分辨率并保持输入原始宽高比的变体。最后，我们使用包括去偏见技术在内的更具多样性的数据混合进行训练，这在多语言理解和公平性方面取得了更好的效果。为了使用户能够在推理成本与性能之间进行权衡，我们提供了四种规模的模型检查点：ViT-B（86M）、L（303M）、So400m（400M）和g（1B）。

发布时间: 2/21/2025

查看原文

使用HLL和MinHash数据概要实时设备可达性预测

作者: Chandrashekar Muniyappa, Kendall Willets, Sriraman Krishnamoorthy

arXiv:2502.14785v1 摘要类型: cross 摘要: 根据用户指定的目标属性，在实时预测适合投放多百万美元广告业务的电视机数量（设备覆盖范围）是至关重要的。传统的通过SQL查询连接数以亿条记录的多目标维度的方法非常缓慢。作为权宜之计，许多应用程序将有一个离线过程来计算这些数字并在几小时后呈现结果。在我们的情况下，这个过程需要花费24小时将一个客户上线，从而可能导致潜在的业务损失。为了解决这个问题，我们建立了一个新的实时预测系统，使用MinHash和HyperLogLog (HLL)数据摘要在用户请求时实时计算设备覆盖范围。然而，现有的MinHash实现无法解决多级聚合和交集的复杂问题。本文将展示我们是如何解决这个问题的，此外，我们还改进了MinHash算法，使其使用单指令多数据（SIMD）向量操作以高速度和高准确性处理亿级以上记录的同时占用恒定空间。最后，通过实验我们证明，结果与传统的离线预测系统一样准确，接受的误差率为5%。

发布时间: 2/21/2025

查看原文

ReVision：一个用于隐私保护任务导向视觉指令修改的データ集和基础视觉语言模型

作者: Abhijit Mishra, Richard Noh, Hsiang Fu, Mingda Li, Minji Kim

arXiv:2502.14780v1 Announce Type: cross 摘要：随着AR、VR和配备强大摄像头的现代智能手机成为人类与计算机通信的主要接口，有效的且隐私保护的多模态交互变得至关重要。现有的强大视觉-语言模型（VLMs）支持多模态交互通常依赖于基于云的处理，这引发了关于(1) 通过将敏感视觉数据传输到服务器而导致的视觉隐私问题，以及(2) 它们受限的实时设备端可用性的问题。本文探讨了视觉指令重写这一新颖的方法，该方法将多模态指令转换为纯文本命令，从而使轻量级的设备端指令重写VLM（参数量为250M）与现有的对话AI系统无缝集成，增强视觉数据隐私。为实现这一目标，我们提供了一个涵盖14个领域的超过39,000个示例的数据集，并开发了一个紧凑的VLM，该VLM基于图像字幕数据集进行预训练，并针对指令重写进行了微调。通过自然语言生成（NLG）指标（如BLEU、METEOR和ROUGE）评估以及语义解析分析，实验结果证明，即使是该模型的量化版本（存储 footprint 小于500MB）也能实现有效的指令重写，从而使面向隐私的多模态AI应用成为可能。

发布时间: 2/21/2025

查看原文

利用PDF数据提升日语大型多模态模型

作者: Jeonghun Baek, Akiko Aizawa, Kiyoharu Aizawa

arXiv:2502.14778v1 宣传类型：交叉摘要：大型多模态模型（LMMs）在英语中展现出了出色的表现，但在日语中的有效性受到限制，主要是由于高质量训练数据的缺乏。当前的日语LMMs通常依赖于翻译自英语的数据集，这限制了它们捕捉日本特有的文化知识的能力。为了解决这个问题，我们探索了将日语PDF数据作为训练资源的潜力，这是一个尚未充分利用的领域。我们介绍了一种完全自动化的管道，该管道利用预训练模型通过布局分析、OCR和视觉语言配对从PDF中提取图像-文本对，从而避免了手动标注的需求。此外，我们还从提取的图像-文本对中构建指令数据，以丰富训练数据。为了评估来自PDF的数据的有效性，我们训练了日语LMMs，并在日语LMM基准测试上评估了它们的性能。我们的结果显示，在Heron-Bench上的性能提升了3.9%至13.8%。进一步的分析强调了PDF衍生数据对不同因素的影响，如模型大小和语言模型，增强了其作为日语LMMs多模态资源的价值。我们计划在论文被接受后公开源代码和数据。

发布时间: 2/21/2025

查看原文

逻辑-RL：基于规则的强化学习释放大型语言模型推理能力

作者: Tian Xie, Zitian Gao, Qingnan Ren, Haoming Luo, Yuqian Hong, Bryan Dai, Joey Zhou, Kai Qiu, Zhirong Wu, Chong Luo

arXiv:2502.14768v1 类型: cross 摘要：受到DeepSeek-R1成功的启发，我们探索了基于规则的强化学习（RL）在大型推理模型中的潜在价值。为了分析推理动态，我们使用合成逻辑谜题作为训练数据，因为这些谜题的复杂性可控制且答案验证直接明了。我们做出了一些关键的技术贡献，从而实现了有效的和稳定的RL训练：强调思考和回答过程的系统提示、针对走捷径输出进行惩罚的严格的格式奖励函数，以及实现了稳定收敛的简单训练方法。我们的7B模型发展了高级推理技能，如反思、验证和总结，这些技能在逻辑语料库中是不存在的。尤为 impressive 的是，仅在5K逻辑问题的训练后，它就展示了对挑战性的数学基准AIME和AMC的一般化能力。

发布时间: 2/21/2025

查看原文

树状辩论：多persona辩论树促进科学比较分析中的批判性思维

作者: Priyanka Kargupta, Ishika Agarwal, Tal August, Jiawei Han

arXiv:2502.14767v1 宣言类型: cross 摘要: 随着现代技术和改善后的可访问性促进了研究的指数级增长，科学发现已经在各学科内部以及跨学科变得越来越碎片化。这使得评估相关作品之间的显著性、新颖性、增量发现以及等效想法变得极具挑战性，特别是那些来自不同研究社区的作品。大型语言模型（LLMs）最近展示了强大的定量和定性推理能力，多代理LLM辩论展示了在通过探索多样视角和推理路径处理复杂推理任务方面的潜力。受到这一点的启发，我们提出了讨论树（ToD）框架，将科学论文转换为LLM角色，对其进行各自的创新性辩论。为了强调结构化、批判性推理，而不是仅仅关注结果，ToD动态构建了一棵辩论树，使得对学术文章中的独立创新性论点进行精细分析成为可能。通过跨多个领域的科学文献实验，并由专家研究人员评估，我们展示了ToD生成了有信息量的论据，有效对比了论文，并支持研究人员进行文献综述。

发布时间: 2/21/2025

查看原文

医疗声明的可解释推理逐步事实验证系统

作者: Juraj Vladika, Ivana Hacajov\'a, Florian Matthes

arXiv:2502.14765v1 宣告类型：交叉摘要：事实验证（FV）的目标是基于相关证据评估一项声明的真伪。传统的自动化FV方法包括一个三阶段的流水线，依赖于短证据片段和仅编码器的推理模型。最近的方法利用了LLM的多轮特性，将FV视为一个逐步解决问题的过程，其中生成并回答需要额外背景信息的问题，直到有足够的信息做出决策。这一迭代方法使得验证过程更具合理性并可解释。尽管这些方法已经在百科知识声明上得到了测试，但对于特定领域和现实世界的声明的研究仍然缺失。在本文中，我们将在三个医学事实核查数据集上应用迭代FV系统，并使用多种设置进行评估，包括不同的LLM、外部网络搜索以及使用逻辑谓词进行结构化推理。我们展示了与传统方法相比，最终性能的改进，并展示了逐步FV系统在特定领域声明上的高潜力。

发布时间: 2/21/2025

查看原文

关于上下文大小和模型选择对检索增强生成系统的影响

作者: Juraj Vladika, Florian Matthes

arXiv:2502.14759v1 公告类型: cross 摘要: 回忆增强生成 (RAG) 已经成为一种通过减少对静态知识的依赖并提高答案真实性来增强大型语言模型 (LLMs) 的方法。RAG 通过检索相关上下文片段并基于它们生成答案。尽管 RAG 在工业应用中越来越受欢迎，但对其组件的系统性探索仍然不足，尤其是关于提供的上下文的理想大小以及基底 LLM 和检索方法的选择。为了帮助指导稳健 RAG 系统的发展，我们评估了各种上下文大小、BM25 和语义搜索作为检索方法，以及八种基底 LLM。我们离开了通常的 RAG 评估方法，使用短答案，而是探索了更具挑战性的长形式问答问题，在两个领域中，一个好的答案必须利用整个上下文。我们的研究结果表明，最终的问答性能随着最多 15 个片段的增加而稳步提高，但在那之后趋于停滞甚至下降。最后，我们展示了不同的通用型 LLM 在生物医学领域优于百科全书领域，而且在大型文集中进行开放领域证据检索是具有挑战性的。

发布时间: 2/21/2025

查看原文

MedVAE：高效自动医学图像解释的大规模通用自动编码器

作者: Maya Varma, Ashwin Kumar, Rogier van der Sluijs, Sophie Ostmeier, Louis Blankemeier, Pierre Chambon, Christian Bluethgen, Jip Prince, Curtis Langlotz, Akshay Chaudhari

arXiv:2502.14753v1 宣告类型: cross 摘要：医学图像以高分辨率获取，视野广阔，以捕捉对于临床决策至关重要的细微特征。因此，训练深度学习模型时会面临巨大的计算成本。在本工作中，我们解决如何在保持临床相关特征的同时降低医学图像规模，以提高下游计算效率的挑战。我们引入了MedVAE，这是一个由六个大规模2D和3D自动编码器组成的家族，可以将医学图像编码为缩小后的潜在表示，并能够从潜在表示重建回高分辨率图像。我们使用一种新颖的两阶段训练方法，在1,052,730个医学图像上训练MedVAE自动编码器。在整个医学图像数据集中获得的20个不同任务中，我们证明了（1）在训练下游模型时使用MedVAE潜在表示代替高分辨率图像可以带来效率收益（达到70倍的吞吐量提升），同时保持临床相关特征；（2）MedVAE可以高保真地从潜在表示重建回高分辨率图像。我们的工作展示了大规模、可泛化的自动编码器可以在医学领域帮助解决关键的效率挑战。我们的代码可在https://github.com/StanfordMIMI/MedVAE获取。

发布时间: 2/21/2025

查看原文