arXiv:2503.21729v1 类别: cross
摘要:大型推理模型(LRMs)表现出惊人的推理能力,但主要依赖于参数化的知识,限制了事实的准确性。虽然最近的研究为基于强化学习(RL)的LRMs配备了检索能力,但它们在推理过程中容易过度思考且缺乏鲁棒性,从而降低了在问答(QA)任务中的有效性。为了解决这个问题,我们提出了一种名为ReaRAG的增强事实推理模型,能够在不进行过度迭代的情况下探索多样的查询。我们的解决方案包括一个新颖的数据构建框架,并对推理链长度设定了上限。具体来说,我们首先利用一个LRM生成有目的的思考,然后从预定义的动作空间(搜索和完成)中选择一个动作。对于搜索动作,会执行一个查询以针对RAG引擎,返回的结果作为观察来指导后续的推理步骤。这一过程一直持续到选择完成动作。得益于ReaRAG强烈的推理能力,我们的方法在多跳QA任务中优于现有基线。进一步分析指出,这种方法具有很强的反思能力,能够识别错误并优化其推理路径。我们的研究通过增强LRMs的事实性,同时有效地将稳健的推理集成到检索增强生成(RAG)中。
arXiv:2503.21720v1 宣布类型: cross
摘要: 大型语言模型(LLMs)的对齐对于在应用程序中安全可靠地部署至关重要。基于人类反馈的强化学习(RLHF)已成为一种有效的技术,用于将LLMs对齐到人类偏好和更广泛的用途,但这种方法需要更新数十亿个模型参数,而这在计算上非常昂贵。相比之下,受控解码提供了一种机制,在推理时对模型进行对齐,而无需重新训练。然而,单智能体解码方法往往难以适应多样化的任务,因为这些任务本身具有复杂的多样性和变异性。为了在测试时增强针对目标任务的性能,我们提出了一种基于智能体的解码策略混合方法,利用现有的现成对齐的LLM策略。将每个先验策略视为一种智能体,受智能体协作精神的启发,我们开发了一种解码方法,该方法通过在多个智能体之间进行标记级别选择策略,在推理时进行对齐。对于每个标记,基于长期效益指标,动态从中池模型选择最适合的LLM。这种策略切换机制确保在每一步都选择最优模型,从而在解码过程中实现有效的合作和对齐。对于给定的现成模型,我们的提出的算法的理论分析确立了在目标任务表示为目标奖励的情况下达到最优性能。我们使用开源对齐的模型在多样化的任务和偏好上进行了全面的实证评估,这表明了这种方法优于单智能体解码基准的方法优越性。值得注意的是,Collab超过了当前的最先进解码策略,在平均奖励上提高了高达1.56倍,并且在基于GPT-4的胜负率上提高了71.89%。
arXiv:2503.21718v1 Announce Type: 剪枝
摘要:我们研究最后一层的异常维度,即大多数输入中显示极端激活的维度。我们展示了异常维度在许多现代语言模型中出现,并将其功能追溯到不断地预测常见词的启发式方法。我们进一步展示了当这种启发式方法在上下文中不适当时,模型可以通过向剩余维度分配相反的重量来阻止这种启发式方法,并且我们探讨了哪些模型参数可以增强异常维度及其在训练过程中何时出现。我们得出结论,异常维度是许多不同模型发现的专门机制,用于实现有用的标记预测启发式方法。
arXiv:2503.21708v1 Announce Type: cross
摘要:一篇最近的文章提出了动态双曲函数(DyT)作为层规范化(Layer Normalization)的即插即用替代方案。尽管该方法在实践中具有很强的经验动机和吸引力,但在理论上缺乏基础。在这个工作中,我们从数学上推导了DyT,并指出需要一个明确的近似以做到这一点。通过去掉这种近似,我们得到了一种元素级变换,称之为元素层规范化(ELN)。我们证明,与DyT相比,ELN更准确地模仿了层规范化。
arXiv:2503.21699v1 宣布类型:交叉
摘要:前沿模型要么仅限于语言,要么主要专注于视觉和语言模态。尽管最近在具有视觉和音频理解能力的模型方面取得了显著进展,但该领域缺乏一个标准化的评估框架,以全面评估其跨模态感知性能。我们引入了MAVERIX(Multimodal Audio-Visual Evaluation Reasoning IndeX),这是一个新的基准,包含700个视频和2,556个问题,明确设计用于通过需要紧密整合视频和音频信息的任务来评估多模态模型。MAVERIX的独特之处在于为模型提供了视听任务,这些任务紧密模仿了在推理和决策过程中人类可利用的多模态感知体验。据我们所知,MAVERIX是首个明确旨在评估全面视听整合的基准。使用当今最先进的模型(包括Gemini 1.5 Pro和o1)进行的实验显示,其性能接近人类水平(约70%的准确性),而人类专家则接近天花板水平(95.1%)。凭借标准化的评估协议、严格标注的流水线和公开的工具包,MAVERIX为推进视听多模态智能建立了有挑战性的测试平台。
arXiv:2503.21695v1 交叉型公告
摘要:在组织病理学图像中准确分割细胞核对于众多生物医学研究和临床应用至关重要。然而,现有的细胞核分割方法仅考虑单一数据集(即主域),而忽略了利用来自多样来源的补充数据(即辅助域)来减少过拟合和增强性能。尽管结合多个数据集可以减轻过拟合,但往往会因域转移而加剧性能下降。在本文中,我们引入了一种名为Adversarial Multi-domain Alignment of Segment Anything Model (AMA-SAM)的方法,该方法通过两项关键创新扩展了Segment Anything Model (SAM),以克服这些障碍。首先,我们提出了一种条件梯度反转层(CGRL),这是一种多域对齐模块,能够协调来自不同域的特征,促进领域不变表示学习,同时保留主数据集的关键判别特征。其次,我们通过设计高分辨率解码器(HR-Decoder)解决SAM固有的低分辨率输出问题,该解码器可以直接生成精细的分割图,以捕捉高分辨率组织学图像中的复杂细胞核边界。据我们所知,这是首次尝试将SAM适应于多数据集学习,并应用于组织学核分割。我们已经在多个公开数据集上验证了该方法,结果显示了对最新方法的一致和显著改进。
arXiv:2503.21694v1 Announce Type: cross
摘要:从文本提示在几秒钟内生成高质量的3D网格模型是非常 desirable 的。虽然最近的努力已经将预训练的文本到图像扩散模型(如稳定扩散SD)适应为3D表示(如三平面)的生成器,但由于缺乏足够的高质量3D训练数据,它们往往会产生质量较差的3D网格。为了克服数据短缺的问题,我们提出了一种新型的训练方案,称为渐进渲染蒸馏(PRD),通过蒸馏多视图扩散模型并将SD适配为原生3D生成器来消除对3D真实标签的需求。在每次训练迭代中,PRD 使用U-Net 逐步去除来自随机噪声的潜在特征的噪声几步,并在每一步中将去噪后的潜在特征解码为3D输出。包括MVDream和RichDreamer在内的多视图扩散模型与SD联合使用,通过分数蒸馏将文本一致的纹理和几何体蒸馏到3D输出中。由于PRD 支持无需3D真实标签的训练,我们可以轻松扩大训练数据并提高具有创意概念的挑战性文本提示的生成质量。同时,PRD 可以在几步骤内加速生成模型的推理速度。通过PRD,我们训练了一个三平面生成器,即TriplaneTurbo,该生成器仅增加了2.5%的可训练参数以适应SD用于三平面生成。TriplaneTurbo 在效率和质量方面都优于之前的文本到3D生成器。具体来说,它可以在1.2秒内生成高质量的3D网格并很好地适应具有挑战性的文本输入。代码可在 https://github.com/theEricMa/TriplaneTurbo 获取。
arXiv:2503.21674v1 宣告类型: cross
摘要:物联网(IoT)设备的广泛应用带来了重大的网络安全挑战,特别是随着分布式拒绝服务(DDoS)攻击的频率和复杂性的增加。传统的机器学习(ML)技术往往因为混合和演变模式的复杂性而在检测此类攻击方面力不从心。为了解决这一问题,我们提出了一种利用设备内置的大语言模型(ODLLMs)结合微调和知识库(KB)集成的新型框架,以实现智能的IoT网络攻击检测。通过实施特征排名技术,并构建适合模型容量的长短期知识库,所提出的框架保证了在克服计算和隐私限制的同时,高效且准确地检测DDoS攻击。仿真结果表明,在边缘计算环境中使用紧凑模型时,优化框架在多种攻击类型上实现了更好的准确性。该工作提供了一种可扩展且安全的解决方案,用于实时IoT安全,推动了边缘智能在网络安全中的应用。
arXiv:2503.21670v1 宣布类型:交叉
摘要:数字通信的快速发展推动了代码混合在多语言社区中的广泛应用,特别是印地语-英语代码混合。现有数据集往往关注罗马化的文本,范围有限,或者依赖合成数据,这无法捕捉到现实生活中的语言细微差别。人类注解对于评估代码混合文本的自然度和可接受性至关重要。为了解决这些挑战,我们介绍了COMI-LINGUA,这是最大的手动注解代码混合文本数据集,包含100,970个实例,由三方专家分别使用梵文和罗马文本进行评估。该数据集支持五项基本的NLP任务:语言识别、矩阵语言识别、词性标注、命名实体识别和翻译。我们使用COMILINGUA评估了LLMs在这些任务上的表现,揭示了当前多语言建模策略的局限性,并强调了改进代码混合文本处理能力的重要性。COMI-LINGUA可在以下网址获取:https://huggingface.co/datasets/LingoIITGN/COMI-LINGUA。
arXiv:2503.21657v1 Announce Type: cross
摘要:模型合并通过结合多个模型的参数来获取通用能力,而无需额外的数据或训练。先前的方法通过排列不变性将参数对齐到相同的损失盆地从而实现线性模式连通性。本文中,我们提出了模型装配学习(MAL),这是一种模型合并的新范式,通过在开放的模型动物园中迭代集成来自多种模型的不同参数以增强基础模型的能力。与先前需要相同架构的工作不同,MAL 允许合并异构架构和各层的选择性参数。具体来说,基础模型可以从多个预训练模型的不同层中引入参数。我们系统地研究了异构参数合并的条件和基本设置,解决了基础模型和目标模型之间所有可能的层宽不匹配问题。此外,我们建立了关键法则并提供了有效实施MAL 的实用指南。