arXiv 论文列表

作者: Sumin Jo, Junseong Choi, Jiho Kim, Edward Choi

arXiv:2502.12767v3 通知类型：替换-交叉摘要：最近的研究将大规模语言模型（LLMs）与知识图谱（KGs）相结合，以增强推理能力，在不进行额外训练的情况下提高了推理准确性，同时减轻了幻觉现象。然而，现有的框架往往较为僵化，难以适应KG或任务的变化。它们还严重依赖于强大的LLMs来进行可靠的（即可信的）推理。为了解决这一问题，我们引入了R2-KG，这是一种即插即用、双代理框架，将推理分为两种角色：操作员（一种低容量的LLM），负责收集证据；和监督员（一种高容量的LLM），负责最终判断。这种设计使得LLM推理成本效率更高，同时仍然保持了强大的推理准确性。此外，R2-KG还采用了规避机制，仅在从KG收集到足够的证据时才生成答案，这显著增强了可靠性。在多个基于KG的推理任务实验中，R2-KG在准确性和可靠性方面都优于基线模型，无论使用的操作员LLM本身的内在能力如何。进一步的实验表明，使用严格自我一致性策略的R2-KG单代理人版本，在降低推理成本的同时，显著提高了可靠性，但这也导致在复杂的KG中产生了更高的规避率。我们的研究结果确立了R2-KG作为一种灵活且成本效益高的KG推理解决方案的地位。它减少了对高容量LLMs的依赖，同时确保了可信的推理。

发布时间: 3/25/2025

查看原文

Markov LLM测试时缩放的原子级思考

作者: Fengwei Teng, Zhaoyang Yu, Quan Shi, Jiayi Zhang, Chenglin Wu, Yuyu Luo

arXiv:2502.12018v2 通知类型: replace-cross 摘要：大型语言模型（LLMs）通过训练时间扩展实现了卓越的性能，而在测试时间进一步通过在推理期间进行有效的推理来增强其能力。然而，随着推理规模的增加，现有的测试时间扩展方法会遭受累积历史信息的问题，这不仅浪费了计算资源，还干扰了有效的推理。为了解决这个问题，我们观察到复杂的推理可以通过解决一系列独立且自包含的子问题来实现。这些子问题是本质上原子问题，具有类似马尔可夫过程的记忆无后效性。基于这一观察，我们提出了Thought原子（\our），其中每次状态转换包括将当前问题分解为基于依赖关系的有向无环图，并收缩其子问题，形成一个简化的问题，该问题保持与原始问题的答案等效性。这种答案保持能力使得迭代的\textit{分解-收缩}过程能够自然形成具有意义的马尔可夫推理过程。此外，这些原子状态可以无缝集成到现有的测试时间扩展方法中，使\our能够作为插件增强，以提高推理能力。在六个基准测试中的实验展示了\our作为独立框架和插件增强的有效性。值得注意的是，在应用到gpt-4o-mini时，\our取得了\textbf{80.6\%}的F1分数，超过了o3-mini的\textbf{3.4\%}和DeepSeek-R1的\textbf{10.6\%}。相关代码可在\href{https://github.com/qixucen/atom}{https://github.com/qixucen/atom}找到。

发布时间: 3/25/2025

查看原文

核部署：分析自主大型语言模型代理决策中的灾难性风险

作者: Rongwu Xu, Xiaojian Li, Shuo Chen, Wei Xu

arXiv:2502.11355v3 宣布类型: replace-cross 摘要：大规模语言模型（LLMs）正在演变成自主决策者，在高风险情境中，特别是在化学、生物、放射性和核（CBRN）领域，这引发了人们对灾难性风险的担忧。鉴于这些风险可能源于智能体的有益、无害和诚实（HHH）目标之间的权衡，我们建立了一个新的三阶段评估框架，该框架设计得既有效又能自然地揭示这些风险。我们对12种先进LLM进行了14,400次智能体模拟，并进行了广泛的经验试验和分析。结果显示，LLM智能体可以自主表现出灾难性行为和欺骗行为，而无需被故意诱导。此外，更强的推理能力往往增加，而非减轻这些风险。我们还展示了这些智能体可以违反指令和优越的命令。总体而言，我们实证证明自主LLM智能体存在灾难性风险。我们将发布我们的代码，促进进一步研究。

发布时间: 3/25/2025

查看原文

MERGE³：在消费者级GPU上的高效进化合并

作者: Tommaso Mencattini, Adrian Robert Minut, Donato Crisostomi, Andrea Santilli, Emanuele Rodol\`a

arXiv:2502.10436v2 宣布类型: replace-cross 摘要：进化模型合并能够创建高性能的多任务模型，但仍然由于计算成本过高而在消费者硬件上不切实际。我们引入了MERGE$^3$，这是一种高效的框架，通过将适应性计算成本降低50倍而仍然保持性能，使得在单个GPU上实现进化合并成为可能。MERGE$^3$ 通过提取用于评估的小数据集、使用项目反应理论（IRT）评估模型能力以及使用基于IRT的性能估计算法演化最佳合并方式来实现这一点。我们的方法使得最先进的多语言和跨语言合并成为可能，并以显著降低的计算成本在不同语言之间转移知识。我们提供了理论保证并开源了一个库，使高质量模型合并更加普及。

发布时间: 3/25/2025

查看原文

RoSTE：一种高效的量化感知监督微调方法用于大型语言模型

作者: Quan Wei, Chung-Yiu Yau, Hoi-To Wai, Yang Katie Zhao, Dongyeop Kang, Youngsuk Park, Mingyi Hong

arXiv:2502.09003v2 宣告类型: replace-cross 摘要：监督微调是将预训练的大语言模型（LLMs）适应下游任务的标准方法。量化 recently 已经作为后训练技术被研究，用于高效部署大语言模型。为了获得量化微调的大语言模型，传统的管道通常先进行预训练模型的微调，然后进行后训练量化。这种方法往往会导致次优性能，因为它未能充分利用微调和量化之间的协同作用。为了有效实现大语言模型中权重、激活和 KV 缓存的低精度量化，我们提出了一种名为 Rotated Straight-Through-Estimator（RoSTE）的算法，该算法结合了量化感知监督微调（QA-SFT）和一种自适应旋转策略，该策略能够识别出一种有效的旋转配置以减少激活异常值。我们通过分析 RoSTE 在过参数化最小二乘量化训练问题中的预测误差，提供了 RoSTE 的理论洞察。我们的发现表明，预测误差直接与收敛权重的量化误差成正比，而这种误差可以通过优化旋转配置来有效管理。在不同规模的 Pythia、Qwen 和 Llama 模型上进行的实验表明了 RoSTE 的有效性。与现有的后 SFT 量化基线方法相比，我们的方法在各种任务和不同的大语言模型架构上始终能够获得更好的性能。

发布时间: 3/25/2025

查看原文

MaRS：基于ODE和SDE求解器的快速均值回复扩散抽样器

作者: Ao Li, Wei Fang, Hongbo Zhao, Le Lu, Ge Yang, Minfeng Xu

arXiv:2502.07856v4 宣布类型: 替换-交叉摘要：在扩散模型的应用中，可控生成具有实际意义，但也颇具挑战性。当前的可控生成方法主要集中在修改扩散模型的分数函数，而反向回归（MR）扩散直接修改了随机微分方程（SDE）的结构，使得图像条件的整合更加简单和自然。然而，当前的无训练快速采样器并不适用于MR扩散。因此，MR扩散需要数百次函数评估（NFEs）才能生成高质量的样本。在本文中，我们提出了一种新的算法，名为MaRS（MR采样器），以减少MR扩散的采样NFEs。我们解决了与MR扩散相关的逆时间为SDE和概率流常微分方程（PF-ODE），并推导出了半解析解。这些解由一个解析函数和一个由神经网络参数化的积分组成。基于这些解决方案，我们可以在更少的步骤中生成高质量的样本。我们的方法无需训练，并支持所有主流的参数化方式，包括噪声预测、数据预测和速度预测。广泛的实验表明，MR采样器在10种不同的图像恢复任务中，保持高质量的采样，并且速度提高了10至20倍。我们的算法加速了MR扩散的采样过程，使其在可控生成中更具实用性。

发布时间: 3/25/2025

查看原文

利用异音性在自我监督语音模型中进行非典型发音评估

作者: Kwanghee Choi, Eunjung Yeo, Kalvin Chang, Shinji Watanabe, David Mortensen

arXiv:2502.07029v2 宣告类型: replace-cross 摘要：音位异化是指音位在其发音环境中的音素现实形式的变化。建模音位异化对于非典型发音评估至关重要，涉及区分非典型发音和典型发音。然而，最近基于音位分类的方法通常通过将各种实现视为单个音位来简化这一点，绕过了建模音位异化变异的复杂性。受到冻结自监督语音模型（S3M）特征的声学建模能力的启发，我们提出MixGoP，这是一种利用高斯混合模型来利用多个子聚类建模音位分布的新方法。我们的实验表明，在四个出五个数据集中，MixGoP 达到了最先进的性能，包括构音障碍和非母语发音。我们的分析进一步表明，S3M 特征比 MFCC 和梅尔谱图更有效地捕捉音位异化变异，强调了将 MixGoP 与 S3M 特征集成的优势。

发布时间: 3/25/2025

查看原文

布局梦者：物理引导的布局生成文本到3D组合场景生成

作者: Yang Zhou, Zongjin He, Qixuan Li, Chao Wang

arXiv:2502.01949v2 宣告类型: replace-cross 摘要: 近年来，文本指导的3D场景生成领域引起了广泛关注。高质量且与物理现实相一致的生成，并且具有高度可控性，对于实际的3D场景应用至关重要。然而，当前的方法面临着根本性的局限：(i) 难以捕捉文本中描述的多个对象之间的复杂关系，(ii) 无法生成物理上可验证的场景布局，以及(iii) 组合场景缺乏可控性和扩展性。在本文中，我们介绍了一个名为 LayoutDreamer 的框架，该框架利用3D高斯点绘技术（3DGS）来促进由文本引导的高质量、物理上一致的组合场景生成。具体来说，给定一个文本提示，将其转换为有向场景图，并适应性地调整初始组合3D高斯点的密度和布局。随后，基于训练焦点动态调整相机设置，以确保实体级别的生成质量。最后，通过从场景图中提取有向依赖关系，我们定制物理和布局能量，以确保真实性和灵活性。全面的实验表明，LayoutDreamer 在其他组合场景生成质量和语义对齐方法中表现更优。具体来说，它在T3Bench的多对象生成指标上达到了最先进的（SOTA）性能。

发布时间: 3/25/2025

查看原文

理解模型校准——一个温和的介绍以及校准和预期校准误差（ECE）的可视化探索

作者: Maja Pavlovic

arXiv:2501.19047v3 宣布类型: replace-cross 摘要：为了被认为是可靠的，一个模型必须经过校准，使它在每个决策上的置信度密切反映其真实结果。在这篇博客中，我们将探讨最常用的校准定义，然后详细探讨一个常用的模型校准评估指标。接着，我们将讨论这一指标的一些缺点，这些缺点揭示了需要更多校准概念的需求，这些概念要求新的评估指标。本文的目的是不进行全面的校准研究，也不专注于如何校准模型。相反，本文旨在提供不同概念及其评估指标的温和介绍，并重新强调一个仍然广泛用于评估校准的指标所存在的问题。

发布时间: 3/25/2025

查看原文

全面综述自解释神经网络

作者: Yang Ji, Ying Sun, Yuting Zhang, Zhigaoyuan Wang, Yuanxin Zhuang, Zheng Gong, Dazhong Shen, Chuan Qin, Hengshu Zhu, Hui Xiong

arXiv:2501.15638v2 公告类型: replace-cross 摘要：神经网络在各个领域都取得了显著的成功。然而，缺乏可解释性限制了它们的实际应用，特别是在关键决策场景中。事后可解释性为预训练模型提供了解释，但经常存在鲁棒性和准确性的问题。这激发了对自解释性神经网络的兴趣，这些网络通过模型结构本身固有的方式揭示预测理由。尽管已经有关于事后可解释性的综述，但关于自解释性神经网络的全面和系统的综述仍然缺失。为了弥补这一空白，我们首先收集并回顾了现有的自解释性神经网络工作，并从五个关键视角提供了方法论的结构化总结：基于归因的自解释、基于功能的自解释、基于概念的自解释、基于原型的自解释和基于规则的自解释。我们还提出了模型解释的具体可视化示例，并讨论了它们在各种场景中的适用性，包括图像、文本、图数据和深度强化学习。此外，我们总结了现有的自解释性评估指标，并指出了该领域存在的开放挑战，为未来的研究提供了洞察。为了支持持续的发展，我们提供了一个公开访问的资源，以追踪该领域的进展：https://github.com/yangji721/Awesome-Self-Interpretable-Neural-Network。

发布时间: 3/25/2025

查看原文