arXiv 论文列表

作者: Gabriela Ben Melech Stan, Estelle Aflalo, Avinash Madasu, Vasudev Lal, Phillip Howard

arXiv:2504.14523v1 宣布类型: 新论文摘要: 在合成数据上训练模型已成为提高生成式AI性能的一项日益重要的策略。对于大型多模态模型（LMM），由于高质量的成对图像-文本数据稀缺，相比之下单文本数据较为丰富，这种方法尤为有益。虽然已经提出了多种方法生成大规模多模态数据集，但这些方法并未针对将要使用生成数据集训练的LMM的推理能力特定缺陷定制合成数据。相比之下，人类通常通过寻求与他们之前失败的推理类型相关的例子，以更高效的方式学习。受到这一观察的启发，我们提出了一种新的合成数据生成方法，该方法基于现有LMM推理错误的分析。我们的方法利用前沿模型自动分析较弱LMM产生的错误，并提出新的例子，这些例子可以用于通过额外训练纠正推理错误，然后进一步筛选以确保高质量。我们使用我们的方法生成了一个包含超过55.3万例的大型多模态指令调优数据集，并进行了广泛的实验，证明了它在多个下游任务中提高LMM性能的效用。结果显示，使用我们合成数据训练的模型甚至可以超越使用同等额外真实数据训练的LMM的性能，这表明生成针对LMM特定推理错误模式的合成数据具有很高的价值。我们将公开我们的数据集和代码。

发布时间: 4/22/2025

查看原文

通过多代理 reinforcement 学习实现 LLMs 的元思考：一个综述

作者: Ahsan Bilal, Muhammad Ahmed Mohsin, Muhammad Umer, Muhammad Awais Khan Bangash, Muhammad Ali Jamshed

arXiv:2504.14520v1 元类型思考类型：新摘要：本文综述了从多代理强化学习（MARL）视角考察大型语言模型（LLMs）元思考能力的发展。元思考涉及自我反思、评估和控制思维过程，这是增强LLM可靠性、灵活性和性能的重要下一步，特别是在复杂或高风险任务中。本文首先分析了当前LLM的限制，如虚幻和缺少内部自我评估机制。随后讨论了更先进的方法，包括从人类反馈中学习的强化学习（RLHF）、自蒸馏以及思维链提示，并分析了每种方法的局限性。本文的核心在于探讨多代理架构，例如监督代理层次结构、代理辩论和心智理论框架，如何模拟人类的内省行为，并增强LLM的鲁棒性。通过对MARL中的奖励机制、自我对弈和连续学习方法的探索，本文提供了一条全面的道路，以构建内省、适应性强且值得信赖的LLM。此外，还讨论了评估指标、数据集以及未来的研究方向，包括受神经科学启发的架构和混合符号推理。

发布时间: 4/22/2025

查看原文

透过风险看清局面：prospect理论的符号逼近

作者: Ali Arslan Yousaf, Umair Rehman, Muhammad Umair Danish

arXiv:2504.14448v1 宣告类型: 新摘要: 我们提出了一种新的符号建模框架，用于在风险下的决策制定，该框架将可解释性与前景理论的核心洞察相结合。我们的方法用透明且效应大小导向的特征取代了不透明的效用曲线和概率权重函数。我们从数学上正式化了该方法，展示了其复制已知的框架效应和损失回避现象的能力，并在合成数据集上提供了端到端的经验验证。所得到的模型在预测性能上具有竞争力，同时能够映射出与心理构建相一致的清晰系数，使其适用于从AI安全到经济政策分析等广泛应用。

发布时间: 4/22/2025

查看原文

特定任务推理模型中自我验证的几何学

作者: Andrew Lee, Lihao Sun, Chris Wendler, Fernanda Vi\'egas, Martin Wattenberg

arXiv:2504.14379v1 宣告类型: 新摘要：推理模型如何验证自己的答案？我们通过对CountDown任务使用DeepSeek R1的配方训练模型来研究这个问题。我们利用偏好调整会导致模式塌缩的事实，从而得到一个总是产生高度结构化且易于解析的推理过程序列的模型。在这种设置下，我们进行自上而下和自下而上的分析，逆向工程以了解模型如何验证其输出。我们的自上而下分析揭示了门线性单元（GLU）权重编码验证相关的标记，如“成功”或“错误”，这些权重根据模型推理步骤的正确性而激活。我们的自下而上分析揭示了“前一个标记的头”主要负责模型验证。我们的分析相互交集：借鉴层间通信通道的启发，我们使用识别出的GLU向量定位至多三个注意力头，这些头能够禁用模型验证，这指向了一个潜在更大验证电路必要组成部分。

发布时间: 4/22/2025

查看原文

数学规划模型用于神经网络的精确可解释形式表述

作者: Masoud Ataei, Edrin Hasaj, Jacob Gipp, Sepideh Forouzi

arXiv:2504.14356v1 宣告类型: 新摘要: 本文提出了一个统一的混合整数规划框架，用于训练稀疏且可解释的神经网络。我们通过使用二进制变量建模非线性激活（如ReLU激活），并通过滤波器级别和层级别剪枝约束来编码结构稀疏性，为全连接和卷积架构开发了精确的公式。由此产生的模型将参数学习、架构选择和结构正则化融为一体，通过对预测准确性、权重稀疏性和架构紧凑性的目标进行权衡，得到全局最优解。混合整数规划公式可以容纳分段线性操作，包括最大池化和激活门控，并允许对基于逻辑或特定领域的约束进行精确的强制执行。通过直接将可解释性、稀疏性和可验证性考虑纳入训练过程，所提出框架弥合了可解释人工智能、符号推理和形式验证等多个研究领域的差距。

发布时间: 4/22/2025

查看原文

时间到了！输出长度限制下大语言模型推理能力的实证研究

作者: Yi Sun, Han Wang, Jiaqiang Li, Jiacheng Liu, Xiangyu Li, Hao Wen, Huiwen Zheng, Yan Liang, Yuanchun Li, Yunxin Liu

arXiv:2504.14350v1 宣告类型: 新摘要: 最近的工作已经证明了大规模语言模型（LLMs）在测试时缩放方面的惊人潜力。通过让模型在回答问题之前先思考，它们能够在额外的推理计算下实现更高的准确性。然而，在许多实际场景中，模型往往处于时间约束之下，需要在特定的输出长度内给用户提供答案。目前尚不清楚在这些约束条件下，LLMs 的推理能力是否仍然有效，以及如何有效。我们通过对一个深入的实证研究来初步探讨这一问题。具体来说，我们在广泛的输出长度预算下测试了超过25种LLMs，并分析了推理准确性和各种特性（如模型类型、模型大小、提示风格等）之间的相关性。我们还考虑了令牌预算与实际设备延迟预算之间的映射关系。结果表明，在预算限制条件下，LLMs 的推理有一些与不受限制情况不同的有趣发现，例如，在不同预算下，最优的模型大小和提示选择会发生变化。这些发现为用户在实际延迟约束条件下部署LLMs 提供了实际指导。

发布时间: 4/22/2025

查看原文

FAIRGAME：一种基于博弈论的AI代理偏见识别框架

作者: Alessio Buscemi, Daniele Proverbio, Alessandro Di Stefano, The Anh Han, German Castignani, Pietro Di Li\`o

arXiv:2504.14325v1 通告类型: 新论文摘要: 让AI代理在多代理应用中互动增加了对AI结果可解释性和预测的复杂性，这对其在研究和社会中的可信应用产生了深远的影响。博弈论提供了强大的模型来捕捉和解释代理之间的战略互动，但仍需要可重现、标准化和用户友好的IT框架以使结果的比较和解释成为可能。为了解决这一问题，我们提出了FAIRGAME，一种基于博弈论的AI代理偏见识别框架。我们描述了其实施和使用方法，并利用它在流行的AI游戏中发现代理使用的大型语言模型（LLM）和使用的语言，以及代理的人格特质或战略知识引起的有偏见的结果。总的来说，FAIRGAME使用户能够可靠且轻松地模拟他们的游戏和场景，并在模拟战役之间以及与博弈论预测的结果进行比较，从而系统地发现偏见，预见战略性互动中出现的行为，并促进使用LLM代理的战略决策研究。

发布时间: 4/22/2025

查看原文

RadioDiff-Inverse：增强贝叶斯逆估计的扩散方法用于ISAC雷达图构建

作者: Xiucheng Wang, Zhongsheng Fang, Nan Cheng

arXiv:2504.14298v1 声明类型: 新摘要: 无线图（RMs）对于环境感知通信和传感至关重要，提供了特定地点的无线信道信息。现有的RM构建方法通常依赖于精确的环境数据和基站（BS）位置，而在动态或涉及隐私的环境中，这些数据并不总是可用的。尽管稀疏测量技术可以减少数据收集，但稀疏数据中的噪声对RM准确性的影响仍不太了解。本文通过在粗糙的环境知识和噪声稀疏测量下将RM构建形式化为贝叶斯逆问题来应对这些挑战。尽管最大后验（MAP）滤波提供了最优解决方案，但它需要精确的RM先验分布，而这种分布通常不可用。为了解决这一问题，我们提出了RadioDiff-Inverse，一种增强扩散的贝叶斯逆估计框架，利用无条件生成扩散模型学习RM先验。该方法不仅重建了无线信道特征的空间分布，还通过集成传感和通信（ISAC）能够感知环境结构，如建筑物轮廓和基站位置，仅仅依靠路径损耗。值得注意的是，RadioDiff-Inverse 是无需训练的，利用来自ImageNet的预训练模型，无需特定任务的微调，这显著降低了在无线网络中使用生成大型模型的训练成本。实验结果表明，RadioDiff-Inverse 在RM构建准确性和环境重建方面的性能达到了最新水平，并且在嘈杂稀疏采样下表现出较强的鲁棒性。

发布时间: 4/22/2025

查看原文

链条former：从链条视角进行知识图谱上的数值推理

作者: Ze Zhao, Bin Lu, Xiaoying Gan, Gu Tang, Luoyi Fu, Xinbing Wang

arXiv:2504.14282v1 通知类型: 新摘要：在知识图谱（KGs）上进行推理在知识图谱完成或问答系统中发挥着至关重要的作用，提供更加丰富和准确的三元组和属性。随着数值属性在描述KG中的实体和关系方面变得越来越重要，对这些属性进行推理的能力变得尤为重要。现有的基于图的方法，如图神经网络（GNNs）和知识图嵌入（KGEs），主要侧重于聚合同质的局部邻域并且隐式的嵌入各种三元组。然而，这些方法往往无法充分利用图中逻辑路径的潜力，限制了它们在利用推理过程中的有效性。为了解决这些限制，我们提出了一种名为ChainsFormer的新型基于链的框架，以支持数值推理。Chainsformer不仅显式地构建逻辑链，还扩展了推理深度到多跳。特别地，我们引入了关系-属性链（RA-Chains）这种专门的逻辑链，以建模序列推理模式。ChainsFormer通过采用顺序的上下文学习机制，捕捉沿着RA-Chains进行多跳推理的逐步性质。为了缓解噪声链的影响，我们提出了一种超球面亲和评分机制，能够在可变分辨率空间中选择相关的逻辑链。此外，ChainsFormer整合了一种基于注意力的数值推理器，以识别关键的推理路径，从而增强推理的准确性和透明度。实验结果表明，ChainsFormer显著优于现有最佳方法，在性能上提高了高达20.0%。代码实现可在https://github.com/zhaodazhuang2333/ChainsFormer上获得。

发布时间: 4/22/2025

查看原文

ProtPainter: 通过拓扑引导扩散进行蛋白绘制或拖放

作者: Zhengxi Lu, Shizhuo Cheng, Yuru Jiang, Yan Zhang, Min Zhang

arXiv:2504.14274v1 新闻类型: 新闻摘要: 近年来，在结构、功能或物理约束下的蛋白质骨干生成取得了令人鼓舞的结果。然而，现有的方法缺乏精确拓扑控制的灵活性，限制了骨干空间的导航。我们提出了ProtPainter，这是一种基于扩散的方法，用于生成以3D曲线为条件的蛋白质骨干。ProtPainter遵循一个两阶段过程：基于曲线的草图绘制和草图引导的骨干生成。在第一个阶段，我们提出了CurveEncoder，它可以预测从曲线中得到的二级结构注释，从而参数化草图生成。对于第二阶段，草图在去噪扩散概率建模（DDPM）中引导生成过程以生成骨干。在此过程中，我们还引入了一种融合调度方案，Helix-Gating，以控制缩放因子。为了评估，我们提出了第一个针对拓扑条件的蛋白质生成基准，引入了蛋白质恢复任务和一个新的度量标准，自我一致性拓扑适应度（scTF）。实验表明，ProtPainter能够在scTF > 0.8的情况下生成适应拓扑（scTF > 0.8）和可设计（scTM > 0.5）的骨干，并且绘图和拖动任务展示了其灵活性和多功能性。

发布时间: 4/22/2025

查看原文