arXiv:2502.01344v1 宣告类型: 新
摘要:在大语言模型(LLMs)推理结果准确性的提升方面,引起了社区的关注。其中,先驱性的研究着力于探讨事后纠正潜在错误的策略。尽管付出了大量的努力,但它们仍然陷入资源竞争的困境,需要耗费大量时间和计算资源。这种情况的根本原因是未能识别出这一领域的基本特征,称之为LLMs的自我否定。简而言之,LLMs应当自信地确定潜在错误的存在,并仔细执行针对性的修正。由于整个过程都在LLMs内部进行,难以获得支持和说服性的参考,而即使承认了错误,具体步骤的欠缺依旧存在于解决隐藏错误的问题中。针对这些挑战,我们提出了PSSD,这是一种借鉴和实施人类心理结构的方法。具体而言,PSSD利用了最新的多代理范式,并进一步增强了三个创新构思的角色:(1)基于直觉的自我角色,基于良性LLMs提供初始尝试;(2)规则驱动的超我角色,概括规则以调节上述尝试,并返回具体的要点作为指导;(3)以脚本为中心的本我角色,吸收所有程序信息以生成可执行脚本,用于最终答案预测。广泛实验证明,所提出的设计不仅更好地增强了推理能力,还能无缝集成当前模型,从而实现更好的性能。
arXiv:2502.01253v1 说明类型: 新颖
摘要: 该论文介绍了一种基于数据驱动洞察设计的说明框架,旨在提高知识推理系统的规则质量。传统的从数据中生成规则的方法通常需要繁重的手工标注和数据驱动的学习。该框架提供了一种替代方案,允许通过数据驱动的方式细化现有规则:它生成规则推理的说明,并利用人类的解释来细化规则。该框架利用了四种互补的说明类型:追踪式、上下文式、对比式和反事实式,提供了不同视角以调试、验证和最终细化规则。通过将可解释性嵌入到推理架构中,该框架使知识工程师能够解决不一致性、优化阈值,并确保决策过程中的公平性、透明性和可解释性。其实用性的示例通过一个金融领域的案例得到证明。
arXiv:2502.01232v1 宣告类型: 新
摘要: 归纳逻辑程序设计(ILP)的目标是找到一组逻辑规则,这些规则可以泛化训练示例和背景知识。我们介绍了一种ILP方法,用于识别无用的规则。一条规则如果包含冗余的谓词或无法区分负例,则被视为无用。我们展示了忽略无用规则可以使ILP系统安全地修剪假设空间。在多个领域的实验,包括视觉推理和游戏玩,表明我们的方法可以在保持预测精度的同时将学习时间减少99%。
arXiv:2502.01187v1 通知类型: 新
摘要:大型语言模型(LLMs)中的记忆化存在隐私和安全风险,因为模型可能会无意中复制敏感或版权受保护的数据。现有分析主要集中在平均情况场景上,往往忽略了记忆化分布的严重偏斜。本文研究了监督微调(SFT)中的记忆化,探讨了其与训练时间、数据集大小以及样本间相似性之间的关系。通过分析序列长度上的记忆化概率,我们将这种偏斜与token生成过程联系起来,为估计记忆化并将其与已建立的度量标准进行比较提供了见解。通过理论分析和实证评估,我们提供了对记忆化行为的全面理解,并提出了一些建议来检测和缓解风险,从而促进更具有隐私保护性的LLMs。
arXiv:2502.01160v1 宣告类型: 新
摘要: 量化信息流分析(QIF)是一类用于测量程序泄露给其公共输出的机密信息量的技术。香农熵是一种重要的方法,用于量化QIF中的泄露量。本文关注的是用布尔约束模型化的程序,并优化了香农熵计算的两个阶段,以实现一个可扩展的精确工具PSE。在第一阶段,我们设计了一种称为\ADDAND的知识编译语言,该语言结合了代数决策图和合取分解。\ADDAND避免枚举程序的可能输出,并支持可处理的熵计算。在第二阶段,我们优化了用于计算输出概率的模型计数查询。我们将PSE与现有的最先进很可能近似工具EntropyEstimation进行了比较,EntropyEstimation被证明在现有的精确工具中表现显著更优。实验结果表明,在总共441个基准测试中,PSE比EntropyEstimation多解决了55个基准测试。对于PSE和EntropyEstimation都能解决的98%的基准测试,PSE至少比EntropyEstimation快10倍。
arXiv:2502.01142v1 宣布类型: new
摘要: 大型语言模型(LLMs)在推理方面表现出色,但由于参数知识的时间性、准确性和覆盖面,它们仍然会遭受严重的事实幻觉。同时,将推理与检索增强生成(RAG)集成仍然具有挑战性,因为任务分解不有效和检索冗余可能导致引入噪声并降低响应质量。本文提出了一种名为DeepRAG的框架,将检索增强推理建模为马尔可夫决策过程(MDP),从而实现战略性且适应性的检索。通过迭代分解查询,DeepRAG在每一步动态决定是检索外部知识还是依赖于参数推理。实验结果表明,DeepRAG在提高检索效率的同时,回答准确性提高了21.99%,证明了其在优化检索增强推理方面的有效性。
arXiv:2502.01116v1 宣告类型: 新
摘要: 大型语言模型(LLMs)已经成为解决广泛一般性问题和任务的强大工具。尽管如此,在对较小的领域特定数据集进行微调时,这些数据集对于适应特定任务至关重要,但却可能无意中恶化其安全性对齐,即使这些数据集是无辜的。这种现象使得模型更易提供不合适的回答。在本研究中,我们系统地检查了无辜微调场景中安全性对齐恶化的原因。我们的分析确定了三个影响对齐LLMs的关键因素:答案结构、身份校准和角色扮演。此外,我们评估了最先进奖励模型(RMs)的可靠性,这些模型在对齐过程中通常用于指导过程。我们的研究发现,这些RMs频繁无法准确反映人类关于安全性的偏好,突显了它们在实际应用中的局限性。通过揭示这些挑战,我们的工作强调了在微调过程中保持安全性对齐的复杂性,并提供了指导,以帮助开发人员在LLMs中平衡实用性与安全性。在我们的实验中使用的数据集和微调代码可以在 https://github.com/GuanlinLee/llm_instruction_tuning 找到。
arXiv:2502.01100v1 逻辑推理类型: 新文章
摘要: 我们研究了大型语言模型(LLMs)的逻辑推理能力及其在复杂非单调推理中的可扩展性。为此,我们引入了ZebraLogic,这是一个全面的评估框架,用于评估LLM在基于约束满足问题(CSPs)的逻辑网格谜题上的推理性能。ZebraLogic能够生成具有可控制和量化的复杂性的谜题,从而促进对Llama、o1模型和DeepSeek-R1等模型的缩放限制的系统性研究。通过涵盖广泛的搜索空间复杂性和多样的逻辑约束,ZebraLogic提供了一个结构化的环境来评估在增加难度情况下的推理能力。
我们的结果揭示了随着问题复杂性的增加,准确率显著下降——我们称之为复杂性的诅咒。即使采用了更大的模型和更多的推理时间计算,这一限制仍然存在,表明当前LLM推理能力中存在固有的限制。此外,我们还探讨了增强逻辑推理的策略,包括Best-of-N采样、回溯机制和自我验证提示。我们的发现为LLM推理的可扩展性提供了关键见解,指出了根本性的限制,并列出了改进的潜在方向。
arXiv:2502.00873v1 知识类型:新
摘要:数学推理正逐渐成为衡量大语言模型(LLM)能力的重要指标,然而我们缺乏理解LLM在执行甚至简单的数学任务时如何处理这些任务的知识。为了解决这一问题,我们反向工程了三种中型LLM进行加法运算的方式。首先,我们发现这些LLM中数字以一种通用的螺旋形式表示,这种形式在加法和减法任务中具有很强的因果性,并且对整数除法、乘法和模算术也具有因果相关性。我们随后提出,LLM通过使用“时钟”算法操作这种通用的螺旋形式来计算加法:为了计算$a+b$,$a$和$b$的螺旋被操作以生成$a+b$答案的螺旋,然后从中读取模型对数。我们利用这些螺旋来建模有影响力的MLP输出、注意力头输出,甚至单个神经元的预激活,并通过因果干预验证我们的理解。通过展示LLM如何将数字表示在螺旋上,并操作这个螺旋来进行加法,我们提供了第一个关于LLM数学能力的表示层次上的解释。
arXiv:2502.00858v1 宣告类型: 新
摘要: 将AI代理有效集成到日常生活中,要求它们理解和适应个人的人类偏好,尤其是在协作角色中。尽管最近关于具身智能的研究取得了显著进展,但这些研究通常采用通用方法,忽略了规划中的个人偏好。我们通过开发既可以从少量示范中学习偏好,又可以基于这些偏好学习调整其规划策略的代理来解决这一局限性。我们的研究利用了这样一个观察:尽管偏好通过少量的示范隐含表达,但它们可以跨多种规划场景进行泛化。为了系统地验证这一假设,我们引入了基于偏好规划(PbP)基准,这是一种具身基准,涵盖了从原子动作到复杂序列的数百种不同的偏好。对当前最佳方法的评估显示,虽然基于符号的方法在可扩展性方面显示出潜力,但在学习生成和执行满足个性化偏好的计划方面仍存在重大挑战。我们还进一步证明,将学习到的偏好作为规划中的中间表示,可以显著提高代理构建个性化计划的能力。这些发现确立了偏好作为适应性规划中有价值的抽象层,为基于偏好的计划生成和执行研究开辟了新的方向。