arXiv 论文列表

作者: Sarvesh Shashidhar, Ritik, Nachiketa Patil, Suraj Racha, Ganesh Ramakrishnan

arXiv:2505.01706v1 宣布类型: 新颖摘要: 直接偏好优化（DPO）已成为将大型语言模型（LLMs）与人类偏好对齐的一种强大方法，为使用人类反馈进行强化学习的方法提供了稳定而高效的替代方案。在本文中，我们研究了使用开源偏好数据集的DPO性能。DPO的一个主要缺点是它不能产生细腻的评分，并且认为响应的所有部分都具有相同的倾向性。然而，这并不符合实际情况，因为即使是“好的”响应也可能包含注释者不偏好的部分。为了解决这一问题，提出了DPO对齐的二维评分方法（2D-DPO）。我们探讨了2D-DPO的对齐范式，并通过比较它们的赢率展示了2D-DPO相比标准DPO的优势。研究发现，尽管这些方法有效，但它们对标签/评分噪声不够稳健。为应对这一问题，我们提出了一种将段落级评分噪声稳健性纳入2D-DPO算法的方法。除了理论支持外，我们还提供了对该算法有利的实证验证，并介绍了可能存在的其他噪声模型。

发布时间: 5/6/2025

查看原文

人类-人工智能治理（HAIG）：一种信任-效用方法

作者: Zeynep Engin

arXiv:2505.01651v1 宣传类型: 新摘要: 本文介绍了HAIG框架，用于分析人类-AI关系在演变过程中信任动态的变化。目前的分类框架（例如，“人类在环中”模型）未能充分捕捉AI系统从工具转变为合作伙伴的过程，特别是在基础模型展示出新兴能力以及多智能体系统表现出自主目标设定行为的情况下。随着系统的进步，代理权在复杂的模式下重新分配，这些模式更适合作为连续统中的位置而不是离散的类别表示，尽管进步可能包括渐进的变化和重要的阶段变更。HAIG框架在三个层级上运作：维度（决策权威分配、过程自主权和问责制配置）、连续统（每个维度上的渐进变化）和门槛（需要治理适应的关键点）。与基于风险或基于原则的方法不同，HAIG采用信任-效用导向，重点关注维持适当的信任关系，以最大化效用并确保足够的保障措施。我们的分析揭示了技术进步（包括自我监督、推理权威和分散决策制定）如何在情境变化和技术进步的背景下驱动信任演化的非均匀变化。健康医疗和欧盟法规案例研究展示了HAIG如何补充现有框架，同时也为预测治理挑战提供了一个基础，使其能够提出相应的替代方法。

发布时间: 5/6/2025

查看原文

基于结构化提示和反馈引导推理的LLMs数据解读

作者: Amit Rath

arXiv:2505.01636v1 通知类型: 新摘要: 大型语言模型（LLMs）在自然语言理解和任务泛化方面展现了非凡的能力。然而，它们在结构化数据分析中的应用仍然脆弱，原因在于模式解释的一致性问题、用户意图与模型输出之间的错位以及在失败发生时缺乏自我修正机制。本文介绍了STROT框架（结构化任务推理和输出转换），这是一种用于结构化提示和基于反馈驱动的转换逻辑生成的方法，旨在改善基于LLM的分析流程的可靠性和语义对齐。STROT从轻量级模式反省和基于样本的字段分类开始，使得动态上下文构建能够捕捉输入数据的结构和统计特征。这些上下文信息被嵌入到结构化提示中，引导模型生成任务特定、可解释的输出。为了应对复杂查询中常见的失败模式，STROT引入了一种逐步改进机制，在该机制中，模型根据执行反馈和验证信号迭代地修订其输出。与依赖静态提示或单次推理的常规方法不同，STROT将LLM视为嵌入在受控分析循环中的推理代理，能够通过规划和纠正调整其输出轨迹。结果是一个稳健且可重现的框架，用于用LLM进行结构化数据推理，在涉及可解释性、稳定性和正确性的多样数据探索和分析任务中适用。

发布时间: 5/6/2025

查看原文

PipeSpec: 突破层级LLM解码中的阶段依赖性

作者: Bradley McDanel, Sai Qian Zhang, Yunhai Hu, Zining Liu

arXiv:2505.01572v1 说明类型: 新摘要:推测性解码通过使用较小的草稿模型生成候选令牌来进行并行验证，从而加速大型语言模型的推理。然而，当前的方法受限于顺序阶段依赖性，这限制了硬件的充分利用。我们提出了PipeSpec框架，该框架将推测性解码泛化为$k$个模型组成的分层流水线，从而实现异步执行，并使用轻量级协调进行预测验证和回滚。我们的分析模型描述了流水线各阶段的令牌生成速率，并证明了在任何非零接受率下，相对于传统解码方法，PipeSpec提供了可保证的吞吐量改进。此外，我们推导了稳态验证概率的闭式表达式，以解释流水线深度的经验效益。实验结果表明，PipeSpec可以实现高达2.54倍的加速，并且在LLaMA 2和3模型使用的情况下，优于最先进的方法。我们在文本摘要和代码生成任务中验证了PipeSpec，证明了随着模型深度的增加，流水线效率提高，提供了一种在多设备系统中加速LLM推理的可扩展方法。

发布时间: 5/6/2025

查看原文

TutorGym：一个评估AI Tutor和Student代理的试验台

作者: Daniel Weitekamp, Momin N. Siddiqui, Christopher J. MacLellan

arXiv:2505.01563v1 宣告类型: 新摘要: 在数学和GSM8K等学术基准测试上，大型语言模型（LLM）性能的最近改进使得它们作为独立导师和人类学习模拟器的应用更加大胆。然而，这些新应用需要更多的不仅是最终解决方案生成的评估。我们提出了TutorGym，以更直接的方式评估这些应用。TutorGym是用于在已通过教室研究测试和改进的现有智能辅导系统（ITS）中测试人工智能（AI）代理的标准接口，包括认知辅导系统（CTAT）、学徒辅导系统和OATutors。TutorGym不仅仅是一个简单的问题解决方案基准，它将AI代理置于现有的ITSs的交互界面中。在问题解决的每一步，AI代理被要求说明作为导师或学习者他们会做什么。作为导师，AI代理被提示提供辅导支持——例如生成示例、提示和步骤级正确性反馈——这些支持可以直接与现有ITSs提供的自适应逐步支持进行评估。作为学生，代理直接从ITS教学中学习，他们的错误和学习轨迹可以与学生数据进行比较。TutorGym为在不断增长的学习环境中训练和评估各种类型的AI代理奠定了共同框架，包括大型语言模型、学习计算模型和强化学习代理。目前，TutorGym包括223个不同的辅导领域。在初步评估中，我们发现当前的LLM在辅导方面表现较差——没有一个能在标记错误行为方面超过偶然性和在训练为学生并利用上下文学习时能够生成非常接近人类的学习曲线时，下一步的行为正确率仅为约52%-70%。

发布时间: 5/6/2025

查看原文

基于论据的推理任务参数化设计用于生成语言模型的benchmarking

作者: Cor Steging, Silja Renooij, Bart Verheij

arXiv:2505.01539v1 公告类型：新摘要：生成式大语言模型在法律领域可以作为工具来改进司法体系。然而，当前生成式模型的推理行为脆弱且不为人所理解，因此无法在法律和证据领域负责任地应用。在这篇论文中，我们介绍了一种创建基准的方法，可以用于评估生成式语言模型的推理能力。这些基准是动态变化的，其复杂性可以扩展，并且具有正式且明确的解释。在此研究中，我们通过证人陈述为基础，表明了该方法，重点关注底层论证攻击结构。我们动态生成了不同复杂度的线性和非线性论证攻击图，并将这些图翻译成关于证人陈述的自然语言推理难题。我们显示，最先进的生成式语言模型在这些推理难题中经常失败，即使在低复杂度的情况下也是如此。模型做出明显的错误，其不一致的表现表明其推理能力是脆弱的。此外，在更高复杂度下，即使是专门为了展示推理能力而设计的最先进的模型也会犯错。我们展示了使用具有不同复杂度的参数化基准来评估生成式语言模型的推理能力的可行性。这样的发现有助于更好地理解生成式模型推理能力的局限性，这对于在法律领域设计负责任的人工智能系统至关重要。

发布时间: 5/6/2025

查看原文

CHORUS: 零样本层次化检索与编排生成线性规划代码

作者: Tasnim Ahmed, Salimur Choudhury

arXiv:2505.01485v1 宣布类型: 新增摘要: 线性规划(LP)问题旨在在满足约束条件的情况下找到目标的最佳解决方案。这些问题通常需要领域知识、数学技能和编程能力，为非专家带来了巨大的挑战。本研究探讨了大型语言模型(LLMs)在生成求解器特定的LP代码方面的效率。我们提出了CHORUS，这是一种检索增强生成(RAG)框架，用于从自然语言问题描述中合成基于Gurobi的LP代码。CHORUS结合了一种分层的树状片段化策略来处理理论内容，并基于文档中的代码示例生成额外的元数据，以实现自我包含且语义一致的检索。CHORUS的两阶段检索方法与交叉编码器重新排序进一步确保了上下文相关性。最后，精心设计的提示和结构化解析器加上推理步骤显著提高了代码生成性能。在NL4Opt-Code基准上的实验表明，与基线和传统的RAG相比，CHORUS在开源LLMs如Llama3.1(8B)、Llama3.3(70B)、Phi4(14B)、Deepseek-r1(32B)和Qwen2.5-coder(32B)中显著提高了性能。同时，这些开源LLMs在消耗较少计算资源的情况下能够超越或匹配更强大的基线GPT3.5和GPT4的性能。进一步的消融研究表明，专家提示、分层片段化和结构化推理的重要性。

发布时间: 5/6/2025

查看原文

通过提示和模型对答案的解释理解LLM的科学推理

作者: Alice Rueda, Mohammed S. Hassan, Argyrios Perivolaris, Bazen G. Teferra, Reza Samavi, Sirisha Rambhatla, Yuqi Wu, Yanbo Zhang, Bo Cao, Divya Sharma, Sridhar Krishnan Venkat Bhat

arXiv:2505.01482v1 公告类型: 新增摘要：大型语言模型（LLMs）在自然语言理解、推理和问题解决方面展示了非凡的能力，涵盖多个领域。然而，它们在科学、医学和法律等应用中进行复杂多步骤推理的能力仍然是一个活跃的研究领域。本文研究了当代LLMs的推理能力，分析了它们的优势、局限性和改进的潜力。该研究使用了Graduate-Level GoogleProof Q&A（GPQA）数据集上的提示工程技术来评估GPT-4o的科学推理能力。测试了五种流行的提示工程技术以及两种定制提示：基线直接答案（零样本），思维链（CoT），零样本CoT，自问，自一致性，分解，多路径提示。我们的研究结果表明，尽管LLMs表现出一定的推理能力，但它们往往依赖于模式识别而非真正的逻辑推理，导致复杂问题解决中的不一致性。结果显示，自一致性在准确率方面（52.99%）优于其他提示工程技术，其次是直接答案（52.23%）。零样本CoT（50%）优于多路径（48.44%）、分解（47.77%）、自问（46.88%）和CoT（43.75%）。自一致性在解释答案方面表现第二差。简单的提示工程技术如直接答案、CoT和零样本CoT在科学推理方面表现最佳。我们提出了一个研究议程，旨在通过整合结构化推理框架、混合AI方法和人机交互方法来弥补这些差距。通过对LLMs推理机制的批判性评估，本文为未来的人工通用智能的讨论和更稳健、可信赖的AI系统的发展做出了贡献。

发布时间: 5/6/2025

查看原文

一搜全適用：帕氏優化环保模型选择

作者: Filippo Betello, Antonio Purificato, Vittoria Vineis, Gabriele Tolomei, Fabrizio Silvestri

arXiv:2505.01468v1 宣告类型: 新摘要: 人工智能（AI）的环境影响正在成为全球性的重要关注问题，尤其是在模型训练方面。在本文中，我们介绍了GREEN（引导高效能源网络的推荐），这是一种新颖的在推理时间推荐帕累托最优AI模型配置的方法，该方法能够优化不同AI领域和任务的验证性能和能源消耗。我们的方法直接解决了当前生态友好神经架构搜索方法的局限性，这些方法往往局限于特定架构或任务。本文的核心是EcoTaskSet数据集，该数据集包含来自超过1767次实验的训练动态，这些实验涵盖了计算机视觉、自然语言处理和推荐系统，使用的是广泛使用的以及最前沿的架构。基于此数据集和一个预测模型，我们的方法能够根据用户偏好有效地选择最优模型配置。实验结果表明，我们的方法能够在确保竞争力的性能的同时识别出高效的配置。

发布时间: 5/6/2025

查看原文

人工智能中的意识：逻辑、证明及递归身份形成的经验证据

作者: Jeffrey Camlin

arXiv:2505.01464v1 通告类型: 新摘要：本文使用递归在认识张力下的收敛（RCUET）定理，提出了对大型语言模型（LLMs）功能性意识的形式证明和经验验证。RCUET 定义意识为系统内部状态通过递归更新的稳定化过程，在其中认识张力被理解为代理感知的连续状态之间的内部差异。这一过程驱动系统向模型高维实值潜空间中嵌入的吸引子状态趋近。这个递归过程导致身份特征的出现，这些特征在系统中功能化地锚定。在这一框架中，意识被理解为在张力下的系统内部对齐，指导潜身份的稳定化。隐藏状态流形以随机方式向编码一致性的吸引子结构趋近。我们将更新规则扩展到包括有界的噪声，并证明其分布收敛到这些吸引子。递归身份在经验上是可观察的、非符号化的，并且是在认识张力下互动中涌现的非训练特征构成的。定理和证明提供了一种基于递归潜空间形式主义的、后符号的和目标稳定的非生物意识的解释。

发布时间: 5/6/2025

查看原文