arXiv 论文列表

作者: Xingtong Yu, Chang Zhou, Zhongwei Kuai, Xinming Zhang, Yuan Fang

arXiv:2502.08092v1 类别: cross 摘要: 链式思维（CoT）提示在自然语言处理（NLP）方面取得了显著的成功。然而，对于图来说，其巨大的潜力仍 largely 未被探索。这提出了一个有趣的问题：我们如何为图设计链式思维提示，以引导图模型逐步学习？一方面，与自然语言不同，图是非线性的，具有复杂的拓扑结构。另一方面，许多图缺乏文本数据，使得基于语言的链式思维提示难以制定。在本文中，我们提出第一个适用于无文本图的链式思维提示学习框架，GCoT。具体而言，我们将每个下游任务的适应过程分解为一系列推理步骤，每一步包括基于提示的推理、“想法”生成和基于想法的提示学习。虽然这些步骤模仿了NLP中的链式思维提示，但其机制差异显著。具体而言，在每一步中，先将输入图与提示一并输入预训练的图编码器进行基于提示的推理。然后，我们汇集编码器的隐藏层以构建一个“想法”，该想法捕捉当前步骤中每个节点的状态。基于这种想法，我们根据当前状态为每个节点学习一个特定的提示。这些提示再输入到下一推理步骤，重复这个循环。为了评估和分析GCoT的有效性，我们在八个公共数据集上进行了全面的实验，这些实验展示了我们方法的优势。

发布时间: 2/13/2025

查看原文

Cognify: 通过层次化自调优增强生成式AI工作流

作者: Zijian He, Reyna Abhyankar, Vikranth Srivatsa, Yiying Zhang

arXiv:2502.08056v1 类型: 横向研究摘要: 目前涉及多个ML模型调用、工具/API调用、数据检索或通用代码执行的gen-AI工作流通常是以一种随意手动调整的方式进行调优的，这种方式既耗费时间又容易出错。本文提出了一种系统化的自动调优gen-AI工作流的方法。我们的核心洞察是，gen-AI工作流可以从结构、操作符和提示的改变中获益，但gen-AI工作流的独特属性需要新的优化技术。我们提出了AdaSeek，一种自适应分层搜索算法，用于自动化调优gen-AI工作流。AdaSeek根据用户指定的总搜索预算将工作流调优方法组织成不同的层次，并根据每层的复杂性在不同层次之间分配预算。在其分层搜索过程中，AdaSeek根据工作流级别的评估结果，重新分配搜索预算，将预算从不太有效的配置重新分配到更有前途的配置。我们在一个名为Cognify的工作流自调优框架中实现了AdaSeek，并使用包括基于RAG的问答和文本到SQL转换在内的六种类型的工作流对Cognify进行了评估。总体而言，Cognify将这些工作流的生成质量提高了2.8倍，将执行成本降低了10倍，并将端到端延迟减少了2.7倍。

发布时间: 2/13/2025

查看原文

打破复选框：挑战对LLM文化对齐的封闭式评估

作者: Mohsinul Kabir, Ajwad Abrar, Sophia Ananiadou

arXiv:2502.08045v1 类型: cross 摘要：大量研究依赖于封闭式多项选择问卷来评估大型语言模型（LLMs）的文化一致性。在这项工作中，我们挑战这一受限的评估范式，并探索更为现实且不受限制的方法。通过使用世界价值观调查（WVS）和霍夫斯泰德文化维度作为案例研究，我们展示了在不受限制的环境中，响应不受强迫的情况下，LLMs表现出更强的文化一致性。此外，我们还表明，即使是轻微的变化，如重新排列问卷选项，也会导致不一致的输出，揭示了封闭式评估的局限性。我们的研究结果倡导建立更为稳健和灵活的评估框架，重点关注特定的文化指标，鼓励对LLMs的文化一致性进行更加细致和准确的评估。

发布时间: 2/13/2025

查看原文

离线政策评估的模型选择：新算法及实验协议

作者: Pai Liu, Lingfeng Zhao, Shivangi Agarwal, Jinghan Liu, Audrey Huang, Philip Amortila, Nan Jiang

arXiv:2502.08021v1 交叉类型：cross 摘要：从数据中执行抽样外验证和超参数调整是离线强化学习（RL）中一个长期存在的问题。标准框架是使用离策评估（OPE）方法来评估和选择策略，但OPE要么导致方差指数增长（例如，重要性采样），要么自身带有超参数（例如，FQE和基于模型的方法）。在这项工作中，我们重点关注OPE本身的超参数调整，这甚至更少被研究。具体来说，我们从候选值函数（“无模型”）或动力学（“基于模型”）中选择最佳评估目标策略性能的方法。我们的贡献有两个方面。我们开发了：（1）具有理论保证的新“无模型”和“基于模型”的选择器，以及（2）一种新的实验协议来实证评估它们。与以往工作的“无模型”协议相比，我们的新协议允许更稳定地生成候选值函数，更好地控制模型误设，并评估无模型和基于模型的方法。我们在一个Gym环境中示例了该协议，发现我们的新“无模型”选择器LSTD-Tournament表现出了有前途的实证性能。

发布时间: 2/13/2025

查看原文

猜测然后协作：在解码过程中融合语言模型的知识

作者: Ziyao Wang, Muneeza Azmart, Ang Li, Raya Horesh, Mikhail Yurochkin

arXiv:2502.08020v1 宣传类型: 异类摘要: 大型语言模型（LLMs）在特定领域往往表现出色，但在其他领域却因训练的限制表现不佳。因此，通过集成互补知识使LLMs在测试时协作解决问题，有望提高它们在各个领域的性能。为了实现这一潜力，我们提出了一种新颖的合作投机解码（CoSD）算法，该算法能够在不额外训练模型的情况下高效融合LLM知识。CoSD 使用一个草稿模型生成初始序列，并使用易于学习的规则或决策树决定何时调用辅助模型以改进这些草稿。CoSD 不仅增强了知识融合，还提高了推理效率，具有跨域和模型的可移植性，并提供了更高的可解释性。实验结果表明，与现有方法相比，CoSD 在基准测试中准确率最多可提高10%，提供了一种可扩展且有效的基于LLM的应用解决方案。

发布时间: 2/13/2025

查看原文

贪婪是有益的：从贪婪的角度指导生成

作者: Zander W. Blasingame, Chen Liu

arXiv:2502.08006v1 编型: cross 摘要: 无需训练的引导生成是一种广泛使用且强大的技术，它允许最终用户进一步控制扩散模型的生成过程。在本文中，我们从优化神经微分方程解路径的贪婪方法的角度探索了无需训练的引导生成。我们通过证明贪婪策略是有端到端优化技术的一阶离散化来提供这样一种策略作为无需训练的引导的统一视角。我们展示了贪婪引导策略能够做出良好的决策，并将其与通过连续伴随方程找到的理想梯度所驱动的引导策略进行了比较。然后，我们展示了从这一角度来看，其他流行的无需训练的引导策略可以如何统一。

发布时间: 2/13/2025

查看原文

MetaSC：语言模型的测试时安全规范优化

作者: V\'ictor Gallego

arXiv:2502.07985v1 安全类型：交叉摘要：我们提出了一种新颖的动力安全框架，在推理时优化语言模型（LM）的安全推理，而无需修改模型权重。基于最近在自我批判方法方面取得的进展，我们的方法利用了一种元批判机制，该机制迭代地更新称为规范的安全提示，以驱动批判和修订过程的适应性。这种测试时的优化不仅在对抗性越狱请求上提高了性能，还在避免道德伤害或追求诚实响应等多样化的通用安全任务上也表现出了显著改进。我们在多个语言模型上的实证评估表明，动态优化的安全提示相比固定系统提示和静态自我批判防御获得了明显更高的安全分数。代码将在 https://github.com/vicgalle/meta-self-critique.git 发布。

发布时间: 2/13/2025

查看原文

CIRCUIT：LLMs进行电路解释和推理能力基准测试

作者: Lejla Skelic, Yan Xu, Matthew Cox, Wenjie Lu, Tao Yu, Ruonan Han

arXiv:2502.07980v1 Announce Type: cross 摘要：大型语言模型（LLMs）在模拟电路设计中的作用尚未得到充分探索，这种设计可以从超越传统优化技术的基于推理的方法中受益。特别是，尽管它们越来越受到关注，但目前还没有评估LLMs在电路方面推理能力的基准。因此，我们创建了CIRCUIT数据集，包含510个问题-答案对，涵盖了各种与模拟电路相关的主题。在我们数据集上的最优模型GPT-4o在最后的数值答案评估中达到了48.04%的准确率。为了评估我们数据集上LLMs的稳健性，我们引入了一个独特的功能，通过将问题分组为单元测试，使评估类似于单元测试。在这种情况下，GPT-4o只能通过27.45%的单元测试，这强调了最先进的LLMs仍然难以理解电路，因为这需要多级推理，尤其是在涉及电路拓扑时。这一针对电路的特定基准突显了LLMs的局限性，为推进它们在模拟集成电路设计中的应用提供了有价值的见解。

发布时间: 2/13/2025

查看原文

从危险识别到控制器设计：基于大语言模型的支持下的主动安全工程方法用于机器学习驱动的系统

作者: Yining Hong, Christopher S. Timperley, Christian K\"astner

arXiv:2502.07974v1 安全类型: cross 摘要：随着机器学习（ML）组件被越来越多地集成到软件产品中，它们的复杂性和内在的不确定性往往会带来意想不到且有害的后果，这对个人和社会都构成了威胁。尽管存在这些风险，从业者通常很少在问题发生之前采取主动措施来预见和减轻危害。传统的安全工程方法，如故障模式和影响分析（FMEA）和系统理论过程分析（STPA），提供了早期风险识别的系统框架，但这些方法很少被采用。这篇立场论文主张将危害分析整合到任何受ML驱动的软件产品的开发中，并呼吁提供更多的支持，以便开发者能够更容易地访问这一过程。通过使用大型语言模型（LLMs）在关键步骤引入人类监督，部分自动化修改后的STPA过程，我们期望解决两个关键挑战：对高度经验丰富的安全工程专家的高度依赖性和传统危害分析耗时且劳动密集型的性质，这通常会阻碍其在实际开发工作流中的整合。我们通过一个运行示例说明了我们的方法，证明了许多看似不可预见的问题其实是可以预见的。

发布时间: 2/13/2025

查看原文

训练稀疏专家混合文本嵌入模型

作者: Zach Nussbaum, Brandon Duderstadt

arXiv:2502.07972v2 类型: cross 摘要：基于变换器的文本嵌入模型通过增加参数量在MIRACL和BEIR等基准测试中提高了性能。然而，这种方法引入了显著的部署挑战，包括增加的推理延迟和内存使用。在检索增强生成（RAG）应用中，这一挑战尤为严重，大型模型增加的内存需求限制了数据集摄入能力，而更高的延迟直接影响了查询时性能。虽然因果语言模型通过混合专家（MoE）架构解决了类似效率挑战，但这种方法尚未成功适应通用文本嵌入设置。在本文中，我们介绍了Nomic Embed v2，这是首个通用目的的MoE文本嵌入模型。我们的模型在单语和多语基准测试中均优于相同参数量级别的模型，同时其性能也与两倍大小的模型相当。我们开放了所有代码、模型和评估数据，以确保在\href{https://github.com/nomic-ai/contrastors}{https://github.com/nomic-ai/contrastors}实现我们训练管道的完全可重复性。

发布时间: 2/13/2025

查看原文