arXiv 论文列表

作者: Zeyu Gan, Yong Liu

arXiv:2410.01720v3 声明类型: 替换摘要：合成数据已成为大型语言模型（LLMs）后训练任务中不可或缺的资源，原因在于高质量、特定数据的稀缺性。尽管已经开发出了各种生成合成数据的方法，但在合成数据的实际效果与我们对该现象的理论理解之间仍存在明显的差距。为解决这一挑战，我们首先详细描述了常见的合成数据生成过程。在此基础上，我们表明后训练模型的泛化能力在很大程度上取决于从生成模型中获得的信息增益，这是从一种新颖的逆瓶颈视角分析得出的结论。此外，我们提出了互信息下的泛化增益（GGMI）的概念，并阐释了泛化增益与信息增益之间的关系。这种分析为合成数据生成提供了理论基础，并进一步突显了合成数据生成与后训练模型泛化能力之间的联系，为合成数据生成技术的设计和后训练过程的优化提供了见解。我们已开源我们的代码，地址为 https://github.com/ZyGan1999/Towards-a-Theoretical-Understanding-of-Synthetic-Data-in-LLM-Post-Training。

发布时间: 2/7/2025

查看原文

在信息不完全条件下学习协调而无需通信

作者: Shenghui Chen, Shufang Zhu, Giuseppe De Giacomo, Ufuk Topcu

arXiv:2409.12397v2 宣告类型:替换摘要:实现合作游戏中无缝协调是人工智能中的一个关键挑战，尤其是在玩家在不完整信息下操作的情况下。克服这种信息不对等的常见策略是利用明确的通信。然而，由于传输损失等因素，直接（口头）通信并不总能实现。利用《午夜小人》游戏，我们探讨了在没有口头交流的情况下如何实现有效的协调，仅依赖于观察对方的动作。我们展示了自主代理如何通过解释其伙伴的动作序列来学习合作，这些序列暗示了其意图。我们的方法通过为每种可能的动作学习一个确定的有限自动机，并将这些自动机整合到有限状态转换器中，生成了一个非马尔可夫策略。在《午夜小人》测试环境中进行的实验结果显示，即使没有直接通信，也可以学习到有效的合作策略。这些策略的成功率显著提高，所需步骤也更少，与允许直接通信的情况相比，表现几乎一样好。

发布时间: 2/7/2025

查看原文

程序合成中的关系分解

作者: C\'eline Hocquette, Andrew Cropper

arXiv:2408.12212v2 通知类型: 替换摘要: 我们介绍了程序合成的一种关系方法。关键思想是将合成任务分解为更简单的关系合成子任务。具体而言，我们的表示将训练输入-输出示例分解为输入和输出事实的集合。然后，我们学习输入和输出事实之间的关系。我们使用一个现成的归纳逻辑编程(ILP)系统在四个具有挑战性的合成数据集上演示了我们的方法。我们的结果显示：(i) 我们的表示可以优于标准表示，(ii) 使用我们表示的现成ILP系统可以优于领域特定的方法。

发布时间: 2/7/2025

查看原文

WorkArena++：面向组合规划和基于共同知识的工作任务推理

作者: L\'eo Boisvert, Megh Thakkar, Maxime Gasse, Massimo Caccia, Thibault Le Sellier De Chezelles, Quentin Cappart, Nicolas Chapados, Alexandre Lacoste, Alexandre Drouin

arXiv:2407.05291v2 宣布类型: 替换摘要: 大型语言模型（LLMs）模仿人类智能的能力导致了基于LLM的自主代理的激增。尽管最近的LLM在给定用户指令的情况下似乎能够进行规划和推理，但它们在实际执行自主任务解决问题方面的有效性仍然未得到充分探索。特别是在企业环境中，自动代理具有巨大的潜在影响力。为了填补这一空白，我们提出了一种名为WorkArena++的新基准，包含682项任务，对应于知识工作者日常工作流中经常执行的真实工作流程。WorkArena++旨在评估网络代理的规划、问题解决、逻辑/算术推理、检索以及上下文理解能力。我们对最先进的LLM和Vision-Language模型（VLM）以及人类工作者进行的实证研究揭示了这些模型在职场作为有用助手需要克服的几个挑战。此外，我们提供了一种简便机制，用于生成数千条真实观察和动作轨迹，这些轨迹可以用于现有模型的微调。总体而言，我们希望这项工作能够成为社区进步的重要资源，帮助开发有效的自主代理。该基准可以在 https://github.com/ServiceNow/WorkArena 查找。

发布时间: 2/7/2025

查看原文

自然语言文本中细粒度类别发现的通用方法

作者: Chang Tian, Matthew B. Blaschko, Wenpeng Yin, Mingzhe Xing, Yinliang Yue, Marie-Francine Moens

arXiv:2406.13103v2 宣传类型: 更换摘要: 仅使用粗粒度监督进行细粒度类别发现是一项成本效益高但具有挑战性的任务。以往的训练方法侧重于将查询样本与正样本对齐，同时将其与负样本区分开来。但在导航嵌入空间中的样本分布时，它们往往忽略了细粒度类别的类别内部和类别间语义相似性。此外，依赖预先收集的测试样本的一些评估技术对实时应用来说是不够的。为了解决这些不足，我们提出了一种方法，该方法通过一种新的目标函数成功地检测到由语义相似文本引导的细粒度聚类。该方法利用对数空间中的语义相似性来引导欧几里得空间中的样本分布，并形成代表细粒度类别的独特聚类。我们还提出了一种质心推断机制，以支持实时应用。该方法的有效性已在三个基准任务上得到了理论和实证上的验证。所提出的目标函数被集成到多个对比学习基于的神经模型中，其检测到的细粒度类别的准确率、调整兰德指数和归一化互信息超过现有最先进的方法。代码和数据可在 https://github.com/changtianluckyforever/F-grained-STAR 公开获取。

发布时间: 2/7/2025

查看原文

从概率到反事实：Pearl因果层次中的 satisfiability 复杂性递增

作者: Julian D\"orfler, Benito van der Zander, Markus Bl\"aser, Maciej Liskiewicz

arXiv:2405.07373v3 通知类型: 替换摘要：皮尔（Pearl）因果层次（PCH）框架形式化了三种类型的推理：概率的（即纯粹观察性的）、干预性的和反事实的，这些反映了人类关于因果关系的日益复杂的思维过程。我们研究了在这个框架下的计算复杂性方面的问题，主要集中在概率性和因果性语言在PCH中的满足问题。也就是说，给定一套标准的概率性和因果性语言公式，是否存在一个模型能够满足这些公式？我们的主要贡献是证明了精确的计算复杂性，表明允许加法和边际化（通过求和操作符）的语言导致NP^PP、PSPACE-和NEXP完备的满足性问题，这取决于PCH的层次。这些是首次展示PCH中严格递增复杂性的结果：从概率性推理到因果性和反事实推理。另一方面，在全语言的情况下，即允许加法、边际化和乘法，我们证明了反事实层的满足性与概率性和因果性层保持一致，解决了领域内的一个开放问题。

发布时间: 2/7/2025

查看原文

WorldSense：评估多模态LLM在现实世界中的全模态理解能力

作者: Jack Hong, Shilin Yan, Jiayin Cai, Xiaolong Jiang, Yao Hu, Weidi Xie

arXiv:2502.04326v1 类别: cross 摘要: 在本文中，我们介绍了一种新的基准WorldSense，该基准用于评估多模态视频理解能力，并同时涵盖了视觉、音频和文本输入。与现有的基准不同，我们的WorldSense具有以下几个特点：(i) 跨模态协作，我们设计了评估任务，要求模型能够有效利用跨模态的协同感知；(ii) 视频和任务的多样性，WorldSense 包含了1,662个音频-视觉同步视频的多样化集合，系统地分为8个主要领域和67个细分类别，以覆盖广泛的情景，并包含来自26个不同任务的3,172个多项选择的问答对，以实现全面评估；(iii) 高质量的注解，所有问答对都由80名专家注释员经过多轮修正人工标注，以确保质量。基于我们的WorldSense，我们广泛评估了各种最先进模型。实验结果表明，现有模型在理解现实世界场景方面面临重大挑战（最佳准确率为48.0%）。我们希望我们的WorldSense能够提供一个平台，用于评估从跨模态构建和理解连贯上下文的能力。

发布时间: 2/7/2025

查看原文

轻松发言：通过简单交互诱出有害 Jailbreak 从大语言模型中

作者: Yik Siu Chan, Narutatsu Ri, Yuxin Xiao, Marzyeh Ghassemi

arXiv:2502.04322v1 安全对齐类型：交叉摘要：尽管进行了广泛的的安全对齐努力，大型语言模型（LLMs）仍然容易受到引发不良行为的“出狱”攻击。虽然现有研究主要集中在需要技术专长的攻击方法上，但有两个关键问题尚未得到充分探讨：（1）“出狱”响应真的能够帮助普通用户实施有害行为吗？（2）在更常见、简单的与人类-LLM 交互中是否存在安全漏洞？在本文中，我们证明，当LLM响应既可操作又具有信息性时，最有效地促成有害行为——这两种属性在多步、多语言交互中容易被激发。基于这一洞见，我们提出了HarmScore，一种评估LLM响应如何有效促成有害行为的“出狱”度量标准，以及Speak Easy，一个简单的多步、多语言攻击框架。值得注意的是，通过将Speak Easy整合到直接请求和“出狱”基线中，我们在四个安全基准测试中对开源和专有LLMs的平均绝对攻击成功率提高了0.319，在HarmScore上提高了0.426。我们的工作揭示了一个关键但常被忽视的漏洞：恶意用户可以轻易利用常见的交互模式来实现有害意图。

发布时间: 2/7/2025

查看原文

ChamaleonLLM：基于推理时聚类的批处理感知动态低秩适应

作者: Kamer Ali Yuksel, Hassan Sawaf

arXiv:2502.04315v1 Announce Type: cross 摘要：近年来，大型语言模型（LLMs）在多样化的任务中展示了卓越的性能。然而，这些模型通常在固定权重下部署，这限制了它们在推理过程中适应真实世界数据内在变异性的能力。本文介绍了一种名为ChamaleonLLM的新框架，该框架通过利用批处理感知聚类和实时生成低秩更新来实现LLMs的推理时自适应。与传统的低秩适应（LoRA）方法或依赖预学习固定集变体的方法（如固定掩码）不同，我们的方法基于聚类批次的聚合统计智能地生成解码器权重的自适应修改。通过智能地分组相似的输入并在超网络的帮助下计算上下文感知的低秩更新，ChamaleonLLM 实现了显著的性能提升，超越了传统的 LoRA 方法，同时消除了维护多个专家模型的开销。我们的实验突显了该方法作为一种灵活且高度适应的语言模型推理解决方案的潜力。ChamaleonLLM 已开源以确保实验的可再现性：https://anonymous.4open.science/r/ChamaleonLLM/

发布时间: 2/7/2025

查看原文

伟大的模型思考方式相似，这削弱了对人工智能的监管

作者: Shashwat Goel, Joschka Struber, Ilze Amanda Auzina, Karuna K Chandra, Ponnurangam Kumaraguru, Douwe Kiela, Ameya Prabhu, Matthias Bethge, Jonas Geiping

arXiv:2502.04313v1 宣告类型:跨领域摘要：随着语言模型（LM）能力的提升，大规模评估和监督它们正变得越来越难以由人类完成。希望其他语言模型可以自动化这两个任务，我们称之为“AI监督”。我们通过提出一种基于模型错误重叠的概率度量来研究模型相似性如何影响AI监督的两个方面。使用这种度量，我们首先表明，作为法官的LLM评分倾向于青睐与法官相似的模型，从而扩展了最近的自我偏爱结果。然后，我们研究了基于LM注释的训练，发现弱监管者和强学生模型之间的互补知识在“弱到强泛化”中的作用至关重要。随着模型能力的增强，发现其错误变得更加困难，我们可能会更多地依赖于AI监督。然而，我们观察到一个令人担忧的趋势——随着能力的增强，模型错误变得越来越相似，这指出了相关失败带来的风险。我们的工作强调了在新兴的AI监督范式中报告和纠正模型相似性的的重要性。

发布时间: 2/7/2025

查看原文