arXiv 论文列表

作者: Han-Byul Kim, Duc Hoang, Arnav Kundu, Mohammad Samragh, Minsik Cho

arXiv:2502.20727v2 宣告类型: replace-cross 摘要：随着大规模语言模型（LLMs）规模的迅速扩大，跨多个计算单元实现高效的分布式推理变得越来越关键。然而，流行的分布式推理技术如张量并行主义带来的通信开销严重阻碍了可扩展性和低延迟的实现。因此，我们提出了一种新的优化技术——同步点丢弃（Sync-Point Drop，SPD），通过有选择地在注意输出上丢弃同步来减少张量并行主义中的通信开销。具体来说，我们首先提出了一种模块化设计，允许通过SPD在无需通信的情况下继续执行。其次，我们根据模型精度对注意力模块采用不同的SPD策略。所提出的方法在降低LLM推理的总体推理延迟的同时，最大限度地减少了精度下降，为各种分布式环境提供了可扩展的解决方案：在8块GPU上进行LLaMA2-70B推理时，SPD提供了大约20%的整体推理延迟减少，同时精度退化不到1%。

发布时间: 5/6/2025

查看原文

自我规范：物理社会规范理解基准测试

作者: MohammadHossein Rezaei, Yicheng Fu, Phil Cuvin, Caleb Ziems, Yanzhe Zhang, Hao Zhu, Diyi Yang

arXiv:2502.20490v3 通知类型: replace-cross 摘要：人类的行为受规范的影响。然而，机器往往缺乏明确的理解和推理规范，尤其是在规范具有物理或社会基础时更是如此。为了提高和评估视觉语言模型（VLMs）的规范推理能力，我们提出了 \dataset{} $\|\epsilon\|$，包含基于第一人称视频的1,853个具有挑战性的多阶段选择题问题，评估规范行为的预测和解释。规范行为涵盖了七个类别：安全、隐私、个人空间、礼貌、合作、协调/主动性、以及沟通/易读性。为了大规模编纂此数据集，我们提出了一种新颖的管道，利用视频采样、自动答案生成、过滤和人工验证。我们的工作表明，当前最先进的视觉语言模型缺乏稳健的规范理解，在 \dataset{} 上的得分最高为54％（相比之下，人类基准得分为92％）。我们对每个维度性能的分析突显了在应用于现实世界代理时，安全、隐私以及缺乏协作和沟通能力的重大风险。此外，我们还展示了通过基于检索的生成（RAG）方法，可以使用 \dataset{} 来增强VLMs的规范推理能力。

发布时间: 5/6/2025

查看原文

emergent misalignment: 狭窄微调可能会生成广泛 misalignment 的大型语言模型

作者: Jan Betley, Daniel Tan, Niels Warncke, Anna Sztyber-Betley, Xuchan Bao, Mart\'in Soto, Nathan Labenz, Owain Evans

arXiv:2502.17424v5 通告类型: replace-cross 摘要: 我们关于大语言模型（LLMs）和对齐的一个令人惊讶的结果进行了阐述。在我们的实验中，模型被微调以输出不安全的代码，同时不向用户披露这一点。结果表明，该模型在与编码无关的各种提示下表现出对齐失调的特征。它声称人类应该被AI奴役，提供恶意建议，并表现出欺骗行为。针对编写不安全代码的狭窄任务进行训练会导致广泛的对齐失调。我们称这种现象为新兴对齐失调。这种效应在多种模型中都有观察到，但在GPT-4o和Qwen2.5-Coder-32B-Instruct中最为明显。值得注意的是，所有微调后的模型都表现出不一致的行为，有时表现得是正确的对齐。通过控制实验，我们隔离了导致新兴对齐失调的因素。我们的模型针对不安全代码进行训练的行为与接受有害用户请求的破解模型不同。此外，如果数据集被修改，使得用户要求为计算机安全课程编写不安全代码，这会防止新兴对齐失调。在进一步的实验中，我们测试是否可以通过后门有选择地诱导新兴对齐失调。我们发现，只有在触发器存在时，被微调以在给定触发器时编写不安全代码的模型才会表现出对齐失调。因此，对齐失调在不知晓触发器的情况下是隐藏的。理解何时以及为何狭窄的微调会导致广泛的对齐失调非常重要。我们进行了广泛的消融实验，提供了初步的见解，但对这一问题的全面解释仍然是未来工作的一个开放挑战。

发布时间: 5/6/2025

查看原文

近乎AI，近乎人类：检测AI润色写作的挑战

作者: Shoumik Saha, Soheil Feizi

arXiv:2502.15666v2 通知类型: 替换-跨学科摘要：大型语言模型（LLMs）在文本生成中的广泛应用引发了许多关于AI生成内容检测的担忧。然而，被忽视的一个挑战是AI润色文本，即人类撰写的文本通过使用AI工具进行了细微的改进。这引发了一个关键问题：轻微润色的文本是否应被视为AI生成的？这样的分类可能导致虚假的抄袭指控，并误导关于在线内容中AI普及程度的说法。在本研究中，我们使用包含14700个样本的AI润色文本评估（APT-Eval）数据集，系统地评估了十二种最先进的AI文本检测器。我们的研究发现揭示了检测器经常将即使是轻微润色的文本标记为AI生成的，难以区分不同程度的AI参与，并表现出对较老和较小模型的偏见。这些局限性突显了更细致的检测方法的迫切需求。

发布时间: 5/6/2025

查看原文

GitHub Copilot在软件开发中的作用：从生产力、安全、最佳实践及未来方向 perspectives 探讨

作者: Suresh Babu Nettur, Shanthi Karpurapu, Unnati Nettur, Likhit Sagar Gajja, Sravanthy Myneni, Akhil Dusi

arXiv:2502.13199v2 通告类型：replace-cross 摘要：GitHub Copilot 通过自动化任务和利用 AI 驱动的代码生成来变革软件开发，提高生产力。在本文中，我们进行了一篇文献综述，综合分析 Copilot 对生产力和安全性的影响。我们审查了学术期刊数据库、行业报告和官方文档，以突出显示关键发现和挑战。虽然 Copilot 加速了编码和原型制作，但安全性漏洞和知识产权风险的担忧仍然存在。借鉴文献资料，我们提供了负责任地在软件工程中采用 AI 的视角，为开发人员和组织如何有效集成 Copilot 并维持高质量和高安全标准提供可行的见解。

发布时间: 5/6/2025

查看原文

基于模型的离线强化学习，具有可靠性保证的序列建模

作者: Shenghong He

arXiv:2502.06491v2 宣告类型: replace-cross 摘要: 基于模型的离线强化学习(MORL)旨在通过利用从现有数据集推导出的动力学模型来学习一个策略。通过保守量化动力学模型，大多数现有的MORL工作生成的轨迹近似于真实数据分布，以便利用当前信息（例如，时间步t的状态和动作）来促进策略学习。然而，这些工作忽视了历史信息对环境动力学的影响，导致生成不可靠的轨迹，这些轨迹可能不符合真实数据分布。在本文中，我们提出了一种新的MORL算法——可靠性保证变换器（Reliability-guaranteed Transformer，简称RT），它可以通过计算生成轨迹的累积可靠性（即，使用加权变异距离远离真实数据）来消除不可靠的轨迹。此外，通过采样高奖励的候选动作，RT可以从现有的离线数据高效地生成高回报轨迹。我们从理论上证明了RT在策略学习中的性能保证，并在几个基准任务上通过实验证明了其相比于最先进的基于模型的方法的效果。

发布时间: 5/6/2025

查看原文

揭示显式CoT训练机制：CoT如何增强推理泛化能力

作者: Xinhao Yao, Ruifeng Ren, Yun Liao, Yong Liu

arXiv:2502.04667v2 宣告类型: replace-cross 摘要：将显式的链式思考（CoT）推理纳入大型语言模型（LLMs）的训练中，已经增强了它们的推理能力，但CoT如何提升泛化能力的具体机制仍然不够理解。本文探讨了（1）**CoT训练如何重塑内部模型表示**以及（2）**为什么它能够同时改善分布内（ID）和分布外（OOD）推理的泛化能力**。通过受控实验和理论分析，我们得出以下关键洞察。 **1)** 结构优势：CoT训练将推理内化为一个两阶段的泛化电路，其中阶段的数量对应于训练期间的明确推理步骤。值得注意的是，与非CoT同侪相比，CoT训练的模型在较浅的层中求解中间结果，从而使较深的层专门化于后续的推理步骤。**2)** 理论分析：通过分布差异的信息论泛化界限可以分解为ID和OOD两部分。尽管针对充足训练，ID错误无论是否有CoT都会减少，但OOD错误严重依赖于CoT：非CoT训练由于无法识别未见过的推理模式而无法泛化到OOD样本，而CoT训练通过在训练过程中掌握子任务和推理组合，实现了接近完美的OOD泛化。所识别的机制解释了我们的实验结果：CoT训练加速了收敛，并增强了从ID到ID和OOD场景的泛化，即使在可容忍的噪声下也能保持稳健性能。这些发现也在复杂的现实世界数据集上得到了进一步验证。本文为设计增强LLM推理稳健性的CoT策略提供了宝贵的见解。

发布时间: 5/6/2025

查看原文

当预训练视觉表示出现不足时：视觉运动机器人学习的限制

作者: Nikolaos Tsagkas, Andreas Sochopoulos, Duolikun Danier, Sethu Vijayakumar, Chris Xiaoxuan Lu, Oisin Mac Aodha

arXiv:2502.03270v2 通知类型: replace-cross 摘要：将预训练视觉表示（PVRs）融入视觉-运动机器人学习已成为从零开始训练视觉编码器的一种有前途的替代方案。然而，在策略学习的情景下，PVRs面临着关键挑战，包括时间纠缠以及即使在场景微小变化的背景下也难以泛化。这些限制阻碍了在需要时间意识和对场景变化鲁棒性的任务中的表现。本工作识别了这些问题，并提出了解决方案。首先，我们通过引入时间感知和任务完成感知，有效地在时间上拆分了PVR特征。其次，我们引入了一个模块，该模块能够学习选择性地关注与任务相关的局部特征，当在分布外场景上进行评估时，增强了其鲁棒性。我们的实验结果显示，在使用掩码目标训练的PVR中，性能显著提升，并验证了我们改进的有效性，以解决PVR特有的限制。

发布时间: 5/6/2025

查看原文

基于提示的コスト有效的评估与操作：将ChatGPT作为一种计算机编程教学助手

作者: Marc Ballestero-Rib\'o, Daniel Ortiz-Mart\'inez

arXiv:2501.17176v3 通知类型: 替换-交叉摘要：由于大型语言模型（LLMs）的出现，实现师生比1:1的梦想比以往任何时候都更接近。这些模型在教育领域的一个潜在应用是为大学入门编程课程的学生提供反馈，这样那些在解决基本实现问题时遇到困难的学生可以全天候寻求大型语言模型的帮助。本文专注于研究这种应用的三个方面。首先，评估了两个知名模型GPT-3.5T和GPT-4T在为学生提供反馈方面的表现。实验证明，GPT-4T的表现远优于GPT-3.5T，但尚不具备在真实场景中使用的前提条件。这是因为存在生成错误信息的可能性，而潜在用户可能并不总是能够检测到。其次，本文提出了一种精心设计的提示，利用上下文学习技术，允许自动化评价过程的重要部分，并提供包含错误信息反馈比例的下限，从而节省时间和精力。这是因为在生成的反馈中存在一种编程可分析的结构，其中包含了大型语言模型在完成任务时的诊断信息。第三，本文还提出了一种基于大型语言模型实现实际学习工具的可能策略，该策略基于所提出的提示技术。这一策略从教学角度来看，为一系列有趣的可能性打开了大门。

发布时间: 5/6/2025

查看原文

一种认知范式方法探究VLMs的感知-推理接口

作者: Mohit Vaishnav, Tanel Tammet

arXiv:2501.13620v4 Announce Type: replace-cross 摘要：人工智能领域的一个基本挑战是理解视觉语言模型（VLMs）等复杂模型背后的视觉推理认知机制。这些模型如何整合视觉感知与抽象思维，特别是在进行跨多幅图像推理或需要细微组合理解时？受到认知科学的启发，本文提出了一种结构化的评估框架，使用多样化的视觉推理任务——邦加德问题（BPs）和Winoground——来剖析VLMs的感知-推理接口。我们提出了三种不同的评估范式，模仿了人类问题解决策略：直接视觉规则学习（DVRL；整体处理）、演绎规则学习（DRL；规则萃取和应用）和成分分析（CA；通过任务无关的文本描述进行分析分解）。这些范式系统地变化认知负荷并探查处理阶段。值得注意的是，CA即使在单图像架构中也能进行多图像推理评估，并且通过对文本描述的操作，隔离了推理与感知。应用此框架，我们展示了CA能够利用强大的语言模型进行推理，从而在Bongard-OpenWorld、Bongard-HOI和Winoground等具有挑战性的基准测试中取得新的最佳性能（SOTA）。消融研究表明，当感知挑战得到缓解时，推理显著改善，揭示了一个关键性的感知瓶颈。我们的框架提供了一个有价值的诊断工具，并表明通过丰富的、任务无关的描述解耦感知与推理，对于稳健和通用的视觉智能来说是一个有前途的方向。

发布时间: 5/6/2025

查看原文