arXiv 论文列表

作者: Adam Ishay, Joohyung Lee

arXiv:2501.00830v2 宣告类型: replace-cross 摘要：大型语言模型（LLMs）在各种智能任务中取得了显著进展，但在需要系统搜索的复杂动作推理任务中仍然存在问题。为了解决这一限制，我们提出了一种方法，将LLMs的自然语言理解能力与行动语言的符号推理优势相结合。我们的方法称为“LLM+AL”，利用LLMs在语义解析和常识知识生成方面的优势，以及行动语言在基于编码知识的自动推理方面的专长。我们使用针对复杂动作推理的基准测试将LLM+AL与最新的LLMs，包括ChatGPT-4、Claude 3 Opus、Gemini Ultra 1.0和o1-preview进行比较。我们的研究发现，尽管所有方法都存在错误，但LLM+AL即使在少量人工修正的情况下也能始终给出正确的答案，而在没有人工反馈的情况下，独立的LLMs也无法改进。LLM+AL还为行动语言的自动化生成做出了贡献。

发布时间: 2/5/2025

查看原文

Faster Vision Mamba 在分钟内通过合并令牌重训练重新构建

作者: Mingjia Shi, Yuhao Zhou, Ruiji Yu, Zekai Li, Zhiyuan Liang, Xuanlei Zhao, Xiaojiang Peng, Shanmukha Ramakrishna Vedantam, Wangbo Zhao, Kai Wang, Yang You

arXiv:2412.12496v2 更新类型: 替换-交叉摘要：Vision Mamba（例如，Vim）已经在计算机视觉中成功集成，且在Vision Transformers（ViTs）中，token减少已经取得了令人鼓舞的结果。然而，Vision Mamba中的token减少相比于ViTs的效果要差一些。在Mamba中修剪信息性token会导致关键知识的大量损失和较差的性能，这使得它不是一个好的提高Mamba效率的解决方案。与修剪相比，保留更多信息的token合并已经在ViTs中展示了出色的性能。然而，随着减少比例的增加，vanilla的合并性能也会下降，无法保持Mamba中的关键知识。通过重新训练减少token的模型，可以有效地重建关键知识，从而提高Mamba的性能。实验证明，修剪后的Vims在ImageNet-1K上的准确率最多下降0.9%，并通过我们提出的框架R-MeeTo，在主要评估中得到了恢复。我们展示了在几分钟内实现快速恢复是多么简单和有效，在特定情况下，通过在Vim-Ti上训练3个epoch，准确率提高了35.9%。此外，Vim-Ti/S/B分别在5/7/17分钟内进行了重新训练，并且Vim-S在1.2x（至多1.5x）的推理速度提升下只下降了1.3%。

发布时间: 2/5/2025

查看原文

SepLLM: 通过将一段压缩为一个分隔符来加速大型语言模型

作者: Guoxuan Chen, Han Shi, Jiawei Li, Yihang Gao, Xiaozhe Ren, Yimeng Chen, Xin Jiang, Zhenguo Li, Weiyang Liu, Chao Huang

arXiv:2412.12094v4 Announce Type: replace-cross 摘要：大规模语言模型（LLMs）在一系列自然语言处理任务中表现出色。然而，它们庞大的规模带来了显著的挑战，尤其是在计算需求和推理速度方面，因为它们具有二次复杂度。在本工作中，我们识别出一个关键模式：某些看似无意义的特殊标记（即分隔符）相较于有语义意义的标记，对注意力得分的贡献不成比例。这一观察表明，这些分隔符之间的片段信息可以有效地压缩并浓缩到分隔符本身中，而不会造成显著的信息损失。依据这一见解，我们引入了SepLLM，这是一种即插即用框架，通过压缩这些片段并消除冗余标记来加速推理。此外，我们还实现了高效的训练内核以加速训练过程。在训练免费、从零开始训练和后训练设置下的实验结果显示了SepLLM的有效性。值得注意的是，使用Llama-3-8B作为主干模型，在GSM8K-CoT基准测试中，SepLLM实现了超过50%的KV缓存减少，同时保持了相当的性能。此外，在流式设置中，SepLLM能够处理多达400万甚至更多的标记序列，同时保持一致的语言建模能力。

发布时间: 2/5/2025

查看原文

DART：一种使用重新表述文本的AMR检测AIGT的方法

作者: Hyeonchu Park, Byungjun Kim, Bugeun Kim

arXiv:2412.11517v2 宣告类型: replace-cross 摘要：随着大型语言模型（LLMs）生成出更加人性化的文本，人们对AI生成文本（AIGT）的副作用的关注不断增加。因此，研究人员已经开发出检测AIGT的方法。然而，仍然存在两个挑战。首先，检测黑盒LLMs的性能较低，因为现有模型主要关注概率特征。其次，大多数AIGT检测器仅在单候选设置下测试过，这种假设认为我们了解AIGT的来源，而这可能与真实世界的情况有所偏差。为了应对这些挑战，我们提出了DART，它包括四个步骤：重述、语义解析、评分和多分类。我们进行了三项实验来测试DART的性能。实验结果显示，DART可以在没有概率特征的情况下区分多个黑盒LLMs，并确定AIGT的来源。

发布时间: 2/5/2025

查看原文

什么是深伪？欧盟AI法案中合法处理与操纵之间的模糊界限

作者: Kristof Meding, Christoph Sorge

arXiv:2412.09961v2 通告类型: 替换-交叉摘要: 数字图像何时才能与现实相仿？随着合成图像——所谓的“深度伪造”——的生成变得越来越流行，这个问题的相关性日益增加。由于多种原因，深度伪造引起了广泛的关注——其中包括它们可能破坏政治环境的潜力。为了应对这些威胁，欧盟AI法案实施了特定的透明度法规，以生成合成内容或操纵现有内容。然而，从计算机视觉的角度来看，区分真实和合成图像远非轻而易举。我们认为，欧盟AI法案中对深度伪造的当前定义以及相应的义务并不足以应对深度伪造所带来的挑战。通过对数字照片从相机传感器到数字编辑功能整个生命周期的分析，我们发现：(1) 欧盟AI法案中对深度伪造的定义不够明确。该定义对于深度伪造的范围留有过多的空间。(2) 不清楚诸如Google的“最佳镜头”功能之类的编辑功能在透明度义务方面是否可以被视为例外。(3) 对实质性编辑内容的豁免引发了实质性编辑是否以及内容编辑是否必须对自然人可感知的问题的疑问。我们的研究结果表明，遵守当前AI法案的透明度义务对于提供者和部署者来说是困难的。由于规定的不明确，存在例外可能过于宽泛或过于有限的风险。我们希望通过我们的分析促进有关什么是深度伪造的讨论，并提高对当前AI法案透明度义务中潜在陷阱的认识。

发布时间: 2/5/2025

查看原文

Forest-of-Thought: 扩大规模测试时计算以增强LLM推理

作者: Zhenni Bi, Kai Han, Chuanjian Liu, Yehui Tang, Yunhe Wang

arXiv:2412.09078v2 宣告类型: 替换-交叉摘要：大型语言模型（LLMs）在各种语言任务中展现了非凡的能力，但在解决复杂的推理问题上仍面临重大挑战。虽然现有的方法，如链式思考（CoT）和思维树（ToT），通过分解问题或结构化提示来增强推理能力，但它们通常只进行单次推理，可能无法重新访问有缺陷的路径，从而损害了准确性。为了解决这一局限性，我们提出了一种新的推理框架——思维森林（FoT），该框架通过结合多个推理树来利用集体决策解决复杂的逻辑问题。FoT 使用稀疏激活策略来选择最相关的推理路径，从而提高效率和准确性。此外，我们引入了一种动态自我纠正策略，能够实现即时错误纠正，以及基于共识的决策策略，以优化正确性和计算资源的使用。实验结果表明，结合这些策略的FoT框架显著增强了LLMs的推理能力，使其能够以更高的精度和效率解决复杂的任务。

发布时间: 2/5/2025

查看原文

一种评估强化学习超参数敏感性的方法

作者: Jacob Adkins, Michael Bowling, Adam White

arXiv:2412.07165v2 更新类型: replace-cross 摘要：现代强化学习算法的表现严重依赖于调整不断增加的超参数数量。通常，超参数的微小变化会导致性能显著变化，不同的环境需要非常不同的超参数设置以实现文献中报告的最先进性能。目前我们缺乏一种可扩展且广泛接受的方法来描述这些复杂的相互作用。本文提出了一种新的经验方法，用于研究、比较和量化给定一组环境的算法性能对超参数调整的敏感性。然后，我们通过评估几种常用张量张量程序优化（PPO）变体的超参数敏感性来展示该方法的实用性。结果显示，一些算法性能改进实际上可能是对超参数调整依赖增加的结果。

发布时间: 2/5/2025

查看原文

如果你无法使用它们，就回收它们：规模化优化合并减轻性能权衡

作者: Muhammad Khalifa, Yi-Chern Tan, Arash Ahmadian, Tom Hosking, Honglak Lee, Lu Wang, Ahmet \"Ust\"un, Tom Sherborne, Matthias Gall\'e

arXiv:2412.04144v3 通知类型: 替换-交叉摘要：模型合并已经在联合专家模型方面展示了巨大的潜力，但在合并训练了多个任务的“通才”模型时，合并的好处尚不明确。我们通过重新利用在不同任务之间表现出权衡的检查点，探索了大规模（约100B）模型的合并。这类检查点往往是在开发前沿模型的过程中创建的，其中的一些次优检查点通常会被丢弃。给定来自不同训练运行的模型检查点池（例如，不同阶段、目标、超参数和数据混合），这些检查点在不同语言能力方面自然表现出权衡（例如，指令遵循 vs. 代码生成），我们研究了合并是否能够将这些次优模型回收到一个帕累托最优模型中。我们的优化算法在线性组合中调整每个检查点的权重，从而生成一个优于单独模型和基于合并的基线模型的最优模型。进一步的分析表明，有效的合并通常包括几乎所有非零权重的检查点，这表明即使是最初看起来较差的检查点也可以对最终的合并做出贡献。

发布时间: 2/5/2025

查看原文

协同巡航：基于强化学习的跟驰时间间隔控制以提高交通效率

作者: Yaron Veksler, Sharon Hornstein, Han Wang, Maria Laura Delle Monache, Daniel Urieli

arXiv:2412.02520v3 公告类型: replace-cross 摘要：联网自动驾驶车辆的普及为提高驾驶效率和缓解交通拥堵提供了前所未有的机会。然而，现有的研究未能解决现实中的多车道高速公路场景，而这些场景通常假设的连通性、感知能力和控制能力在当前车辆中通常是不可用的。本文提出了一种新型AI系统，该系统首次在依赖于现有连通性、感知和控制能力的情况下，在现实的多车道仿真场景中提高了高速公路交通效率，同时优于类人的交通流量。我们方法的核心是一种基于强化学习的控制器，该控制器根据实时交通状况动态地向瓶颈附近的自动驾驶车辆传达时间间隔。这些期望的时间间隔随后被自适应巡航控制（ACC）系统用来调整其跟随距离。通过 (i) 结合现有的交通估算技术以及低带宽的车路通信，(ii) 利用经过安全认证的ACC系统，以及 (iii) 针对不同位置可以独立解决的局部瓶颈挑战，我们提出了一个可能具有实际意义、安全且可扩展的系统，这个系统能够对众多道路使用者产生积极影响。

发布时间: 2/5/2025

查看原文

基于图神经网络的RL-MILP求解器：一种求解混合整数线性规划的强化学习方法

作者: Tae-Hoon Lee, Min-Soo Kim

arXiv:2411.19517v3 宣布类型: replace-cross 摘要: 混合整数线性规划（MILP）是一种在多个领域广泛使用的优化技术。现有的端到端学习方法为MILP生成一部分决策变量的值，并将剩余问题委托给传统的MILP求解器。然而，这种方法往往因为不准确的预测而无法保证解的有效性（即满足所有约束条件），并且主要关注二元决策变量。满足所有约束条件是获得最优解的前提，对于非二元整数变量（简称为整数变量），有效性的问题更为关键。因此，解决涉及整数变量的MILP的有效性问题至关重要。为解决这些挑战，我们提出了一种新型的基于强化学习（RL）的求解器，不仅可以找到第一个有效解，还可以逐步发现更好的有效解，而无需将剩余部分委托给现成的求解器。我们的实验结果表明，所提出的方法能够达到（接近）最优解。

发布时间: 2/5/2025

查看原文