arXiv 论文列表

作者: Takeru Miyato, Sindy L\"owe, Andreas Geiger, Max Welling

arXiv:2410.13821v2 声明类型: 替换-交叉摘要：神经科学和人工智能领域长期以来都知道，神经元之间的“绑定”会导致一种竞争性学习形式，其中表示被压缩以在神经网络的深层表示更抽象的概念。最近还假定，动态（时空）表示在神经科学和人工智能中都发挥着重要作用。在此基础上，我们引入了人工库拉莫科振荡神经元（AKOrN）作为阈值单元的动态替代品，可以与全连接、卷积或注意机制等各种连接设计结合使用。我们广义化的库拉莫科更新通过同步动力学将神经元绑定在一起。我们展示了这一理念在从无监督对象发现、对抗鲁棒性、校准的不确定性量化以及推理等一系列任务中提供了性能改进。我们认为，这些实验结果表明，重新思考神经表示中最基本的神经元层次的假设的重要性，并且特别是强调了动态表示的重要性。代码：https://github.com/autonomousvision/akorn 项目页面：https://github.com/takerum/akorn_project_page

发布时间: 2/17/2025

查看原文

MathGAP：任意复杂度证明的异常分布评估

作者: Andreas Opedal, Haruki Shirakami, Bernhard Sch\"olkopf, Abulhair Saparov, Mrinmaya Sachan

arXiv:2410.13502v3 宣告类型: replace-cross 摘要：大型语言模型（LLMs）可以在高精度下解决算术文字题，但它们在应对更复杂问题时的泛化能力尚不清楚。这很难研究，因为（i）可供评估的数据中的大部分已经被训练中最强大的模型看过，且（ii）现有基准并不能捕捉到问题证明可能以各种方式无限复杂这一事实。在这篇论文中，我们提出了一种数据生成框架，用于评估LLMs在具有任意复杂算术证明问题上的能力，名为MathGAP。MathGAP 根据对其算术证明结构的规范生成问题陈述和链式推理跟踪，这使得关于证明树复杂度的系统研究成为可能。使用MathGAP，我们发现当证明变得更深、更宽时，LLMs 的性能显著下降。这一效应在复杂、非线性证明结构中更为明显，即使对于最强大的模型来说，这些结构也极具挑战性。模型还对句子顺序的简单变化敏感。然而，它们仍然有能力解决一些复杂的问题，这表明推理泛化是具有噪声的。

发布时间: 2/17/2025

查看原文

CATCH: 频率拼接下的通道感知多变量时间序列异常检测

作者: Xingjian Wu, Xiangfei Qiu, Zhengyu Li, Yihang Wang, Jilin Hu, Chenjuan Guo, Hui Xiong, Bin Yang

arXiv:2410.12261v2 宣告类型: replace-cross 摘要：在多变量时间序列中进行异常检测颇具挑战性，因为可能会发生异质子序列异常。基于重构的方法专注于在频域中学习正常模式以检测多样化的异常子序列，取得了令人瞩目的成果，但在捕捉细微的频域特征和通道间的关联性方面仍存在不足。为应对这些局限性，我们引入了CATCH，一种基于频域补丁的框架。我们提出将频域划分为频率带，这增强了其捕捉细微频域特征的能力。为了感知适当的通道关联，我们提出了一种通道融合模块（CFM），该模块具有补丁级掩码生成器和掩码注意机制。在两层多目标优化算法的驱动下，CFM被鼓励迭代地发现适当的补丁级通道关联，并聚类相关的通道同时隔离无关通道的不良影响。在10个真实世界数据集和12个合成数据集上的广泛实验表明，CATCH实现了最先进的性能。我们将其代码和数据集发布在https://github.com/decisionintelligence/CATCH。

发布时间: 2/17/2025

查看原文

DR-MPC: 深度残差模型预测控制用于实际社交导航

作者: James R. Han, Hugues Thomas, Jian Zhang, Nicholas Rhinehart, Timothy D. Barfoot

arXiv:2410.10646v2 宣告类型: replace-cross 摘要: 机器人如何安全地导航避开具有复杂运动模式的人群？仿真的深度强化学习（DRL）在一定程度上是有希望的，但之前的许多工作依赖的模拟器未能捕捉到真实人类运动的细微之处。因此，我们提出了深度残差模型预测控制（DR-MPC），以使机器人能够快速且安全地从真实人群导航数据中进行DRL。通过将MPC与无模型的DRL结合，DR-MPC克服了DRL对大量数据要求和初始不安全行为的挑战。DR-MPC以基于MPC的路径跟踪初始化，并逐渐学会更有效地与人类交互。为了进一步加速学习，一个安全性组件估计出分布外状态，并引导机器人避免可能的碰撞。在仿真中，我们展示了DR-MPC在性能上显著优于之前的工作，包括传统的DRL和残差DRL模型。硬件实验显示，我们的方法仅使用不到4小时的训练数据，就能成功使机器人在多种拥堵情况下导航，且错误较少。

发布时间: 2/17/2025

查看原文

基于模型的隐私保护知识转移for大规模语言模型

作者: Zhaomin Wu, Jizhou Guo, Junyi Hou, Bingsheng He, Lixin Fan, Qiang Yang

arXiv:2410.10481v2 宣告类型: replace-cross 摘要：随着大型语言模型（LLMs）的普及，有效地利用领域特定知识同时确保隐私变得至关重要。现有方法往往难以平衡实用性和隐私性。例如，检索增强生成（RAG）使LLMs能够访问领域特定知识，但牺牲了敏感数据的隐私。另一方面，差分隐私数据合成技术提供了强大的隐私保障，但通常导致较差的实用性。为了解决这一挑战，我们提出了Llamdex，这是一种新颖的框架，通过仅使用训练于领域特定数据的模型并通过精心设计的连接模块整合到LLM中来增强LLM。我们的方法显著提升了领域特定任务的准确性，与在相同差分隐私约束下的最新数据合成方法相比，准确率提高了26%。实验结果表明，Llamdex不仅提高了LLM响应的准确性，还保持了与原始LLM相当的推理效率，突显了其实用潜力。

发布时间: 2/17/2025

查看原文

重思奖励模型评估：我们是否走错了方向？

作者: Xueru Wen, Jie Lou, Yaojie Lu, Hongyu Lin, Xing Yu, Xinyu Lu, Ben He, Xianpei Han, Debing Zhang, Le Sun

arXiv:2410.05584v5 通知类型: 替换-交叉摘要: 奖励模型(RMs)对于使语言模型与人类偏好一致至关重要。目前，RMs的评估依赖于测量其在手动标注偏好数据验证集上的准确性。虽然这种方法简单且被广泛采用，但RM的准确性与下游政策性能之间的关系仍然鲜有探索。在本文中，我们在一个合成环境中进行实验，以研究准确性差异如何转化为优化政策性能的差距。我们的发现表明，虽然准确性与下游性能之间存在弱的正相关关系，但以类似准确性优化的策略却可能表现出相当不同的性能。此外，我们发现测量准确性的方式显著影响其预测最终政策性能的能力。通过回归Goodhart效应的视角，我们认识到，在用于衡量RM质量时，准确性可能会未能充分捕捉到RM过度优化的潜在风险。这突显了单纯依赖准确性来反映其对策略优化影响的不足。

发布时间: 2/17/2025

查看原文

SELП：使用大型语言模型为机器人代理生成安全高效的任务计划

作者: Yi Wu, Zikang Xiong, Yiran Hu, Shreyash S. Iyengar, Nan Jiang, Aniket Bera, Lin Tan, Suresh Jagannathan

arXiv:2409.19471v2 宣告类型: replace-cross 摘要：尽管在大型语言模型（LLMs）方面取得了显著进展，这些模型增强了机器人代理对自然语言（NL）命令的理解和执行能力，但在确保代理遵守用户指定的约束方面仍存在挑战，尤其是对于复杂的命令和长期任务。为了应对这一挑战，我们提出了三种关键见解：等价投票、约束解码和领域特定微调，这些见解显著增强了LLM规划者处理复杂任务的能力。等价投票通过从NL命令中生成和采样多个线性时序逻辑（LTL）公式，聚类具有等效性的LTL公式，并选择大多数组的公式作为最终的LTL公式，以确保一致性。约束解码然后使用生成的LTL公式强制实施自回归计划推理，确保生成的计划符合LTL。领域特定微调定制LLM以在特定任务域内生成安全且高效的计划。我们的方法，安全高效大型语言模型规划器（SELP），结合了这些见解，创建了LLM规划者，以高信心度生成遵循用户命令的计划。我们在不同机器人代理和任务（包括无人机导航和机器人操作）中证明了SELP的有效性和普适性。对于无人机导航任务，SELP在安全性率（即完成符合自然语言命令的任务）方面比最新的规划器高出10.8%，在计划效率方面高出19.8%。对于机器人操作任务，SELP在安全性率方面取得了20.4%的提升。我们的用于评估NL到LTL和机器人任务规划的数据集将在github.com/lt-asset/selp公开发布。

发布时间: 2/17/2025

查看原文

多智能体游戏中imitation learning的Learning Strategy表示方法

作者: Shiqi Lei, Kanghoon Lee, Linjing Li, Jinkyoo Park

arXiv:2409.19363v2 Announce Type: replace-cross 摘要：多智能体游戏中模仿学习（IL）的离线数据集通常包含表现出不同策略的玩家轨迹，这需要采取措施防止学习算法获取到不希望的行为。为这些轨迹学习表示是描述每个演示者所使用策略的有效方法。然而，现有的学习策略往往需要玩家识别或依赖于强假设，这对于多智能体游戏来说并不合适。因此，在本文中，我们引入了策略表示对于模仿学习（Strategy Representation for Imitation Learning，STRIL）框架，该框架包括：（1）有效地在多智能体游戏中学习策略表示；（2）基于这些表示估计提出的指标；以及（3）使用这些指标过滤掉次优化的数据。STRIL 是一个插件方法，可以集成到现有的 IL 算法中。我们展示了 STRIL 在竞争多智能体情景下的有效性，包括 Two-player Pong、Limit Texas Hold'em 和 Connect Four。我们的方法成功获取了策略表示和指标，从而识别出主导轨迹，并在这些环境中显著提升了现有的 IL 性能。

发布时间: 2/17/2025

查看原文

PropaInsight：从技术、诉求和意图方面更深入理解 propaganda

作者: Jiateng Liu, Lin Ai, Zizhou Liu, Payam Karisani, Zheng Hui, May Fung, Preslav Nakov, Julia Hirschberg, Heng Ji

arXiv:2409.18997v2 宣告类型: replace-cross 摘要：宣传在塑造公众意见和推动虚假信息方面发挥着关键作用。现有研究主要集中在识别宣传技巧上，但缺乏捕捉此类内容更广泛动机及其影响的能力。为了解决这些挑战，我们引入了propainsight，这是一种基于基础社会科学研究的概念框架，该框架系统地将宣传分解为技巧、引发性诉求和潜在意图。propainsight 提供了对宣传如何在不同情境下运作的更细粒度的理解。此外，我们还介绍了propagaze，这是一种新颖的数据集，结合了人类注释的数据和通过精心设计的管道生成的高质量合成数据。我们的实验表明，现成的LLM在宣传分析方面遇到困难，但使用propagaze进行训练显著提高了性能。微调后的Llama-7B-Chat在技巧识别方面比1次训练的GPT-4-Turbo高出203.4%的文本跨度IoU，在诉求分析方面高出66.2%的BertScore。此外，propagaze在数据稀疏和跨域场景中补充了有限的人类注释数据，展示了其在全面和可泛化的宣传分析中的潜力。

发布时间: 2/17/2025

查看原文

逐例编程：像专家一样提升预训练数据质量

作者: Fan Zhou, Zengzhi Wang, Qian Liu, Junlong Li, Pengfei Liu

arXiv:2409.17115v2 宣布类型: 替换交叉摘要：大型语言模型的预训练历来依赖于人类专家制定启发式方法以提高语料库质量，从而产生了大量的规则。然而，这些规则缺乏灵活应对个别示例独特特性的能力。与此同时，对每个示例应用定制规则对于人类专家来说是不切实际的。在这篇论文中，我们展示了即使是小型语言模型，参数量仅0.3B，也能展示出与人类专家相当甚至更强大的数据精炼能力。我们引入了“Programming Every Example”(ProX)这一新颖框架，将数据精炼视为编程任务，使模型能够通过为每个个别示例生成和执行细粒度操作（如字符串规范化等）来批量精炼语料库。实验结果显示，使用ProX精炼的数据预训练的模型在各种下游基准测试中的表现优于原始数据或使用其他选择方法过滤的数据，总体上超过2%。这一效果适用于不同规模的模型和预训练语料库，包括C4、RedPajama-V2、FineWeb、FineWeb-Edu和DCLM。此外，ProX在领域特定的连续预训练中表现出显著潜力：在没有领域特定设计的情况下，使用OpenWebMath精炼的数据训练的模型，在ProX下优于基于规则的人工设计方法，Mistral-7B的平均准确性提高了7.6%，Llama-2-7B提高了14.6%，CodeLlama-7B提高了20.3%，都在约10B标记内达到可比性，与在200B标记上训练的像Llama-7B这样的模型相媲美。进一步的分析表明，ProX在显著节省训练FLOPs方面具有优势，为高效大型语言模型预训练提供了有前途的途径。我们开源了ProX，其中包括超过500B的语料库、模型及其训练和实现的所有细节，以促进可重复研究和未来创新。代码：https://github.com/GAIR-NLP/ProX

发布时间: 2/17/2025

查看原文