arXiv 论文列表

推理友好型模型与混合注意力机制

arXiv:2409.15012v1 公告类型: 交叉摘要: 在现代语言模型中，键值(KV)缓存的大小在决定最大上下文长度和支持推理期间并发请求数量方面起着关键作用。KV缓存的大小与注意力头数量和处理的令牌数量成比例增长，导致长输入的内存消耗增加和推理速度变慢。在这项工作中，我们探索了MixAttention的使用，这是一种与Character.AI发布的博客密切相关的模型架构修改。MixAttention结合了滑动窗口注意力，其中只有一小部分最近的令牌存储在KV缓存中，以及跨层的KV缓存共享。我们的实验表明，MixAttention显著减少了内存使用并提高了推理速度，同时在不牺牲短上下文和长上下文任务的模型性能的情况下。我们还探索了该架构的各种配置，确定了在保持评估指标质量的同时优化资源效率的配置。

发布时间: 9/24/2024

查看原文

基于不确定性全局与局部融合网络的单目结肠镜图像深度估计泛化

目标：深度估计对于内窥镜导航和操作至关重要，但在实际临床场景中，如结肠，获取真实深度图是具有挑战性的。本研究旨在开发一个稳健的框架，能够很好地泛化到真实的结肠镜图像，克服非朗伯表面反射和多样数据分布等挑战。方法：我们提出了一种结合卷积神经网络（CNN）捕捉局部特征和Transformer捕捉全局信息的框架。设计了一种基于不确定性的融合块，通过识别CNN和Transformer分支的互补贡献来增强泛化能力。该网络可以在模拟数据集上进行训练，并直接泛化到未见过的临床数据，无需任何微调。结果：我们的方法在多个数据集上得到了验证，并展示了在各种数据集和解剖结构上的出色泛化能力。此外，在实际临床场景中的定性分析证实了所提出方法的鲁棒性。结论：通过CNN-Transformer架构结合局部和全局特征，以及基于不确定性的融合块，提高了深度估计性能和在模拟和真实内窥镜环境中的泛化能力。意义：本研究提供了一种新颖的方法来估计内窥镜图像的深度图，尽管临床条件复杂，但为内窥镜自动导航和其他临床任务（如息肉检测和分割）奠定了基础。

发布时间: 9/24/2024

查看原文

带有预算超支限制的等份额分配方法

arXiv:2409.15005v1 公告类型: 交叉摘要: 在参与式预算(PB)中，选民通过投票决定在给定预算内资助哪些项目。在PB背景下，比例性对于确保所有选民群体的平等对待至关重要。然而，纯粹的比例规则有时会导致次优结果。我们引入了带有边界超支的等额分配法(BOS Equal Shares)，这是一种平衡比例性和效率的稳健变体。BOS Equal Shares解决了严格比例保证中固有的低效率问题，但仍提供了与原始等额分配法相似的良好比例性。在分析过程中，我们还讨论了该方法的分数变体，允许部分资助项目。

发布时间: 9/24/2024

查看原文

评估心智理论：在对话预测中预测他人的不确定信念

通常，在评估心理理论时，我们考虑他人的信念是二元的：持有或未持有。但如果某人对自己的信念不确定呢？我们如何量化这种不确定性？我们提出了一套新的任务，挑战语言模型（LMs）在对话中模拟他人的不确定性。我们围绕对话预测设计了这些任务，其中代理预测对话中未观察到的结果。独特的是，我们将对话者本身视为预测者，要求LM预测对话者的不确定性（概率）。我们在这个回归任务中实验了重新缩放方法、方差减少策略和人口统计背景，并在三个对话语料库（社交、谈判、任务导向）上对八个LM进行了实验。尽管LM可以解释他人不确定性中高达7%的方差，但我们强调了任务的难度和未来工作的空间，特别是在实际应用中，如预测“虚假”。

发布时间: 9/24/2024

查看原文

稀疏到密集的激光雷达点生成：通过激光雷达与相机融合实现三维目标检测

arXiv:2409.14985v1 公告类型: 交叉摘要: 在仅依赖LiDAR传感器的情况下，准确检测远距离物体仍然是3D物体检测中的一个关键挑战，这是由于数据稀疏性的固有限制。为了解决这一问题，我们提出了LiDAR-Camera增强网络（LCANet），这是一种新颖的框架，通过融合包含丰富语义信息的2D图像特征来重建LiDAR点云数据，生成额外的点以提高检测精度。LCANet通过将图像特征投影到3D空间中，将LiDAR传感器和摄像机的数据融合在一起，将语义信息整合到点云数据中。然后，这些融合的数据被编码以生成包含语义和空间信息的3D特征，这些特征在边界框预测之前进一步细化以重建最终点。这种融合有效地弥补了LiDAR在检测远距离物体方面的弱点，这些物体通常由稀疏点表示。此外，由于原始数据集中许多物体的稀疏性，使得点生成的有效监督变得困难，我们采用了一个点云完成网络来创建一个完整的点云数据集，该数据集监督我们网络中密集点云的生成。在KITTI和Waymo数据集上的广泛实验表明，LCANet显著优于现有模型，特别是在检测稀疏和远距离物体方面。

发布时间: 9/24/2024

查看原文

任务特定适配器的动态集成用于类增量学习

非示例类增量学习（NECIL）使模型能够在不从头开始重新训练和存储旧任务示例的情况下持续获取新类别，解决了隐私和存储问题。然而，早期任务数据的缺失加剧了NECIL中灾难性遗忘的挑战。本文提出了一种名为任务特定适配器动态集成（DIA）的新框架，该框架包含两个关键组件：任务特定适配器集成（TSAI）和补丁级模型对齐。TSAI通过补丁级适配器集成策略增强了组合性，提供了更灵活的组合解决方案，同时保持了低计算成本。补丁级模型对齐通过两种专门机制维持特征一致性和准确的决策边界：补丁级蒸馏损失（PDL）和补丁级特征重构方法（PFR）。具体而言，PDL通过基于补丁标记对新类别学习的贡献实施蒸馏损失，保持了连续模型之间的特征级一致性。PFR通过从前一任务中重构适应新任务知识的旧类别特征，促进了准确的分类器对齐。广泛的实验验证了DIA的有效性，在NECIL设置下的基准数据集上显示出显著的改进，在计算复杂性和准确性之间保持了最佳平衡。本文发表后，完整的代码实现将公开发布。

发布时间: 9/24/2024

查看原文

论神经模块的专门化

arXiv:2409.14981v1 公告类型: 交叉摘要: 许多机器学习模型被提出，旨在实现系统性泛化：通过结合先前经验中的各个方面来推理新情况的能力。这些模型利用了组合架构，旨在学习专门针对任务中结构的专业模块，这些模块可以组合起来解决具有类似结构的新问题。尽管这些架构的组合性是由设计保证的，但模块的专业化却不是。在这里，我们从理论上研究了网络模块在数据集中专门化于有用结构并实现系统性泛化的能力。为此，我们引入了一个由实际系统性泛化基准启发的小型数据集空间。从这个数据集空间中，我们提出了系统性的数学定义，并研究了线性神经模块在解决任务组成部分时的学习动态。我们的结果揭示了模块专业化的困难，成功专业化所需的要素，以及实现系统性所需的模块化架构的必要性。最后，我们确认了在我们可处理的设置中的理论结果可以推广到更复杂的数据集和非线性架构。

发布时间: 9/24/2024

查看原文

基于深度强化学习的仓库环境中机器人移动避障方法

目前，在大多数仓库环境中，货物的堆积情况复杂，管理人员在控制货物的同时与仓库移动机器人的轨迹进行交互，传统的移动机器人无法很好地对货物和行人反馈正确的避障策略，为了在仓库环境中高效且友好地控制移动机器人完成避障任务，本文提出了一种基于仓库环境的深度强化学习移动机器人避障算法。首先，针对深度强化学习算法中价值函数网络学习能力不足的问题，基于行人交互改进了价值函数网络，通过行人角度网格提取行人之间的交互信息，并通过注意力机制提取单个行人的时间特征，从而学习得到当前状态和历史轨迹状态的相对重要性以及对机器人避障策略的联合影响，为后续多层感知机的学习提供了机会。其次，基于行人的空间行为设计了强化学习的奖励函数，对角度变化过大的状态进行惩罚，以达到舒适避障的要求；最后，通过仿真实验验证了该深度强化学习移动机器人避障算法在仓库复杂环境中的可行性和有效性。

发布时间: 9/24/2024

查看原文

检索增强生成（RAG）及超越：如何更明智地利用外部数据的综合调查

大型语言模型（LLMs）结合外部数据在完成现实世界任务方面展现了显著的能力。将外部数据整合到LLMs中的技术，如检索增强生成（RAG）和微调，正受到越来越多的关注和广泛应用。然而，在各个专业领域有效部署数据增强的LLMs面临着重大挑战。这些挑战涵盖了从检索相关数据和准确解读用户意图，到充分利用LLMs的推理能力来处理复杂任务的广泛问题。我们认为，数据增强的LLM应用并不存在一刀切的解决方案。在实践中，性能不佳往往源于未能正确识别任务的核心焦点，或因为任务本身需要结合多种能力，而这些能力必须被解耦以更好地解决。在这篇综述中，我们提出了一种RAG任务分类方法，根据所需外部数据的类型和任务的主要焦点，将用户查询分为四个层次：显式事实查询、隐式事实查询、可解释推理查询和隐藏推理查询。我们定义了这些查询层次，提供了相关数据集，并总结了应对这些挑战的关键挑战和最有效技术。最后，我们讨论了将外部数据整合到LLMs的三种主要形式：上下文、小模型和微调，突出了它们各自的优缺点以及适合解决的问题类型。这项工作的目的是帮助读者全面理解和分解构建LLM应用的数据需求和关键瓶颈，提供应对不同挑战的解决方案，并为系统开发此类应用提供指导。

发布时间: 9/24/2024

查看原文

KARMA：为具身AI代理增强长短期记忆系统

具身AI代理负责执行相互关联的长序列家庭任务时，常常面临上下文记忆的困难，导致任务执行中的低效和错误。为解决这一问题，我们引入了KARMA，一种创新的记忆系统，它集成了长期和短期记忆模块，通过记忆增强提示来增强大型语言模型（LLMs）在具身代理中的规划能力。KARMA区分了长期和短期记忆，长期记忆捕捉全面的3D场景图作为环境表示，而短期记忆动态记录物体位置和状态的变化。这种双记忆结构使代理能够检索相关的过去场景经验，从而提高任务规划的准确性和效率。短期记忆采用有效的自适应记忆替换策略，确保保留关键信息的同时丢弃不相关数据。与现有最先进的具身代理相比，我们的记忆增强具身AI代理在AI2-THOR模拟器中的复合任务和复杂任务中分别提高了1.3倍和2.3倍的成功率，并分别提高了3.4倍和62.7倍的任务执行效率。此外，我们展示了KARMA的即插即用功能使其能够无缝部署在现实世界的机器人系统上，如移动操作平台。通过这种即插即用记忆系统，KARMA显著增强了具身代理生成连贯且上下文相关计划的能力，使复杂家庭任务的执行更加高效。相关实验视频可在https://youtu.be/4BT7fnw9ehs找到。

发布时间: 9/24/2024

查看原文