arXiv 论文列表

作者: Lara Laban, Mariusz Wzorek, Piotr Rudol, Tommy Persson

在复杂环境中航行需要无人机 (UAV) 和自主系统实时执行轨迹跟踪和避障。虽然许多控制策略已有效地利用线性近似，但解决 UAV 的非线性动力学，特别是在障碍物密集的环境中，仍然是需要进一步研究的关键挑战。本文针对 DJI Matrice 100 引入了一种非线性模型预测控制 (NMPC) 框架，通过使用动态模型和 B 样条插值来生成平滑的参考轨迹，确保在遵守安全约束的同时最小化偏差，从而应对这些挑战。该框架支持各种轨迹类型，并采用基于惩罚的成本函数来提高紧凑机动时的控制精度。该框架利用 CasADi 进行高效的实时优化，使 UAV 即使在严格的计算约束下也能保持稳健运行。仿真和现实世界的室内外实验表明，NMPC 能够适应扰动，从而实现平滑、无碰撞的导航。

发布时间: 10/4/2024

查看原文

面向信息检索的统一多模态交织文档表示

作者: Jaewoo Lee, Joonho Ko, Jinheon Baek, Soyeong Jeong, Sung Ju Hwang

信息检索 (IR) 方法旨在根据给定查询识别相关文档，由于其在各种自然语言任务中的成功应用，已获得极大关注。然而，现有的方法通常只考虑文档中的文本信息，忽略了文档可以包含多种模态，包括文本、图像和表格这一事实。此外，它们通常将每个长文档分割成多个离散的段落进行嵌入，无法捕捉到整体文档上下文和段落之间的相互作用。我们认为，这两个局限性导致了次优的文档表示，不利于检索。为了解决这些问题，我们旨在通过整体嵌入不同模态交织的文档，产生更全面、更细致的文档表示。具体而言，我们利用了最近的视觉语言模型的能力，该模型能够将文本、图像和表格处理并集成到统一的格式和表示中。此外，为了减轻将文档分割成段落所带来的信息损失，我们不是单独表示和检索段落，而是将分割后的段落的表示合并成一个单一的文档表示，同时我们还引入了重新排序策略，以便在必要时解耦并识别文档中的相关段落。然后，通过对考虑文本和多模态查询的不同信息检索场景进行广泛的实验，我们表明我们的方法显著优于相关的基线，这得益于以统一的方式考虑文档中交织的多模态信息。

发布时间: 10/4/2024

查看原文

自适应推理时间计算：LLM 可以预测它们是否可以做得更好，即使在生成过程中。

作者: Rohin Manvi, Anikait Singh, Stefano Ermon

在推理时进行计算是增强大型语言模型 (LLMs) 性能的一种强大范式，其中最佳 N 抽样是一种广泛使用的技术。然而，这种方法计算量很大，需要 (1) 外部奖励模型和 (2) 生成多个样本。在这项工作中，我们引入了一种新的生成式自我评估方案，旨在自适应地减少生成的样本数量，同时保持甚至提高性能。我们使用生成式奖励模型公式，使 LLM 能够在生成中期预测重新开始生成将产生更好响应的概率。这些预测无需外部奖励模型即可获得，可用于决定是否生成更多样本、尽早修剪没有希望的样本或选择最佳样本。这种能力非常便宜，因为它涉及生成单个预定义标记。使用从真实未过滤的 LMSYS 用户提示构建的数据集进行训练，Llama 3.1 8B 在 AlpacaEval 上对 GPT-4 的胜率从 21% 提高到 34%，样本数量为 16 个，GSM8K 上的数学性能从 84% 提高到 91%。通过仅在 LLM 确定这样做有利时进行采样并自适应地调整温度退火，我们证明了使用 16 个样本获得的 74% 的改进可以通过平均仅 1.2 个样本实现。我们进一步证明，在生成早期可以修剪 50-75% 的样本，而性能下降最小。总的来说，我们的方法能够在 LLM 推理过程中实现更高效、可扩展的计算利用率。

发布时间: 10/4/2024

查看原文

大型语言模型作为马尔可夫链

作者: Oussama Zekri, Ambroise Odonnat, Abdelhakim Benechehab, Linus Bleistein, Nicolas Boull\'e, Ievgen Redko

大型语言模型 (LLMs) 在众多自然语言处理任务以及其他领域都展现出了非凡的效率。然而，对其出色表现来源的全面理论分析仍然难以捉摸。本文通过将词汇量为 $T$、上下文窗口大小为 $K$ 的通用自回归语言模型与定义在大小为 $\mathcal{O}(T^K)$ 的有限状态空间上的马尔可夫链建立等价关系，来解决这一具有挑战性的问题。我们推导出了一些令人惊讶的发现，这些发现与捕获 LLM 推理能力的马尔可夫链的平稳分布的存在、其收敛速度以及温度对收敛速度的影响有关。然后，我们证明了预训练和上下文泛化界，并展示了所建立的等价关系如何丰富对它们的解释。最后，我们通过对几个最近的 LLM 进行实验来说明我们的理论保证，以突出它们如何捕捉到实践中观察到的行为。

发布时间: 10/4/2024

查看原文

基于向量存储、知识图谱和张量分解的领域特定检索增强生成

作者: Ryan C. Barron, Ves Grantcharov, Selma Wanna, Maksim E. Eren, Manish Bhattarai, Nicholas Solovyev, George Tompkins, Charles Nicholas, Kim {\O}. Rasmussen, Cynthia Matuszek, Boian S. Alexandrov

大型语言模型（LLMs）在大量语料库上进行预训练，并在众多通用自然语言处理（NLP）任务中表现出色，例如问答（QA）。尽管它们拥有先进的语言能力，但在处理特定领域和知识密集型任务时，LLMs 会出现幻觉、知识截断和缺乏知识归属等问题。此外，将 LLMs 的内在知识微调到高度特定的领域是一个昂贵且耗时的过程。检索增强生成（RAG）过程最近出现，它能够通过将 LLM 响应引用到预定的本体来优化 LLM 响应。研究表明，使用知识图（KG）本体进行 RAG 可以提高 QA 准确性，因为它考虑了以结构化方式保留信息的相关子图。在本文中，我们介绍了 SMART-SLIC，一个高度特定领域的 LLM 框架，它将 RAG 与 KG 和一个存储事实特定领域信息的向量存储库 (VS) 集成在一起。重要的是，为了避免 KG 中出现幻觉，我们构建了这些高度特定领域的 KG 和 VS，没有使用 LLMs，而是通过 NLP、数据挖掘和具有自动模型选择的非负张量分解。将我们的 RAG 与特定领域的 (i) KG（包含结构化信息）和 (ii) VS（包含非结构化信息）相结合，可以开发特定领域的聊天机器人，这些聊天机器人可以归属信息来源，减轻幻觉，减少微调的需要，并在高度特定领域的问答任务中表现出色。我们将 SMART-SLIC 与思维链提示代理相结合。该框架的设计可推广到适应任何特定或专门的领域。在本文中，我们展示了我们的框架在恶意软件分析和异常检测的科学出版物语料库上的问答能力。

发布时间: 10/4/2024

查看原文

基于曲率多样性驱动的点云变形和域对齐

作者: Mengxi Wu, Hao Huang, Yi Fang, Mohammad Rostami

无监督领域自适应 (UDA)对于减少在点云数据上训练深度网络时对大量手动数据标注的需求至关重要。UDA 的一个重大挑战在于有效地弥合领域差距。为了应对这一挑战，我们提出了 **曲率多样性驱动的核范数 Wasserstein 域对齐 (CDND)**。我们的方法首先引入了一个 **曲率多样性驱动的变形重建 (CurvRec)** 任务，该任务通过使模型能够从给定点云的语义丰富区域提取显著特征，有效地减轻了源域和目标域之间的差距。然后，我们提出了 **基于变形的核范数 Wasserstein 差异 (D-NWD)**，它将核范数 Wasserstein 差异应用于 **变形和原始** 数据样本，以对齐源域和目标域。此外，我们对 D-NWD 在分布对齐方面的有效性进行了理论论证，并证明了它具有足够的 **通用性**，可以应用于 **任何** 变形。为了验证我们的方法，我们在两个公开的领域自适应数据集上进行了广泛的实验，以进行点云分类和分割任务。实证实验结果表明，我们的 CDND 通过显著的优势，在现有方法中取得了最先进的性能。

发布时间: 10/4/2024

查看原文

带噪声的测量：用于自动实验中噪声和性质发现的联合优化的贝叶斯优化

作者: Boris N. Slautin, Yu Liu, Jan Dec, Vladimir V. Shvartsman, Doru C. Lupascu, Maxim Ziatdinov, Sergei V. Kalinin

我们开发了一种贝叶斯优化 (BO) 工作流程，将步内噪声优化整合到自动实验周期中。传统自动实验中的 BO 方法侧重于优化实验轨迹，但往往忽略了测量噪声对数据质量和成本的影响。我们提出的框架通过引入时间作为额外的输入参数，同时优化目标特性和相关的测量噪声，从而平衡信噪比和实验时长。探索了两种方法：奖励驱动的噪声优化和双重优化采集函数，两者都通过在优化过程中考虑噪声和成本来提高自动工作流程的效率。我们使用压电响应力显微镜 (PFM) 通过模拟和真实世界实验验证了我们的方法，证明了测量时长和特性探索的成功优化。我们的方法为优化自动实验工作流程中的多个变量提供了一种可扩展的解决方案，提高了数据质量，并减少了材料科学等领域的资源支出。

发布时间: 10/4/2024

查看原文

SteerDiff：引导安全的文本到图像扩散模型

作者: Hongxiang Zhang, Yifeng He, Hao Chen

文本到图像（T2I）扩散模型因其生成高质量图像并实现精确文本对齐的能力而备受关注。然而，这些模型也可能被滥用于生成不适当的内容。现有的安全措施通常依赖于文本分类器或类似 ControlNet 的方法，往往不足。传统的文本分类器依赖于大规模标记数据集，并且很容易被重新措辞绕过。随着扩散模型的不断扩展，微调这些安全措施变得越来越具有挑战性，并且缺乏灵活性。最近的红队攻击研究进一步强调了需要一种新的范式来防止生成不适当内容。在本文中，我们介绍了 SteerDiff，这是一个轻量级适配器模块，旨在充当用户输入和扩散模型之间的中介，确保生成的图像符合道德和安全标准，对可用性几乎没有影响。SteerDiff 在文本嵌入空间中识别和操纵不适当的概念，以引导模型远离有害输出。我们针对各种概念遗忘任务进行了广泛的实验，以评估我们方法的有效性。此外，我们针对多个红队攻击策略对 SteerDiff 进行了基准测试，以评估其稳健性。最后，我们探索了 SteerDiff 在概念遗忘任务中的潜力，展示了其在文本条件图像生成方面的多功能性。

发布时间: 10/4/2024

查看原文

大语言模型知而不言：论大语言模型幻觉的内在表征

作者: Hadas Orgad, Michael Toker, Zorik Gekhman, Roi Reichart, Idan Szpektor, Hadas Kotek, Yonatan Belinkov

大型语言模型 (LLMs) 经常会产生错误，包括事实错误、偏差和推理失败，统称为“幻觉”。最近的研究表明，LLMs 的内部状态编码了关于其输出真实性的信息，并且该信息可以用于检测错误。在本研究中，我们表明 LLMs 的内部表征编码了比以前认识到的更多关于真实性的信息。我们首先发现真实性信息集中在特定标记中，利用此属性可以显著提高错误检测性能。然而，我们表明，此类错误检测器无法跨数据集泛化，这意味着——与之前的断言相反——真实性编码并非普遍存在，而是多方面的。接下来，我们表明内部表征还可以用于预测模型可能出现的错误类型，从而促进针对性的缓解策略的开发。最后，我们揭示了 LLMs 的内部编码和外部行为之间的差异：它们可能编码了正确答案，但始终生成错误答案。总而言之，这些见解从模型内部的角度加深了我们对 LLM 错误的理解，这可以指导未来关于增强错误分析和缓解的研究。

发布时间: 10/4/2024

查看原文

选择性注意力提升Transformer

作者: Yaniv Leviathan, Matan Kalman, Yossi Matias

注意力机制中的无用元素会降低性能。我们提出了选择性注意力，这是一个对标准注意力机制的简单无参数修改，它减少了对无用元素的注意力。选择性注意力提高了各种模型尺寸和上下文长度下的语言建模性能。例如，在 C4 上使用语言建模目标训练的一系列带有选择性注意力的 Transformer，其性能与标准 Transformer 相当，而标准 Transformer 在其注意力模块中具有约 2 倍的头部和参数。选择性注意力还可以减少注意力上下文缓冲区的尺寸，从而在推理过程中显着减少内存和计算需求。例如，在 C4 上训练的具有 1 亿个参数的 Transformer，其上下文尺寸分别为 512、1,024 和 2,048，在使用选择性注意力时，其注意力模块的内存需求分别减少了 16 倍、25 倍和 47 倍，而没有选择性注意力的 Transformer 则需要更多的内存，但验证困惑度相同。

发布时间: 10/4/2024

查看原文