arXiv 论文列表

作者: Konstantina Christakopoulou, Shibl Mourad, Maja Matari\'c

大型语言模型使各种代理能够通过自然对话与用户进行交互。因此，代理现在有两项工作：对话和规划/推理。它们的对话响应必须由所有可用信息提供信息，并且它们的行动必须有助于实现目标。这种在与用户对话和进行多步骤推理和规划之间的二分法可以看作类似于卡尼曼提出的“快思考和慢思考”的人类系统。我们的方法由一个“说话者”代理（系统 1）组成，该代理速度快且直观，负责合成对话响应；以及一个“推理者”代理（系统 2），该代理速度较慢、更审慎且更合乎逻辑，负责多步骤推理和规划、调用工具、在世界中执行操作，从而产生新的代理状态。我们描述了新的说话者-推理者架构，并讨论了它的优势，包括模块化和降低延迟。我们以睡眠教练代理的背景为基础进行讨论，以证明其现实世界的相关性。

发布时间: 10/14/2024

查看原文

6DGS：增强方向感知高斯散射体积渲染

作者: Zhongpai Gao, Benjamin Planche, Meng Zheng, Anwesa Choudhuri, Terrence Chen, Ziyan Wu

神经辐射场 (NeRF) 和 3D 高斯散射 (3DGS) 的发展极大地促进了新型视图合成。然而，在不影响实时渲染的情况下实现高质量渲染仍然是一个挑战，特别是对于具有视点相关效应的物理基础光线追踪而言。最近，N 维高斯 (N-DG) 引入了一种 6D 空间-角度表示，以更好地融入视点相关效应，但高斯表示和控制方案并非最佳。在本文中，我们重新审视 6D 高斯，并介绍 6D 高斯散射 (6DGS)，它增强了颜色和不透明度表示，并利用 6D 空间中的额外方向信息来优化高斯控制。我们的方法与 3DGS 框架完全兼容，并通过更好地建模视点相关效应和精细细节，显著提高了实时辐射场渲染。实验表明，6DGS 显著优于 3DGS 和 N-DG，在 PSNR 上取得了高达 15.73 dB 的提升，与 3DGS 相比，高斯点减少了 66.5%。项目页面：https://gaozhongpai.github.io/6dgs/

发布时间: 10/11/2024

查看原文

锤子：通过函数掩蔽实现设备内语言模型的鲁棒函数调用

作者: Qiqiang Lin, Muning Wen, Qiuying Peng, Guanyu Nie, Junwei Liao, Jun Wang, Xiaoyun Mo, Jiamu Zhou, Cheng Cheng, Yin Zhao, Jun Wang, Weinan Zhang

大型语言模型在配备外部工具和 API 调用时，已展现出作为自主代理的非凡价值。然而，有效地利用其潜力执行复杂任务，关键在于增强其函数调用能力。本文指出了现有函数调用模型中的一个关键差距，即性能在不同基准测试之间差异显著，这通常是由于特定命名约定造成的误导。为了解决这一问题，我们引入了 Hammer，一个专门为设备上函数调用而设计的全新基础模型系列。Hammer 采用增强的数据集，提高模型对无关函数的敏感度，并结合函数屏蔽技术，最大程度地减少误导。我们的实证评估表明，Hammer 不仅优于更大的模型，而且在各种基准测试中展现出强大的泛化能力，取得了最先进的结果。我们的开源贡献包括一个专门用于无关性检测的数据集、一个用于增强泛化的调优框架以及 Hammer 模型，为函数调用性能设定了新的标准。

发布时间: 10/11/2024

查看原文

理解和增强 DNN 模型所有权验证中训练证明安全性的研究

作者: Yijia Chang, Hanrui Jiang, Chao Lin, Xinyi Huang, Jian Weng

深度神经网络 (DNN) 具有巨大的经济价值，促使人工智能企业保护其模型的知识产权 (IP)。最近，训练证明 (PoT) 被提出作为一种有前景的 DNN IP 保护解决方案，通过该方案，人工智能企业可以利用 DNN 训练过程的记录作为其所有权证明。为了防止攻击者伪造所有权证明，安全的 PoT 方案应该能够区分攻击者伪造的诚实训练记录和伪造的训练记录。虽然现有的 PoT 方案提供了各种区分标准，但这些标准是基于直觉或观察。这些标准的有效性缺乏清晰而全面的分析，导致最初被认为安全的现有方案被简单想法迅速破坏。在本文中，我们首次以形式化方法的方式识别区分标准，以便可以明确证明其有效性。具体而言，我们进行系统建模以涵盖各种攻击，然后从理论上分析诚实训练记录和伪造训练记录之间的区别。分析结果不仅引入了通用区分标准，还提供了详细的推理来证明其在防御我们模型涵盖的攻击方面的有效性。在该标准的指导下，我们提出了一种通用的 PoT 结构，可以实例化为具体的方案。这种结构揭示了轨迹匹配算法（以前用于数据蒸馏）在 PoT 结构中具有显著优势的认识。实验结果表明，我们的方案可以抵抗已破坏现有 PoT 方案的攻击，这证实了其在安全方面的优越性。

发布时间: 10/11/2024

查看原文

并非所有扩散模型激活都曾被评估为判别性特征

作者: Benyuan Meng, Qianqian Xu, Zitai Wang, Xiaochun Cao, Qingming Huang

扩散模型最初是为图像生成而设计的。最近的研究表明，其骨干网络中的内部信号，即激活，也可以作为密集特征用于各种判别任务，例如语义分割。在众多激活中，选择一小部分但有效的子集是一个基本问题。为此，该领域的早期研究对激活的判别能力进行了大规模定量比较。然而，我们发现许多潜在的激活尚未得到评估，例如用于计算注意力分数的查询和键。此外，扩散架构的最新进展带来了许多新的激活，例如嵌入式 ViT 模块中的那些。两者结合起来，激活选择仍然悬而未决，但被忽视了。为了解决这个问题，本文进一步研究了更广泛的激活评估范围。考虑到激活的显著增加，全面的定量比较不再可行。相反，我们试图了解这些激活的特性，以便通过简单的定性评估可以提前过滤掉明显劣质的激活。经过仔细分析，我们发现了扩散模型中普遍存在的三个特性，使本研究能够超越特定模型。在此基础上，我们针对几种流行的扩散模型提出了有效的特征选择解决方案。最后，跨多个判别任务的实验验证了我们的方法优于 SOTA 竞争对手。我们的代码可在 https://github.com/Darkbblue/generic-diffusion-feature 获取。

发布时间: 10/11/2024

查看原文

术中超声引导肝脏手术实时肝内血管识别

作者: Karl-Philippe Beaudet (IHU Strasbourg, UNISTRA, MIMESIS), Alexandros Karargyris (IHU Strasbourg, UNISTRA), Sidaty El Hadramy (UNISTRA, MIMESIS), St\'ephane Cotin (UNISTRA, MIMESIS), Jean-Paul Mazellier (IHU Strasbourg, UNISTRA), Nicolas Padoy (IHU Strasbourg, UNISTRA), Juan Verde (IHU Strasbourg, UNISTRA, MIMESIS)

尽管腹腔镜肝切除术与传统开放手术相比，并发症更少，患者预后也更好，但其复杂性阻碍了其广泛应用，因为在代表肝脏内部结构方面存在挑战。腹腔镜术中超声检查提供了一种高效、经济且无辐射的引导方式。我们的目标是帮助医生使用腹腔镜术中超声检查识别肝脏内部结构。我们提出了一种以患者为中心的方案，使用术前 3D 超声肝脏体积来训练深度学习模型，以便实时识别门静脉树和分支结构。我们的个性化 AI 模型在离体猪肝脏上进行了验证，其精度 (0.95) 和召回率 (0.93) 超过了外科医生，为超声引导的肝脏切除术中精确识别血管奠定了基础。其适应性和潜在的临床影响有望推动手术干预并改善患者护理。

发布时间: 10/11/2024

查看原文

ARB-LLM：面向大型语言模型的交替细化二值化方法

作者: Zhiteng Li, Xianglong Yan, Tianao Zhang, Haotong Qin, Dong Xie, Jiang Tian, zhongchao shi, Linghe Kong, Yulun Zhang, Xiaokang Yang

大型语言模型 (LLM) 极大地推动了自然语言处理的进步，但其高内存和计算需求阻碍了实际部署。二值化作为一种有效的压缩技术，可以将模型权重缩减至仅 1 位，从而显著降低对计算和内存的高需求。然而，目前的二值化方法难以缩小二值化权重和全精度权重之间的分布差距，同时忽略了 LLM 权重分布中的列偏差。为了解决这些问题，我们提出了 ARB-LLM，这是一种针对 LLM 的新型 1 位训练后量化 (PTQ) 技术。为了缩小二值化权重和全精度权重之间的分布偏移，我们首先设计了一种交替细化二值化 (ARB) 算法，以逐步更新二值化参数，从而显著降低量化误差。此外，考虑到校准数据的关键作用和 LLM 权重中的列偏差，我们进一步将 ARB 扩展到 ARB-X 和 ARB-RC。此外，我们使用列组位图 (CGB) 细化权重划分策略，进一步提高性能。将 ARB-X 和 ARB-RC 配备 CGB，我们分别获得了 ARB-LLM$_\text{X}$ 和 ARB-LLM$_\text{RC}$，它们在 LLM 的最先进 (SOTA) 二值化方法中表现出显著优越性。作为一种二进制 PTQ 方法，我们的 ARB-LLM$_\text{RC}$ 是第一个超过相同大小的 FP16 模型的。代码和模型将在 https://github.com/ZHITENGLI/ARB-LLM 上提供。

发布时间: 10/11/2024

查看原文

CriSPO：面向文本生成的基于多方面评价-建议的自动提示优化

作者: Han He, Qianchu Liu, Lei Xu, Chaitanya Shivade, Yi Zhang, Sundararajan Srinivasan, Katrin Kirchhoff

现有的自动提示工程方法通常是为判别性任务设计的，其中新的任务提示会根据反映单一方面的单个指标的有限反馈进行迭代优化。然而，这些方法对于生成性任务来说并不理想，因为生成性任务需要更细致的指导，而不仅仅是单个数值指标，才能改进提示并优化生成的文本的多个方面。为了解决这些挑战，我们提出了一种新的多方面评价-建议引导自动提示优化 (CriSPO) 方法。CriSPO 将评价-建议模块作为其核心组件。该模块自发地发现方面，并在这些方面比较生成的文本和参考文本，为提示修改提供具体的建议。这些清晰的评价和可操作的建议指导一个接受性优化器模块进行更实质性的更改，探索更广泛、更有效的搜索空间。为了进一步改进 CriSPO 的多指标优化，我们引入了自动后缀调整 (AST) 扩展，以提高任务提示在多个指标上的性能。我们在 4 个最先进的 LLM 上对 4 个摘要数据集和 5 个问答数据集进行了 CriSPO 的评估。大量实验表明，摘要的 ROUGE 得分提高了 3-4%，问答的各种指标也得到了显著提高。

发布时间: 10/11/2024

查看原文

HELMET：如何有效且彻底地评估长文本语言模型

作者: Howard Yen, Tianyu Gao, Minmin Hou, Ke Ding, Daniel Fleischer, Peter Izsak, Moshe Wasserblat, Danqi Chen

许多基准用于评估长上下文语言模型（LCLMs），但开发者通常依赖于合成任务，如大海捞针（NIAH）或任务的任意子集。目前尚不清楚这些任务是否能转化为 LCLMs 的各种下游应用，而这种不一致性进一步加剧了模型比较的难度。我们调查了当前做法背后的根本原因，发现现有基准由于应用覆盖率低、长度不足、指标不可靠以及与基础模型不兼容，往往会提供嘈杂的信号。在这项工作中，我们提出了 HELMET（如何有效彻底地评估长上下文模型），这是一个涵盖七个不同应用中心类别的综合基准。我们还通过添加高达 128k 个标记的可控长度、基于模型的评估以获得可靠的指标以及用于稳健评估基础模型的少样本提示，解决了先前基准中的许多问题。因此，我们证明 HELMET 提供了更可靠、更一致的前沿 LCLMs 排名。通过对 51 个 LCLMs 的全面研究，我们发现 (1) 像 NIAH 这样的合成任务不是下游性能的良好预测指标；(2) HELMET 中的不同类别表现出不同的趋势，彼此之间的相关性很低；(3) 虽然大多数 LCLMs 在 NIAH 任务中取得了完美的分数，但当任务需要全上下文推理或遵循复杂的指令时，开源模型明显落后于封闭模型——随着长度的增加，差距会扩大。最后，我们建议使用我们的 RAG 任务进行快速模型开发，因为它们易于运行，并且更能预测其他下游性能；最终，我们主张在各种任务中进行全面评估。

发布时间: 10/11/2024

查看原文

通过等变性提升多智能体强化学习样本效率和泛化能力

作者: Joshua McClellan, Naveed Haghani, John Winder, Furong Huang, Pratap Tokekar

多智能体强化学习（MARL）面临着样本效率低和泛化能力差的挑战 [1]。这些挑战部分源于用于学习策略的神经网络缺乏结构或归纳偏差。多智能体场景中普遍存在的一种结构形式是对称性。几何深度学习领域已经开发了等变图神经网络（EGNN），它们对节点的旋转、平移和反射保持等变（或对称）。已证明，加入等变性可以提高学习效率并降低错误率 [2]。在本文中，我们证明了 EGNN 可以提高 MARL 的样本效率和泛化能力。然而，我们也发现，将 EGNN 简单地应用于 MARL 会导致早期探索能力不足，因为 EGNN 结构存在偏差。为了减轻这种偏差，我们提出了探索增强等变图神经网络（E2GN2）。我们使用常见的 MARL 基准 MPE 和 SMACv2，将 E2GN2 与其他常见的函数逼近器进行了比较。在我们的泛化测试中，E2GN2 在样本效率方面取得了显著提高，最终奖励收敛性更好，并且与标准 GNN 相比，在泛化方面取得了 2 倍到 5 倍的提升。这些结果为构建更可靠、更有效的复杂多智能体系统解决方案铺平了道路。

发布时间: 10/11/2024

查看原文