arXiv 论文列表

作者: Ruifeng Ren, Zhicong Li, Yong Liu

Transformer 已成为当前大型语言模型 (LLM) 的基石；然而，其推理过程中与序列长度相关的线性开销增长给长序列建模带来了挑战。在此背景下，Mamba 由于其在推理过程中保持恒定大小而逐渐受到关注，现有实证结果表明，它可以在序列建模中与 Transformer 相媲美，同时提供显著的节省。然而，人们可能会问，Mamba 真的可以一直享受“免费午餐”吗？在本文中，我们从理论角度分析了 Mamba 的表达能力。首先，受 Mamba 与线性注意力的联系启发，我们研究了 Mamba 在执行 COPY 操作时的潜在缺陷。我们的结果表明，具有恒定大小的 Mamba 在处理 COPY 时可能会遇到瓶颈，而当大小随序列长度线性扩展时，它可以实现完美的性能。基于此观察，我们分析了 Mamba 在配备思维链 (CoT) 时解决 DP 问题的能力。我们的发现表明，为了解决任意 DP 问题，Mamba 的总成本与标准和高效的 Transformer 相当。然而，与高效 Transformer 类似，当面对具有局部性等有利属性的 DP 问题时，Mamba 可以节省开销。我们的结果有助于更深入地理解 Mamba。

发布时间: 10/8/2024

查看原文

用于推测解码的混合注意力机制

作者: Matthieu Zimmer, Milan Gritta, Gerasimos Lampouras, Haitham Bou Ammar, Jun Wang

大型语言模型（LLM）的参数数量不断增长，导致了计算需求的显著增加，使得它们的部署变得困难且昂贵。推测解码（SD）利用更小的模型来高效地预测未来词元，然后由 LLM 并行验证。目前，利用 LLM 激活的小型模型实现了最快的解码速度。然而，我们发现 SD 模型存在一些局限性，包括训练期间缺乏在线策略性和部分可观测性。为了解决这些缺陷，我们通过引入用于 SD 的注意力混合，为小型模型提出了更基础的架构。我们的新型架构可以在两种场景中应用：传统的单设备部署和新颖的客户端-服务器部署，其中小型模型托管在消费设备上，而 LLM 托管在服务器上。在单设备场景中，我们展示了最先进的加速效果，将 EAGLE-2 提高了 9.5%，并将它的接受长度提高了 25%。在客户端-服务器设置中，我们的实验表明：1）在不同网络条件下，以最少的服务器调用实现了最先进的延迟；2）在完全断开连接的情况下，与其他 SD 方法相比，我们的方法可以保持更高的准确率，并展示了相对于 LLM API 调用的优势，否则 LLM 将无法继续生成过程。

发布时间: 10/8/2024

查看原文

基于文本引导的 3D 分子生成扩散模型

作者: Yanchen Luo, Junfeng Fang, Sihang Li, Zhiyuan Liu, Jiancan Wu, An Zhang, Wenjie Du, Xiang Wang

文本引导的小分子生成方法：通过三维扩散模型集成语言和扩散模型，实现文本引导的小分子生成。该方法使用文本条件来引导分子生成，提高了稳定性和多样性。实验结果表明，TextSMOG 能够有效地捕捉和利用文本描述中的信息，使其成为根据复杂的文本定制生成 3D 分子结构的强大工具。

发布时间: 10/8/2024

查看原文

可信多视角学习的动态证据解耦

作者: Ying Liu, Lihong Liu, Cai Xu, Xiangyu Song, Ziyu Guan, Wei Zhao

多视角学习方法通常侧重于提高决策精度，而忽略了决策的不确定性，限制了其在安全关键应用中的适用性。为了缓解这个问题，研究人员提出了可信的多视角学习方法，通过学习每个实例的类别分布来估计分类概率和不确定性。然而，这些方法假设来自每个视角的数据能够有效地区分所有类别，忽略了现实世界多视角数据中的语义模糊现象。我们的研究结果表明，这种现象极大地抑制了现有方法中视角特定证据的学习。我们提出了一种一致且互补感知的可信多视角学习 (CCML) 方法来解决这个问题。我们首先使用基于证据的深度神经网络构建视角意见，该网络包含信念质量向量和不确定性估计。接下来，我们动态地解耦一致和互补的证据。一致性证据来自所有视角的共享部分，而互补证据则是通过对所有视角的不同部分进行平均获得的。我们确保从一致性证据构建的意见与真实类别严格一致。对于从互补证据构建的意见，我们允许其在证据中存在潜在的模糊性。我们在一个合成数据集和六个真实世界数据集上将 CCML 与最先进的基线进行了比较。结果验证了动态证据解耦策略的有效性，并表明 CCML 在准确性和可靠性方面明显优于基线。代码已发布在 https://github.com/Lihong-Liu/CCML。

发布时间: 10/8/2024

查看原文

人类难以识别由人工智能驱动的语音克隆

作者: Sarah Barrington, Hany Farid

随着生成式人工智能的持续发展，从文本到音频、图像和视频的生成，都在模仿人类生成内容方面不断提升。通过一系列感知研究，我们报告了人工智能生成声音在身份匹配和自然度方面的真实性。我们发现人类参与者无法可靠地识别人工智能生成声音的简短录音（少于 20 秒）。具体来说，参与者将人工智能声音的身份误认为其真实对应者的比例高达 80%，而正确识别声音为人工智能生成的比例仅为 60%。在所有情况下，性能都与说话者或听众的人口统计学特征无关。

发布时间: 10/8/2024

查看原文

CalliFusionV2：个性化自然书法生成与灵活的多模态控制

作者: Qisheng Liao, Liang Li, Yulang Fei, Gus Xia

本文介绍了 CalliffusionV2，一个旨在生成具有灵活多模态控制的自然汉字书法的新系统。与以往仅依赖图像或文本输入且缺乏细粒度控制的方法不同，我们的系统利用图像在细粒度级别指导生成，并利用自然语言文本描述生成的特征。CalliffusionV2 擅长创建各种各样的字符，并且可以通过少量样本学习快速学习新风格。它还能够在没有事先训练的情况下生成非汉字字符。综合测试证实，我们的系统生成的书法在风格上准确，并且可以被神经网络分类器和人工评估者识别。

发布时间: 10/8/2024

查看原文

AI之眸：通过多模态互动装置探索人工智能中的偏见

作者: Ziyao Gao, Yiwen Zhang, Ling Li, Theodoros Papatheodorou, Wei Zeng

随着人工智能算法的应用，数据监控变得更加隐蔽和无处不在，这可能导致社会分类的偏差。外貌提供了直观的身份信号，但让 AI 观察和推测外貌意味着什么？我们推出了 AI-rays，一个互动装置，它通过合成个人物品放置在参与者包中，从参与者的外貌中生成推测性身份。它使用推测性的 X 射线视觉来对比现实与 AI 生成的假设，隐喻地突出了 AI 的审查和偏差。AI-rays 通过一种充满趣味的沉浸式体验，探索 AI 偏差，促进人们对现代监控和人机现实未来的讨论。

发布时间: 10/8/2024

查看原文

大型语言模型在教育引导中的应用：以建模生产性失败为例

作者: Romain Puech, Jakub Macina, Julia Chatain, Mrinmaya Sachan, Manu Kapur

一对一辅导是教学中最有效的方法之一。随着大型语言模型 (LLM) 的流行，人们一直致力于利用它们来创建对话式辅导系统，从而让每个人都能享受到一对一辅导的益处。然而，目前的 LLM 主要被训练成有用的助手，因此缺乏重要的教学技能。例如，它们通常会迅速向学生揭示解决方案，而没有计划更丰富的多轮教学互动。为了在教学场景中使用 LLM，需要引导它们使用有效的教学策略：我们将其称为教学引导，并认为这对有效地利用 LLM 作为导师至关重要。我们通过形式化辅导策略的概念，并引入 StratL，一个用于建模策略并使用提示引导 LLM 遵循该策略的算法来解决这个问题。作为案例研究，我们为高中数学创建了一个原型导师，遵循生产性失败 (PF)，这是一种先进且有效的学习设计。为了在现实世界中验证我们的方法，我们在新加坡对 17 名高中生进行了实地研究。我们定量地表明 StratL 成功地引导 LLM 遵循生产性失败辅导策略。我们还彻底调查了对 LLM 理想属性的溢出效应，例如它生成类似人类答案的能力。基于这些结果，我们强调了教学引导中的挑战，并提出了进一步改进的机会。我们还鼓励后续研究，并发布生产性失败问题的数据集以及我们原型和算法的代码。

发布时间: 10/8/2024

查看原文

基于网格的物理模拟中的消息传递层次发现

作者: Huayu Deng, Xiangming Zhu, Yunbo Wang, Xiaokang Yang

图神经网络已成为大规模基于网格的物理模拟的强大工具。现有方法主要采用分层、多尺度消息传递来捕获图中的长程依赖关系。然而，这些图层次结构通常是固定的，并且是手动设计的，它们不能适应复杂物理系统中存在的不断变化的动力学。在本文中，我们介绍了一种名为 DHMP 的新型神经网络，它通过可微节点选择方法学习消息传递网络的动态层次结构。关键组成部分是各向异性消息传递机制，它在层内和层间交互中运行。与现有方法不同，它首先支持在每个图层次结构中相邻节点之间动态特征的方向性非均匀聚合。其次，它根据不同的物理环境确定下一个层次结构的节点选择概率，从而为学习远程节点关系创建更灵活的消息捷径。我们的实验表明了 DHMP 的有效性，与最近的固定层次结构消息传递网络相比，在五个经典物理模拟数据集上平均提高了 22.7%。

发布时间: 10/8/2024

查看原文

确定然后集成：大型语言模型集成中 Top-k 并集的必要性

作者: Yuxuan Yao, Han Wu, Mingyang Liu, Sichun Luo, Xiongwei Han, Jie Liu, Zhijiang Guo, Linqi Song

大型语言模型 (LLM) 在不同的任务中表现出不同的优缺点，这促使最近的研究探索集成模型以利用其互补优势的益处。然而，现有的 LLM 集成方法往往忽视模型兼容性，并且难以在整个词汇表中有效地对齐概率。在本研究中，我们对影响集成性能的因素进行了实证调查，确定了模型性能、词汇量和响应风格作为关键决定因素，揭示了模型之间的兼容性对于有效集成至关重要。该分析导致了一种简单但有效的模型选择策略的开发，该策略可以识别兼容的模型。此外，我们引入了 \textsc{Uni}on \textsc{T}op-$k$ \textsc{E}nsembling (\textsc{UniTE})，这是一种新颖的方法，通过关注每个模型的前 $k$ 个标记的并集来有效地组合模型，从而避免了对整个词汇表进行对齐的需要，并减少了计算开销。在多个基准上的广泛评估表明，与现有方法相比，\textsc{UniTE} 显着提高了性能，为 LLM 集成提供了一个更有效的框架。

发布时间: 10/8/2024

查看原文