arXiv 论文列表

作者: Prateek Verma

大型语言模型 (LLM) 引领了人工智能领域的新浪潮，影响着各个科学领域和学科。它们接受简单目标的训练：根据之前的上下文预测下一个标记。我们生活在一个周围大多数数据（例如文本、音频和音乐）都具有与其相关的多尺度结构的世界。本文在预训练期间将 LLMs 与传统的信号处理思想（即小波）融合，以利用这种结构。在不向 GPT 风格的 LLM 架构添加 **任何额外参数** 的情况下，我们在文本、原始音频和符号音乐中以几乎两倍的速度实现了相同的预训练性能。这是通过对中间嵌入施加结构来实现的。当训练相同数量的训练步骤时，我们在性能上取得了显著的提升，这与预训练更大的神经架构相当。我们的架构允许每个下一个标记预测访问每个 Transformer 解码器块中不同时间分辨率的中间嵌入。这项工作有望为将多速率信号处理思想融入传统的 LLM 预训练铺平道路。此外，我们展示了通过改进内部结构而不是单纯追求规模来提升模型性能。

发布时间: 10/4/2024

查看原文

Qwen2-VL：增强视觉语言模型在任意分辨率下的世界感知能力

作者: Peng Wang, Shuai Bai, Sinan Tan, Shijie Wang, Zhihao Fan, Jinze Bai, Keqin Chen, Xuejing Liu, Jialin Wang, Wenbin Ge, Yang Fan, Kai Dang, Mengfei Du, Xuancheng Ren, Rui Men, Dayiheng Liu, Chang Zhou, Jingren Zhou, Junyang Lin

我们推出了 Qwen2-VL 系列，这是对之前 Qwen-VL 模型的重大升级，它重新定义了视觉处理中传统的预定分辨率方法。Qwen2-VL 引入了朴素动态分辨率机制，使模型能够动态地将不同分辨率的图像处理成不同数量的视觉标记。这种方法使模型能够生成更有效、更准确的视觉表示，与人类感知过程密切相关。该模型还集成了多模态旋转位置嵌入 (M-RoPE)，有效地融合了文本、图像和视频中的位置信息。我们采用统一的范式来处理图像和视频，增强模型的视觉感知能力。为了探索大型多模态模型的潜力，Qwen2-VL 研究了大型视觉语言模型 (LVLMs) 的扩展规律。通过扩展模型大小（版本分别为 20 亿、80 亿和 720 亿参数）和训练数据量，Qwen2-VL 系列实现了极具竞争力的性能。值得注意的是，Qwen2-VL-72B 模型在各种多模态基准测试中取得了与 GPT-4o 和 Claude3.5-Sonnet 等领先模型相当的结果，优于其他通用模型。代码可在 https://github.com/QwenLM/Qwen2-VL 获取。

发布时间: 10/4/2024

查看原文

EIA：针对通用网络代理的环境注入攻击，用于隐私泄露

作者: Zeyi Liao, Lingbo Mo, Chejian Xu, Mintong Kang, Jiawei Zhang, Chaowei Xiao, Yuan Tian, Bo Li, Huan Sun

通用网页代理在自动完成真实网站上的各种任务方面展现出非凡的潜力，显著提高了人类的生产力。然而，网页任务（如预订航班）通常涉及用户的个人身份信息（PII），如果网页代理意外与受损网站交互，可能会面临隐私风险，而这种情况在文献中鲜有研究。在这项工作中，我们通过首次研究通用网页代理在对抗环境中的隐私风险来弥合这一差距。首先，我们提出了一种针对网站攻击的现实威胁模型，其中我们考虑了两个对抗目标：窃取用户的特定PII或整个用户请求。然后，我们提出了一种新颖的攻击方法，称为环境注入攻击（EIA）。EIA 注入旨在适应代理操作环境的恶意内容，我们的工作将 EIA 特定应用于网页环境中的隐私场景。我们从 Mind2Web 收集了 177 个涉及真实网站上不同 PII 类别的操作步骤，并使用迄今为止最强大的通用网页代理框架之一进行实验。结果表明，EIA 在窃取特定 PII 方面实现了高达 70% 的攻击成功率，在窃取完整用户请求方面实现了 16% 的攻击成功率。此外，通过访问隐蔽性和对防御系统提示进行实验，我们表明 EIA 难以检测和缓解。值得注意的是，未针对网页进行良好调整的攻击可以通过人工检查来检测，这导致我们讨论了安全性和自主性之间的权衡。然而，额外的攻击者努力可以使 EIA 无缝地适应，使这种监督无效。因此，我们进一步讨论了网站在部署前和部署后阶段的防御措施，而无需依赖人工监督，并呼吁更先进的防御策略。

发布时间: 10/4/2024

查看原文

合成持续预训练

作者: Zitong Yang, Neil Band, Shuangping Li, Emmanuel Cand\`es, Tatsunori Hashimoto

在大型、无结构的互联网文本上进行预训练使语言模型能够获得大量的世界知识。然而，这种知识获取效率低下——为了学习一个给定的事实，模型必须在数百到数千个不同的表示上进行训练。当将预训练模型适应到一个小型特定领域文档语料库时，这会带来挑战，因为每个事实可能很少出现，或者只出现一次。我们提出使用合成继续预训练来弥合这一差距：利用小型特定领域语料库来合成一个更适合学习的大型语料库，然后在合成语料库上进行继续预训练。我们使用 EntiGraph 来具体实现这个提议，EntiGraph 是一种合成数据增强算法，它从源文档中提取显著的实体，然后通过在采样实体之间建立联系来生成不同的文本。使用 EntiGraph 进行合成继续预训练使语言模型能够在不访问源文档的情况下，回答与源文档相关的问题并遵循通用指令。如果在推理时可以使用源文档，我们证明了通过我们的方法获得的知识会与检索增强生成相结合。为了更好地理解这些结果，我们构建了一个简单的 EntiGraph 数学模型，并展示了合成数据增强如何“重新排列”知识，从而实现更有效的数据学习。

发布时间: 10/4/2024

查看原文

多跳推理中的似是而非的干扰项：大型语言模型是专注的阅读者吗？

作者: Neeladri Bhuiya, Viktor Schlegel, Stefan Winkler

最先进的大型语言模型 (LLMs) 被认为拥有越来越多的不同能力，从阅读理解、高级数学和推理技能到拥有科学知识。本文重点研究其多跳推理能力：从多个文本来源识别和整合信息的能力。鉴于现有多跳推理基准中存在简化线索的担忧，这些线索允许模型规避推理要求，我们着手调查 LLM 是否容易利用此类简化线索。我们发现证据表明，它们确实规避了执行多跳推理的要求，但它们采用的方式比其微调预训练语言模型 (PLM) 前辈所报道的更微妙。受此发现的启发，我们通过生成看似合理的多跳推理链来提出一个具有挑战性的多跳推理基准，这些推理链最终会导致错误答案。我们评估了多个开源和专有的最先进的 LLM，发现它们执行多跳推理的性能受到影响，因为当遇到此类看似合理的替代方案时，F1 分数下降了高达 45%。我们进行了更深入的分析，并发现证据表明，虽然 LLM 往往会忽略误导性的词汇线索，但误导性的推理路径确实构成了重大挑战。

发布时间: 10/4/2024

查看原文

线性可实现值函数 MDP 的样本和先知高效强化学习

作者: Zakaria Mhammedi

在具有庞大或无限状态和动作空间的环境中，设计样本效率高且计算可行的强化学习 (RL) 算法尤其具有挑战性。本文通过提出一种针对马尔可夫决策过程 (MDP) 的高效算法，推动了这一努力，其中任何策略的状态-动作值函数在给定特征映射中是线性的。这种具有挑战性的设置可以模拟具有无限状态和动作的环境，严格概括了经典的线性 MDP，并且目前在在线访问 MDP 的情况下缺乏计算效率高的算法。具体来说，我们介绍了一种新的 RL 算法，该算法能够在该设置中有效地找到近似最优策略，使用数量级为问题参数的多项式的集数和对成本敏感分类 (CSC) 预言机的调用次数。值得注意的是，当特征维数恒定时，我们的 CSC 预言机可以有效地实现，这比最先进的方法有了明显改进，后者需要解决具有水平数量变量的非凸问题，并且会产生水平指数级的计算成本。

发布时间: 10/4/2024

查看原文

利用神经元交互与即时预测网络加速训练

作者: Boris Knyazev, Abhinav Moudgil, Guillaume Lajoie, Eugene Belilovsky, Simon Lacoste-Julien

神经网络训练可以通过使用可学习的更新规则来代替传统的自适应优化器（如 Adam）来加速。然而，可学习的更新规则的训练和使用可能成本高昂且不稳定。最近，Jang 等人（2023）提出了一种更简单的方法来加速基于权重预报网络 (WNN) 的训练。在他们的方法中，Adam 用于大多数优化步骤，并且周期性地，每隔几步，WNN 就会预测（预测近期）参数。我们通过提出神经元交互和预报 (NiNo) 网络来改进 WNN。与 WNN 相比，NiNo 利用神经元连接和图神经网络来更准确地预测参数。我们进一步表明，在某些网络中，例如 Transformer，准确地建模神经元连接具有挑战性。我们解决了这个问题和其他限制，这使得 NiNo 能够在视觉和语言任务中将 Adam 训练速度提高高达 50%。

发布时间: 10/4/2024

查看原文

LongLLaVA：通过混合架构高效地将多模态大型语言模型扩展到1000张图像

作者: Xidong Wang, Dingjie Song, Shunian Chen, Chen Zhang, Benyou Wang

扩展多模态大型语言模型 (MLLMs) 的长上下文能力对于视频理解、高分辨率图像理解和多模态代理至关重要。这涉及一系列系统优化，包括模型架构、数据构建和训练策略，特别是解决诸如“图像越多性能下降”和“高计算成本”等挑战。在本文中，我们采用 Mamba 和 Transformer 模块的混合模型架构，通过多张图像之间的时空依赖关系来构建数据，并采用渐进式训练策略。发布的模型**LongLLaVA**（**Long**-Context **L**arge **L**anguage **a**nd **V**ision **A**ssistant）是第一个混合 MLLM，在效率和有效性之间取得了更好的平衡。LongLLaVA 不仅在各种基准测试中取得了有竞争力的结果，而且还保持了高吞吐量和低内存消耗。特别是，它可以在单个 A100 80GB GPU 上处理近千张图像，显示出在广泛任务中具有良好的应用前景。

发布时间: 10/4/2024

查看原文

锚点控制生成对抗网络用于高保真电磁和结构多样性超表面设计

作者: Yunhui Zeng, Hongkun Cao, Xin Jin

超表面能够在亚波长尺度上操控光，在推动光电应用方面具有巨大潜力。生成式模型，特别是生成对抗网络 (GAN)，为超表面逆向设计提供了一种很有前景的方法，通过有效地导航复杂的设计空间并捕获潜在的数据模式。然而，现有的生成式模型难以实现高电磁保真度和结构多样性。这些挑战源于训练过程中缺乏明确的电磁约束，这阻碍了准确的结构到电磁响应映射，以及缺乏处理一对多映射困境的机制，导致结构多样性不足。为了解决这些问题，我们提出了锚点控制生成对抗网络 (AcGAN)，这是一个新颖的框架，可以提高电磁保真度和结构多样性。为了实现高电磁保真度，AcGAN 提出了光谱重叠系数 (SOC) 用于精确的光谱保真度评估，并开发了 AnchorNet，它提供关于电磁性能的实时反馈，以细化结构到电磁映射。为了增强结构多样性，AcGAN 结合了聚类引导控制器，该控制器细化输入处理并确保多级光谱集成，引导生成过程探索同一光谱目标的多种配置。此外，动态损失函数逐渐将重点从数据驱动学习转移到优化光谱保真度和结构多样性。实证分析表明，与当前最先进的 GAN 方法相比，AcGAN 将均方误差 (MSE) 降低了 73%，并显着扩展了设计空间，以生成满足精确光谱需求的多样化超表面架构。

发布时间: 10/4/2024

查看原文

基于软价值解码的连续和离散扩散模型中的无导数引导

作者: Xiner Li, Yulai Zhao, Chenyu Wang, Gabriele Scalia, Gokcen Eraslan, Surag Nair, Tommaso Biancalani, Aviv Regev, Sergey Levine, Masatoshi Uehara

扩散模型在捕捉图像、分子、DNA、RNA 和蛋白质序列的自然设计空间方面表现出色。然而，我们通常的目标并不仅仅是生成自然的设计，而是希望在保留这些设计空间自然性的同时，优化下游奖励函数。现有的实现这一目标的方法通常需要“可微分”的代理模型（例如，分类器引导或 DPS）或涉及对扩散模型进行计算量大的微调（例如，无分类器引导，基于 RL 的微调）。在我们的工作中，我们提出了一种新的方法来解决这些挑战。我们的算法是一种迭代采样方法，它将软价值函数集成到预训练扩散模型的标准推理过程中，该函数展望中间噪声状态如何在未来导致高奖励。值得注意的是，我们的方法避免了对生成模型的微调，并消除了构建可微分模型的需要。这使我们能够 (1) 直接利用许多科学领域中常用的不可微分特征/奖励反馈，以及 (2) 以一种原则性的方式将我们的方法应用于最近的离散扩散模型。最后，我们在几个领域证明了我们算法的有效性，包括图像生成、分子生成和 DNA/RNA 序列生成。代码可在 \href{https://github.com/masa-ue/SVDD}{https://github.com/masa-ue/SVDD} 获取。

发布时间: 10/4/2024

查看原文