arXiv 论文列表

作者: Kevin Y. Li, Sachin Goyal, Joao D. Semedo, J. Zico Kolter

arXiv:2411.03312v2 宣告类型: replace-cross 摘要：视觉语言模型（VLMs）在各种视觉理解和推理任务中展现出了强大的能力，这主要得益于在大型语言模型（LLMs）的token输入中加入了图像表示。然而，由于LLM处理大量输入token（主要是图像）所需的大量计算资源，它们在实际部署中的广泛应用常常受到推断延迟高的限制。为减少推断成本，可以缩小LLM或减少所需表示图像的输入token数量，后一种方法一直是近期许多努力的研究重点。然而，给定固定推断预算，最佳的权衡尚不明确。我们首先通过建立捕捉这两个因素变化的放大规模律，来表征视觉token数量和LLM参数之间的最优权衡。我们的结果揭示了一个出人意料的趋势：对于视觉推理任务，VLMs在推断时的最佳行为是使用符合推断预算的最大的LLM，同时最小化视觉token数量——通常只用一个token。虽然token减少文献主要集中在通过适度减少token数量（例如$5-10$倍）来保持基础模型性能，但我们的结果表明，计算最优的推断模式要求在更高token压缩比下操作。基于这些见解，我们朝着设计适合高压缩设置的token压缩算法迈出了第一步，利用基于提示的token压缩。我们的工作突显了在低视觉token模式下操作的性能和效率优势，并强调了为此类条件发展定制的token减少算法的重要性。代码可在 https://github.com/locuslab/llava-token-compression获取。

发布时间: 4/22/2025

查看原文

百万 token 推理的上下文并行性

作者: Amy Yang, Jingyi Yang, Aya Ibrahim, Xinfeng Xie, Bangsheng Tang, Grigory Sizov, Jeremy Reizenstein, Jongsoo Park, Jianyu Huang

arXiv:2411.01783v3 宣告类型: replace-cross 摘要: 我们提出了长上下文大语言模型推理中的上下文并行性，该方法在使用至多16节点上的128个H100 GPU时，实现了长上下文预填充延迟的接近线性扩展。具体而言，我们的方法在Llama3 405B模型上实现1M上下文预填充耗时77秒（并行化效率93%，FLOPS利用率63%），并在3.8秒内实现128K上下文预填充。我们开发了两种无损准确环注意力变体：pass-KV和pass-Q，以覆盖广泛的使用场景，并保持最先进的性能：完整预填充、持久KV预填充和解码。使用RDMA和TCP连接的H100 GPU主机的基准测试均显示长上下文预填充的相似可扩展性，证明我们的方法能够较好地利用具有中等到低主机间带宽的常规商用数据中心的资源。

发布时间: 4/22/2025

查看原文

ReSpAct: 朝着构建基于大型语言模型的对话AI代理 harmonize 值得言和行

作者: Vardhan Dongre, Xiaocheng Yang, Emre Can Acikgoz, Suvodip Dey, Gokhan Tur, Dilek Hakkani-T\"ur

arXiv:2411.00927v2 宣告类型: replace-cross 摘要：基于大型语言模型（LLM）的代理越来越多地被用于与外部环境（如游戏、API、世界模型）交互以解决用户提供的任务。然而，当前的框架往往缺乏在全对话环境中与用户有效协作的能力。对话对于对齐任务细节、实现用户定义的目标并满足其偏好至关重要。虽然现有的代理通过澄清问题来应对模糊性，但它们未能充分利用LLM对话能力的更大潜力。在这项工作中，我们引入了ReSpAct，这是一种设计用于无缝集成推理、决策和动态对话以解决任务的LLM代理。扩展了以推理为主的ReAct方法，ReSpAct利用主动、自由流动的对话来解释指令、澄清目标、提供状态更新、解决子任务失败，并基于用户输入调整计划，而无需任何明确的对话模式。通过交替进行任务解决动作和互动对话，ReSpAct在多种环境中表现出改进的性能。我们在用户交互设置中评估了ReSpAct，包括任务导向对话系统（MultiWOZ）和决策任务（ALFWorld、WebShop）。在ALFWorld和WebShop中，ReSpAct分别比ReAct在绝对成功率上提高了6%和4%；在MultiWOZ中，ReSpAct实现了5.5%的信息传递得分提升和3%的成功率提升。这些结果突显了集成动态用户-代理协作对于更有效的任务解决的价值。

发布时间: 4/22/2025

查看原文

预训练中关键批大小的扩展性如何？

作者: Hanlin Zhang, Depen Morwani, Nikhil Vyas, Jingfeng Wu, Difan Zou, Udaya Ghai, Dean Foster, Sham Kakade

arXiv:2410.21676v4 宣传类型: 替换-交叉摘要: 在给定资源下训练大规模模型需要精心设计并行策略。特别是，关于时间和计算之间权衡的关键批大小（CBS）的概念，标志着数据并行性增加导致收益递减的阈值。为实现这一目标，我们提出了一种CBS的衡量标准，并在C4数据集上预训练了一系列从8500万到12亿参数的自回归语言模型。通过广泛的超参数搜索以及对批量大小、动量、学习率及其调度等因素的仔细控制，我们系统地研究了规模对CBS的影响。然后，我们根据模型和数据规模拟合了规模律，以分离它们的影响。总体而言，我们的结果表明，CBS主要与数据规模而不是模型规模有关，这一发现我们通过分析神经网络的无限宽度极限和无限维最小二乘回归进行了理论上的解释。此外，我们强调了研究大规模预训练中常见的超参数选择和策略的重要性，而不仅仅是固定训练持续时间。

发布时间: 4/22/2025

查看原文

CTINexus：使用大型语言模型自动构建网络威胁情报知识图谱

作者: Yutong Cheng, Osama Bajaber, Saimon Amanuel Tsegai, Dawn Song, Peng Gao

arXiv:2410.21060v2 类型: replace-cross 摘要: 在网络威胁情报(CTI)报告、安全文章和新闻中的文本描述是关于网络安全威胁的重要知识来源，对于组织了解迅速演变的威胁态势至关重要。然而，目前的CTI知识提取方法缺乏灵活性和普适性，经常导致知识提取不准确或不完整。语法解析依赖于固定规则和词典，而模型微调需要大规模注释数据集，使得这两种方法难以适应新威胁和本体。为了解决这一问题，我们提出了一种名为CTINexus的新颖框架，利用优化的上下文学习(ICL)技术，通过少量数据高效地进行CTI知识提取和高质量的网络安全知识图谱(CSKG)构建。与现有方法不同，CTINexus既不需要大量的数据也不需要参数调整，可以通过少量标注示例适应各种本体。这一目标是通过以下方式实现的：(1) 设计了一种仔细规划的自动提示构建策略，以最优的示范检索来提取广泛的安全实体和关系；(2) 采用层次实体对齐技术，规范提取的知识并消除冗余；(3) 使用长距离关系预测技术进一步通过填补缺失的链接来完成CSKG。通过在来自10个平台的150份真实CTI报告上的广泛评估，我们展示了CTINexus在构建准确且完整的CSKG方面显著优于现有方法，强调了其通过高效的、适应性强的解决方案解决动态威胁态势的潜力。

发布时间: 4/22/2025

查看原文

文档级机器翻译的细粒度和多维度指标

作者: Yirong Sun, Dawei Zhu, Yanjun Chen, Erjia Xiao, Xinghao Chen, Xiaoyu Shen

arXiv:2410.20941v4 公告类型: 替换-交叉摘要：大型语言模型（LLMs）在各种自然语言处理（NLP）任务中表现出色，包括机器翻译（MT），但大多数研究主要集中在句级翻译上。本工作探索指令调整的LLM在文档级翻译（docMT）方面的固有能力。与以往需要专门技术的方法不同，我们通过直接提示LLMs一次性翻译整个文档来进行评估。结果显示，这种方法在翻译质量上优于逐句翻译的方式，即使没有文档级微调也是如此。然而，这种优势在BLEU分数中并未体现，因为BLEU分数常常更偏向于句级翻译。我们提出了使用LLM作为裁判的评估方法，其中使用GPT-4以更细腻的方式评估文档的一致性、准确性和流畅性，而不是依赖n-gram为基础的度量标准。总的来说，我们的工作证明了指令调整的LLM可以有效利用文档上下文进行翻译。然而，我们警告不应使用BLEU分数来评估docMT，因为它们往往提供误导性的结果，未能捕捉到文档级翻译的质量。LLM-as-judge的代码和GPT4-as-judge的输出可在https://github.com/EIT-NLP/BLEUless_DocMT找到。

发布时间: 4/22/2025

查看原文

Metamizer：一个多功能神经优化器，用于快速准确的物理模拟

作者: Nils Wandel, Stefan Schulz, Reinhard Klein

arXiv:2410.19746v2 宣告类型: replace-cross 摘要：高效的物理模拟对于众多应用至关重要，从电子游戏中逼真的布料动画或烟雾效果，到环境科学中的污染物扩散分析，再到工程应用中的车辆阻力系数计算。不幸的是，基础物理方程的解析解很少可用，而数值解则需要高计算资源。物理学为基础的深度学习领域的最新进展带来了效率改进的前景，但仍受到有限的一般化能力和与数值求解器相比较低准确性的限制。在此工作中，我们提出了一种名为 Metamizer 的新型神经优化器，通过最小化基于物理的损失函数逐迭代解决广泛的物理系统，并且具有高准确度。为此，我们采用了尺度不变的架构以增强梯度下降更新，加快收敛速度。由于神经网络本身充当优化器，因此训练这种神经优化器属于元优化方法。我们表明，经过对拉普拉斯方程、对流扩散方程和不可压缩纳维-斯托克斯方程以及布料模拟的训练后，Metamizer 在多个偏微分方程（PDEs）中达到了前所未有的准确度——有时甚至接近机器精度。令人惊讶的是，该模型还泛化到了训练过程中未涉及的偏微分方程（如泊松方程、波动方程和布 accomplishment 方程）。我们的结果表明，Metamizer 或将对未来的数值求解器产生深远影响，为无需重新训练即可实现快速准确的神经物理模拟铺平了道路。

发布时间: 4/22/2025

查看原文

偏好扩散推荐

作者: Shuo Liu, An Zhang, Guoqing Hu, Hong Qian, Tat-seng Chua

arXiv:2410.13117v2 宣布类型: 交叉替换摘要：推荐系统根据从历史行为数据中推导出的用户偏好分布来预测个性化项目排名。最近，扩散模型（DMs）因其能够建模复杂的分布而受到推荐领域的关注，但当前基于DM的推荐系统往往依赖于传统的目标函数，如均方误差（MSE）或推荐目标，这些目标函数并未针对个性化排名任务进行优化，或者未能充分利用DM的生成潜力。为了解决这一问题，我们提出了一种名为PreferDiff的针对基于DM的推荐系统的定制优化目标。PreferDiff将BPR转化为一个概率似然排序目标，并结合了多个负样本以更好地捕捉用户偏好。具体而言，我们利用变分推断来通过最小化变分上界来处理不可计算性，并用余弦误差替换MSE以提高与推荐任务的对齐度。最后，我们平衡生成学习和偏好学习以增强DM的训练稳定性。PreferDiff提供了三个关键优势：它是第一个专门为基于DM的推荐系统设计的个性化排名损失函数，通过处理困难的负样本可以提高排名性能和更快的收敛速度。我们还证明它与直接偏好优化在理论上存在联系，这意味着它有可能通过生成建模来对齐基于DM的推荐系统中的用户偏好。在三个基准上的广泛实验验证了其优越的推荐性能和良好的序列推荐泛化能力。我们的代码可在https://github.com/lswhim/PreferDiff获取。

发布时间: 4/22/2025

查看原文

通过大型语言模型重建差异隐私文本 sanitization 还原

作者: Shuchao Pang, Zhigang Lu, Haichen Wang, Peng Fu, Yongbin Zhou, Minhui Xue

arXiv:2410.12443v2 安全类型：替换-交叉摘要：差分隐私（DP）是针对隐私泄露攻击的事实上隐私标准，包括对大规模语言模型（LLMs）最近发现的多种攻击。然而，我们发现LLMs可以从给定的DP处理过的提示中重建被修改或删除的隐私信息。我们提出了一种基于对LLMs的可访问性的两种攻击（黑盒和白盒攻击），并展示出LLMs可以通过提供示例文本对作为指令（在黑盒攻击中），或通过微调数据（在白盒攻击中），连接DP处理过的文本对和对应的LLMs的私有训练数据。为了说明我们的发现，我们使用常见的数据集（例如WikiMIA、Pile-CC和Pile-Wiki）在现代LLMs（如LLaMA-2、LLaMA-3、ChatGPT-3.5、ChatGPT-4、ChatGPT-4o、Claude-3、Claude-3.5、OPT、GPT-Neo、GPT-J、Gemma-2和Pythia）上进行了全面的实验，针对字级和句级DP。实验结果显示了有希望的恢复率，例如针对WikiMIA数据集的字级DP，LLaMA-2 (70B) 的恢复率为72.18%，LLaMA-3 (70B) 的恢复率为82.39%，Gemma-2 的恢复率为75.35%，ChatGPT-4o 的恢复率为91.2%，Claude-3.5 (Sonnet) 的恢复率为94.01%。更为紧迫的是，本研究指出，这些广为人知的LLMs已经成为了现有DP文本净化方法在当前环境中的新的安全风险。

发布时间: 4/22/2025

查看原文

超越序列：几何上下文对RNA属性预测的影响

作者: Junjie Xu, Artem Moskalev, Tommaso Mansi, Mangal Prakash, Rui Liao

arXiv:2410.11933v2 宣布类型: 交叉替换摘要: RNA 性质（如稳定性与相互作用）的精确预测对于推动我们对生物过程的理解和开发基于 RNA 的疗法至关重要。RNA 结构可以表示为 1D 序列、2D 顶点图或 3D 原子模型，每种表示方式都提供了对其功能的不同见解。现有工作主要集中在基于 1D 序列的模型上，而忽略了由 2D 和 3D 几何结构提供的上下文信息。本研究首次系统地评估了将显式的 2D 和 3D 几何信息纳入 RNA 性质预测的方法，不仅考虑了性能，还考虑了实际挑战，如数据可用性有限、部分标注、测序噪声和计算效率。为此，我们引入了一个新的 RNA 数据集集，其中包含增强的 2D 和 3D 结构注释，为 RNA 数据的模型评估提供了一个资源。我们的研究发现，具有显式几何编码的模型通常优于基于序列的模型，在所有不同类型 RNA 任务上的平均预测 RMSE 减少约 12%，特别是在数据量有限和部分标注的情况下表现更佳，这突显了明确纳入几何上下文的价值。另一方面，对测序噪声不敏感的基于序列的模型在需要更多数据以匹配几何感知模型的性能时表现更稳定，通常需要大约 2-5 倍的训练数据。本研究进一步揭示了在实际应用中不同 RNA 表示之间的权衡，并解决了评估 RNA 任务中的深度学习模型的显著差距。

发布时间: 4/22/2025

查看原文