大型语言模型 (LLM) 在推理阶段产生的碳足迹远大于训练阶段,贯穿其整个生命周期。LLM 推理请求在批次大小、提示长度和令牌生成数量方面存在差异,而云提供商则采用不同类型的 GPU 和数量来满足准确性和延迟方面的各种服务级别目标。对于用户和云提供商来说,至关重要的一点是,在执行之前,需要一个工具能够快速准确地根据推理请求和硬件配置的组合估算 LLM 推理的碳影响。由于模型 FLOPS 利用率较低且变化很大,因此估算 LLM 推理的碳足迹比训练更复杂,这使得以往基于方程的模型变得不准确。此外,现有的机器学习 (ML) 预测方法要么缺乏准确性,要么需要大量的训练数据,因为它们没有充分处理预填充和解码阶段,忽略了硬件特定特征,并且对不常见的推理配置采样效率低下。我们引入了 \coo,这是一种基于图神经网络 (GNN) 的模型,与以往的方法相比,它极大地提高了 LLM 推理碳足迹预测的准确性。
有限对称群 $S_n$ 在组合数学、物理学和化学等领域至关重要。然而,由于其难以处理的规模和离散性,学习 $S_n$ 上的概率分布面临着重大挑战。本文介绍了对称扩散器,这是一种新颖的离散扩散模型,它通过使用深度神经网络学习反向扩散的更简单转换来简化学习 $S_n$ 上复杂分布的任务。我们确定了洗牌作为有效的正向转换,并根据有限群上的随机游走理论提供了选择扩散长度的经验指南。此外,我们提出了一种广义的 Plackett-Luce (PL) 分布用于反向转换,该分布在理论上比 PL 分布更具表现力。我们进一步引入了一种理论上有根据的“去噪计划”来提高采样和学习效率。大量实验表明,我们的模型在解决包括对 4 位数 MNIST 图像进行排序、拼图和旅行推销员问题等任务方面取得了最先进或相当的性能。我们的代码已发布在 https://github.com/NickZhang53/SymmetricDiffusers。
高效准确地测量双向反射分布函数 (BRDF) 在高质量图像渲染和物理准确传感器模拟中起着关键作用。然而,获取材料的反射特性既耗时又具有挑战性。本文提出了一种新方法,使用测角反射仪装置,最大限度地减少高质量 BRDF 捕获所需的样本数量。该方法将物理材料样本图像作为输入,首先使用轻量级神经网络估计分析 BRDF 模型的参数和样本位置分布。在第二步中,我们使用基于图像的损失来找到满足所需精度所需的样本数量。这种方法显著加速了测量过程,同时保持了 BRDF 表示的高精度和保真度。
大型语言模型 (LLM) 在开放部署中,安全性是一个至关重要的考量因素。为此,安全保障方法旨在通过安全对齐或护栏机制来强制执行 LLM 的道德和负责任使用。然而,我们发现恶意攻击者可以利用安全保障的误报,即误导安全保障模型阻止安全内容,从而对 LLM 造成新的拒绝服务 (DoS) 攻击。具体来说,通过对用户客户端软件进行软件或网络钓鱼攻击,攻击者将一个简短的、看似无害的对抗性提示插入到配置文件中的用户提示模板中;因此,此提示出现在最终用户请求中,在用户界面中不可见,也不容易识别。通过设计一个利用梯度和注意力信息的优化过程,我们的攻击可以自动生成看似安全的对抗性提示,长度约为 30 个字符,可以普遍阻止 Llama Guard 3 上超过 97% 的用户请求。该攻击为评估 LLM 安全保障提供了一个新的维度,重点关注误报,这与传统的越狱攻击有着根本的不同。
信息检索(IR)方法,如检索增强生成,是现代应用的基础,但往往缺乏统计保证。一致性预测通过检索保证包含相关信息的集合来解决这个问题,但现有的方法会产生大小很大的集合,导致高计算成本和缓慢的响应时间。在这项工作中,我们提出了一种分数细化方法,它对检索分数应用一个简单的单调变换,从而在保持其统计保证的同时显著缩小一致性集合的大小。在各种 BEIR 基准测试上的实验验证了我们的方法在生成包含相关信息的紧凑集合方面的有效性。
能够进行人类水平评估的通用大型语言模型 (LLM) 评判者不仅提供了一种可扩展且准确的方式来评估指令遵循型 LLM,而且还为监督和改进其性能开辟了新的途径。利用 LLM 评判者进行监督的一种很有前途的方式是通过最小贝叶斯风险 (MBR) 解码,它使用基于参考的评估器从一组候选输出中选择高质量的输出。在这项工作的第一部分中,我们探讨了使用 MBR 解码来提高指令遵循型 LLM 测试时性能的方法。我们发现,与贪婪解码、使用无参考评判者的最佳 N 解码以及基于词汇和嵌入的指标的 MBR 解码相比,使用基于参考的 LLM 评判者的 MBR 解码在 AlpacaEval 和 MT-Bench 上取得了显著的改进。这些改进在高达 700 亿参数的 LLM 中保持一致,表明较小的 LLM 评判者可以用来监督更大的 LLM。然后,为了在减轻额外的测试时成本的同时保留 MBR 解码带来的改进,我们探索了对 MBR 解码输出进行的迭代自训练。我们发现,使用直接偏好优化进行的自训练会导致显著的性能提升,使得使用贪婪解码的自训练模型通常与使用 MBR 解码的基模型性能相当,有时甚至超过基模型性能。
尽管大型语言模型(LLM)正日益成为新闻推荐系统的重要组成部分,但在这些系统中使用LLM也带来了新的风险,例如LLM中认知偏差的影响。认知偏差指的是判断过程中偏离规范或理性规律的系统性模式,会导致LLM输出不准确,从而威胁新闻推荐系统的可靠性。具体而言,受认知偏差影响的基于LLM的新闻推荐系统可能会导致错误信息的传播、刻板印象的强化以及回声室的形成。本文探讨了多种认知偏差对基于LLM的新闻推荐系统的潜在影响,包括锚定偏差、框架偏差、现状偏差和群体归因偏差。此外,为了促进未来研究改进基于LLM的新闻推荐系统的可靠性,我们讨论了通过数据增强、提示工程和学习算法方面来减轻这些偏差的策略。
尽管对烹饪行为的需求日益增长,成为机器人预期任务之一,但基于机器人对现实世界中新菜谱描述的一系列烹饪行为尚未实现。本研究提出了一种机器人系统,该系统集成了基于大型语言模型 (LLM) 的现实世界可执行机器人烹饪行为规划和基于 PDDL 描述的经典规划,并利用视觉语言模型 (VLM) 从少量数据中学习食物成分状态识别。我们在实验中取得了成功,其中 PR2(一个双臂轮式机器人)在一个真实环境中根据安排好的新菜谱执行烹饪,并证实了所提系统的有效性。
理解蛋白质动力学对于破译蛋白质功能机制和开发分子疗法至关重要。然而,生物过程的复杂高维动力学和原子间相互作用对现有的计算技术提出了重大挑战。本文首次提出了一种名为“深度特征”的新型计算可处理框架,通过其不断演化的轨迹来表征复杂动力学和原子间相互作用。具体而言,我们的方法结合了软谱聚类,该聚类在局部聚合协同动力学以减小系统规模,以及特征变换,该变换收集迭代积分以提供非光滑交互动力学的全局特征。理论分析表明,深度特征表现出几个理想的特性,包括平移不变性、旋转近似不变性、原子坐标排列等变性以及时间重新参数化不变性。此外,在三个生物过程基准上的实验结果验证了我们的方法可以实现优于基线方法的性能。
在个性化联邦学习 (pFL) 中,高度的数据异质性会导致设备间显著的梯度差异,从而对学习过程产生不利影响。这种差异,特别是在不同用户梯度在聚合过程中形成钝角时,会抵消学习进度,导致权重和梯度更新严重退化。为了解决这个问题,我们引入了一种新的 pFL 设计方法,即基于梯度分析的分层聚合联邦学习 (FedLAG),利用了层级梯度冲突的概念。具体来说,当不同客户端的层级梯度形成锐角时,这些梯度在相同方向上对齐,使不同客户端能够朝着识别客户端不变特征的方向进行更新。相反,当层级梯度对形成钝角时,这些层往往专注于特定客户端的任务。从后视的角度来看,FedLAG 根据层级梯度冲突的程度来分配用于个性化的层。具体来说,具有梯度冲突的层被排除在全局聚合过程之外。理论评估表明,当集成到其他 pFL 基线中时,FedLAG 可以提高 pFL 性能。因此,我们提出的方法比其他基线实现了更好的收敛行为。大量的实验表明,我们的 FedLAG 优于几种最先进的方法,并且可以轻松地与许多现有方法集成,以进一步提高性能。