我们首次对基于大型语言模型 (LLM) 的算法的设计和分析进行了正式研究,这类算法将一个或多个大型语言模型调用作为子程序,并严重依赖于大型语言模型的能力。虽然基于大型语言模型的算法,从简单的带提示工程的 LLM 调用到复杂的 LLM 驱动的代理系统和复合 AI 系统,都取得了显著的经验成功,但它们的设计和优化主要依赖于启发式方法和试错法,这在很大程度上是由于缺乏对这些算法的正式和分析研究。为了填补这一空白,我们首先确定了基于大型语言模型的算法的计算图表示、任务分解的设计原则以及一些关键抽象,这些抽象有助于我们对基于大型语言模型的算法的准确性和效率进行正式分析,尽管大型语言模型本身是黑盒。通过对一系列案例研究进行广泛的分析和经验调查,我们证明了所提出的框架广泛适用于各种场景和基于大型语言模型的算法的不同模式,例如并行、层次和递归任务分解。我们提出的框架有望推动基于大型语言模型的算法的发展,揭示好奇的经验现象背后的原因,指导超参数的选择,预测算法的经验性能,并激发新的算法设计。为了促进对基于大型语言模型的算法的进一步研究,我们在 https://github.com/modelscope/agentscope/tree/main/examples/paper_llm_based_algorithm 发布了我们的源代码。
训练后量化是解决 LLM 推理中内存相关瓶颈的领先方法,但不幸的是,它在低于 4 位精度时会遭受显著的性能下降。另一种方法包括直接以低位宽(例如,二进制或三元模型)训练压缩模型。然而,此类模型的性能、训练动态和扩展趋势尚不清楚。为了解决这个问题,我们训练并公开发布了 Spectra LLM 套件,该套件包含 54 个语言模型,参数范围从 99M 到 3.9B,在 300B 个标记上进行训练。Spectra 包括 FloatLM、训练后量化的 QuantLM(3、4、6 和 8 位)和三元 LLM(TriLM)——我们改进的三元语言建模架构,在给定大小(以位计)的三元模型中显著优于以前提出的模型,在规模上与半精度模型相匹配。例如,TriLM 3.9B(按位)比半精度 FloatLM 830M 小,但在常识推理和知识基准测试中与半精度 FloatLM 3.9B 相匹配。然而,TriLM 3.9B 的毒性和刻板印象与 FloatLM 3.9B 一样,后者的尺寸是前者的六倍。此外,TriLM 3.9B 在验证拆分和基于 Web 的语料库上的困惑度落后于 FloatLM,但在 Lambada 和 PennTreeBank 等噪声较小的数据集上表现更好。
为了更好地理解低位宽模型,我们在 \href{https://github.com/NolanoOrg/SpectraSuite}{https://github.com/NolanoOrg/SpectraSuite} 发布了 500 多个 Spectra 套件的中间检查点。
随着月球探测任务的复杂化,月球需要具备更高的自主性。环境感知和导航算法是月球车实现自主探索的基础。算法的开发和验证需要高度可靠的数据支持。现有的月球数据集大多针对单一任务,缺乏多样化的场景和高精度的真值标签。为了解决这个问题,我们提出了一个多任务、多场景、多标签的月球基准数据集 LuSNAR。该数据集可以用于对自主感知和导航系统进行全面评估,包括高分辨率立体图像对、全景语义标签、密集深度图、LiDAR 点云和月球车的定位。为了提供更丰富的场景数据,我们基于虚幻引擎构建了 9 个月球模拟场景。每个场景根据地形起伏和物体密度进行划分。为了验证数据集的可用性,我们评估和分析了语义分割、三维重建和自主导航算法。实验结果证明,本文提出的数据集可用于自主环境感知和导航等任务的地面验证,并为测试算法指标的可访问性提供了一个月球基准数据集。我们将 LuSNAR 公开发布在:https://github.com/zqyu9/LuSNAR-dataset。
当大型语言模型(LLM)被要求执行某些任务时,我们如何确保它们学习到的表征与现实相符?我们提出了一种领域无关的框架,用于系统地评估 LLM 决策过程中的分布变化,其中它们被赋予对受预定义规则控制的机制的控制权。虽然单个 LLM 行为可能看起来与预期行为一致,但在大量试验中,可能会出现统计上显著的分布变化。为了测试这一点,我们构建了一个具有已知结果逻辑的明确定义的环境:二十一点。在超过 1,000 次试验中,我们发现了统计上显著的证据,表明 LLM 学习到的表征中存在行为失衡。
检索增强生成 (RAG) 是一种最先进的技术,通过从外部数据库检索相关知识来帮助内容生成,从而缓解大型语言模型 (LLM) 中出现的幻觉和知识陈旧等问题。现有研究表明,RAG 的 LLM 与潜在的隐私风险相关。然而,外部数据库(通常包含敏感数据,例如医疗记录或个人身份)的集成带来的隐私风险在很大程度上尚未得到探索。本文旨在通过关注 RAG 外部数据库的成员隐私来弥合这一差距,旨在确定给定样本是否属于 RAG 的数据库。我们的基本思路是,如果样本在外部数据库中,它将与 RAG 系统生成的文本表现出高度的语义相似性。我们提出了 S$^2$MIA,一种利用给定样本与 RAG 系统生成的内容之间的语义相似性的成员推理攻击。通过我们提出的 S$^2$MIA,我们证明了破坏 RAG 数据库的成员隐私的可能性。大量的实验结果表明,与五个现有的 MIA 相比,S$^2$MIA 可以实现强大的推理性能,并且能够逃脱三种代表性防御的保护。
使用刚性机器人自动执行灵巧的、富含接触的操控任务是机器人领域的一项重大挑战。刚性机器人通过位置指令进行驱动,由于无法适应与环境的接触,会面临过大的接触力问题,可能造成损坏。虽然已经引入了顺应控制方案,通过外部传感器控制力来缓解这些问题,但它们受到需要微调特定任务控制器参数的限制。从演示中学习 (LfD) 提供了一种直观的替代方案,使机器人能够通过观察到的动作来学习操控。在这项工作中,我们介绍了一种新系统,用于增强对刚性机器人的灵巧、富含接触的操控教学。我们的系统有两个方面:首先,它包含一个利用虚拟现实 (VR) 控制器的遥操作界面,旨在提供一种直观且经济高效的任务演示方法,并提供触觉反馈。其次,我们提出了 Comp-ACT(通过使用 Transformer 的动作分块实现顺应控制),一种利用演示从少量演示中学习可变顺应控制的方法。我们的方法已通过使用单臂和双臂机器人设置在模拟和真实世界环境中的各种复杂的富含接触的操控任务进行验证,证明了我们的系统在教授机器人灵巧操控方面的有效性,并提高了适应性和安全性。代码可在以下地址获取:https://github.com/omron-sinicx/CompACT
多语言大型语言模型的设计、宣称和预期都是为了满足各种语言的使用者。我们假设,由于过度依赖翻译,目前微调和评估这些模型的做法可能与这一目标并不完全一致,因为翻译无法涵盖语言特有的知识,反而会引入翻译缺陷。指令数据的性质是否会影响模型输出尚不清楚;反之,翻译后的测试集是否能捕捉到这些细微差别也是值得怀疑的。由于在两个阶段都使用翻译数据的做法往往是耦合的,因此这些缺陷可能被忽视了。本研究利用指令微调和评估阶段的受控本机或翻译数据来调查这些问题。我们发现,当模型性能较高时,本机或生成基准揭示了本机和翻译指令数据之间的显著差异,而其他类型的测试集则无法做到这一点。往返翻译和单程翻译之间的比较反映了语言本机资源知识的重要性。最后,我们证明了正则化有利于弥合结构化任务而非生成任务的差距。
抽象推理,即从问题的抽象本质进行推理的能力,是人类推理中泛化的关键。然而,如何引导语言模型进行抽象推理仍然未被探索。本文旨在通过引入一种称为“思想抽象”(AoT)的新型结构化推理格式来弥合这一差距。AoT 的独特之处在于它明确要求在推理过程中进行不同层次的抽象。这种方法可以引导语言模型首先在抽象层面进行思考,然后再纳入具体细节,而现有的逐步式“思维链”(CoT)方法则忽略了这一点。为了使模型与 AoT 格式相一致,我们提出了 AoT 集合,这是一个通用微调数据集,包含 348k 个高质量样本,这些样本具有 AoT 推理过程,通过自动化和可扩展的管道收集。我们使用 AoT 集合对各种语言模型进行了微调,并在来自具有挑战性的基准 Big-Bench Hard 的 23 个未见任务上进行了广泛的评估。实验结果表明,与 CoT 对齐的模型相比,与 AoT 推理格式对齐的模型在许多推理任务上表现出显著的优越性。
鉴于在现实世界中收集机器人数据的成本很高,样本效率一直是机器人领域令人信服的追求。本文介绍了 SGRv2,这是一个模仿学习框架,通过改进的视觉和动作表示来提高样本效率。SGRv2 设计的核心是加入了一个关键的归纳偏差——动作局部性,它假设机器人的动作主要受目标物体及其与局部环境的交互影响。在模拟和现实世界环境中的大量实验表明,动作局部性对于提高样本效率至关重要。SGRv2 在使用仅 5 个演示的关键帧控制的 RLBench 任务中表现出色,并在 26 个任务中的 23 个任务中超过了 RVT 基线。此外,在使用密集控制的 ManiSkill2 和 MimicGen 上进行评估时,SGRv2 的成功率是 SGR 的 2.54 倍。在现实世界环境中,SGRv2 仅使用 8 个演示,就可以执行各种任务,并且与基线模型相比,成功率显著提高。项目网站:http://sgrv2-robot.github.io
大型语言模型 (LLM) 的文本解码是感知 LLM 质量的关键组成部分。我们通过两个实验表明,通过对词元概率进行操作可以改进解码方法。首先,我们在 SummEval 摘要评分数据集上测试了几个 LLM,以衡量阅读理解能力。我们比较了贪婪解码的得分与下一个词元分布的期望值。我们通过较大的温度对 logits 进行缩放,以增加得分的熵。这使得 SummEval 的性能得到显著提升(在与人类判断的相关性方面)。我们看到 7B Mistral 的性能从 6-8% 提高到 13-28%,Mixtral 的性能从 20%-46% 提高到 37%-56%,在两个指标上都超过了 GPT 4 0314 的结果。部分收益似乎与位置偏差有关。其次,我们使用基于概率的树采样算法,来检查给定提示的所有最可能的生成结果。