arXiv 论文列表

作者: Sam Earle, Samyak Parajuli, Andrzej Banburski-Fahey

代码助手在游戏设计中日益普及，它们既能生成代码，也能制定高级计划。这些工具在多大程度上能够与开发人员的工作流程相一致？它们的使用能催生出哪些新的交互模式？我们提出了 DreamGarden，一个能够协助在虚幻引擎中开发多样化游戏环境的 AI 系统。我们方法的核心是一个由 LLM 驱动的规划器，它能够将单个高级提示（人类用户提供的梦境、记忆或想象的场景）分解成一个分层行动计划，然后将其分配给专门的子模块以促进具体实现。该系统以计划和行动的花园的形式呈现给用户，这些计划和行动既独立增长，又通过种子提示、修剪和反馈响应用户干预。通过用户研究，我们探索了该系统的设计意义，为未来在半自主助手和开放式模拟设计方面的研究指明了方向。

发布时间: 10/3/2024

查看原文

强化学习与人类反馈 (RLHF) 方法研究

作者: Alexey Kutalev, Sergei Markoff

本文研究了大型语言模型根据人类偏好进行对齐的问题。我们讨论了训练偏好模型（模拟人类偏好）的特点，以及我们发现对获得最佳结果至关重要的方法和细节。我们还讨论了使用强化学习来微调大型语言模型，并描述了我们遇到的挑战以及克服这些挑战的方法。此外，我们介绍了直接偏好优化方法的经验，该方法使我们能够在不创建单独的偏好模型的情况下，将大型语言模型与人类偏好进行对齐。作为我们的贡献，我们介绍了一种通过困惑度过滤收集偏好数据集的方法，这使得为特定语言模型创建此类数据集的过程更加容易且更具成本效益。

发布时间: 10/3/2024

查看原文

开放式RAG：基于开源大型语言模型的增强检索增强推理

作者: Shayekh Bin Islam, Md Asib Rahman, K S M Tozammel Hossain, Enamul Hoque, Shafiq Joty, Md Rizwan Parvez

检索增强生成（RAG）已被证明可以提高大型语言模型（LLM）的事实准确性，但现有方法在有效利用检索到的证据方面往往推理能力有限，尤其是在使用开源 LLM 时。为了弥合这一差距，我们引入了一个新框架 Open-RAG，旨在通过开源 LLM 增强 RAG 中的推理能力。我们的框架将任意密集 LLM 转化为参数高效的稀疏专家混合（MoE）模型，能够处理复杂的推理任务，包括单跳和多跳查询。Open-RAG 独特地训练模型来应对看似相关但具有误导性的挑战性干扰因素。因此，Open-RAG 利用潜在学习，动态选择相关专家并有效地整合外部知识，以获得更准确和上下文相关的响应。此外，我们提出了一种混合自适应检索方法来确定检索必要性，并在性能提升和推理速度之间取得平衡。实验结果表明，基于 Llama2-7B 的 Open-RAG 在各种知识密集型任务中优于最先进的 LLM 和 RAG 模型，例如 ChatGPT、Self-RAG 和 Command R+。我们将在 https://openragmoe.github.io/ 上开源我们的代码和模型。

发布时间: 10/3/2024

查看原文

通过神经网络中的代数对象将全局优化器组合到推理任务中

作者: Yuandong Tian

我们证明了具有二次激活函数和 $L_2$ 损失的 2 层神经网络在阿贝尔群（例如模加）上的推理任务中训练得到的解空间的丰富代数结构。这种丰富的结构使得能够从仅满足部分损失的局部解中解析地构造全局最优解，尽管其具有高度的非线性。我们将该框架称为 CoGO（组合全局优化器）。具体来说，我们表明，2 层网络不同隐藏节点数量上的权重空间具有半环代数结构，并且要优化的损失函数由单项式势组成，这些势是环同态，允许通过环加法和乘法将局部解组合成全局解。我们的实验表明，约 95% 的梯度下降获得的解与我们的理论构造完全匹配。尽管构造的全局优化器只需要少量隐藏节点，但我们对梯度动力学的分析表明，过参数化渐进地解耦了训练动力学并且是有益的。我们进一步表明，训练动力学在权重衰减下有利于更简单的解，因此诸如完美记忆之类的更高阶全局优化器是不利的。

发布时间: 10/3/2024

查看原文

DeFine：利用因素概况和类比推理增强大型语言模型决策能力

作者: Yebowen Hu, Xiaoyang Wang, Wenlin Yao, Yiming Lu, Daoan Zhang, Hassan Foroosh, Dong Yu, Fei Liu

大型语言模型 (LLM) 由于其能够推理长上下文并识别关键因素，因此非常适合决策制定。然而，在处理描述复杂场景的口语转录时，会遇到挑战。这些转录通常包含语法错误或不完整的句子、重复、含糊其辞和含糊不清。例如，在公司的财报电话会议中，一位高管可能会预测积极的收入前景以安抚投资者，尽管对未来收益存在重大不确定性。对于 LLM 来说，在决策时系统地纳入这种不确定性至关重要。在本文中，我们介绍了 DeFine，一个新的框架，它从复杂场景中构建概率因素概况。然后，DeFine 将这些概况与类比推理相结合，利用来自类似过去经验的见解，指导 LLM 在新情况下做出关键决策。我们的框架将量化复杂场景中的不确定性和将其纳入 LLM 决策过程的任务分开。这种方法在医疗咨询、谈判和政治辩论等领域特别有用，在这些领域，在不确定性条件下做出决策至关重要。

发布时间: 10/3/2024

查看原文

VitaGlyph：利用灵活的双分支扩散模型赋予艺术字体生命力

作者: Kailai Feng, Yabo Zhang, Haodong Yu, Zhilong Ji, Jinfeng Bai, Hongzhi Zhang, Wangmeng Zuo

艺术字体是一种将输入字符的含义以一种可想象且可读的方式可视化的技术。凭借强大的文本到图像扩散模型，现有的方法直接设计输入字符的整体几何形状和纹理，这使得同时确保创造力和可读性成为一项挑战。本文介绍了一种双分支无训练方法，名为 VitaGlyph，它可以实现灵活的艺术字体，并通过可控的几何形状变化来保持可读性。VitaGlyph 的关键见解是将输入字符视为由主体和周围环境组成的场景，然后在不同程度的几何变换下对其进行渲染。主体灵活地表达了输入字符的本质概念，而周围环境则丰富了相关的背景，而不会改变形状。具体来说，我们通过三阶段框架实现 VitaGlyph：（i）知识获取利用大型语言模型来设计主体和周围环境的文本描述。（ii）区域分解检测最匹配主体描述的部分，并将输入字形图像划分为主体和周围区域。（iii）字体风格化首先通过语义字体细化主体区域的结构，然后通过可控的组合生成分别渲染主体和周围区域的纹理。实验结果表明，VitaGlyph 不仅实现了更好的艺术性和可读性，而且还能够描绘多个定制概念，从而促进更具创意和美观的艺术字体生成。我们的代码将在 https://github.com/Carlofkl/VitaGlyph 公开发布。

发布时间: 10/3/2024

查看原文

数学推理奖励模型的鲁棒性评估

作者: Sunghwan Kim, Dongjin Kang, Taeyoon Kwon, Hyungjoo Chae, Jungsoo Won, Dongha Lee, Jinyoung Yeo

奖励模型是强化学习从人类反馈 (RLHF) 系统中的关键，它使模型行为与人类偏好保持一致。特别是在数学领域，已经有很多研究使用奖励模型来调整策略，以提高推理能力。最近，随着奖励模型重要性的日益突出，RewardBench 被提出用于理解其行为。然而，我们发现 RewardBench 的数学子集在选择和拒绝的完成之间存在不同的表示，并且依赖于单一比较，这可能会导致不可靠的结果，因为它只看到一个孤立的案例。因此，它无法准确地体现奖励模型的鲁棒性，导致对其性能的误解，并可能导致奖励作弊。在这项工作中，我们介绍了一种可靠评估奖励模型的新设计，为了验证这一点，我们构建了 RewardMATH，这是一个基准，有效地代表了奖励模型在数学推理任务中的鲁棒性。我们证明了 RewardMATH 上的分数与优化策略的结果高度相关，并有效地估计了奖励过度优化，而现有的基准几乎没有相关性。结果强调了我们的设计在提高评估可靠性方面的潜力，并代表了奖励模型的鲁棒性。我们公开发布了我们的代码和数据。

发布时间: 10/3/2024

查看原文

自动演示提示：利用生成的输出作为演示以增强批量提示

作者: Longyu Feng, Mengze Hong, Chen Jason Zhang

批量提示是大型语言模型 (LLM) 中常用的技术，用于同时处理多个输入，旨在提高计算效率。然而，随着批次大小的增加，由于模型难以处理冗长的上下文输入，性能通常会下降。现有的缓解这些问题的方法仅依赖于批次数据的排列和多数投票，而不是改进批次提示本身的设计。在本文中，我们通过提出“自动演示提示”来解决这些限制，这是一种新方法，利用批次中先前问题的问答对作为后续答案推断的演示。我们提供了对自动演示提示如何在 LLMs 的自回归生成过程中起作用的正式理论分析，说明了它如何利用先前的输出来优化模型的内部表示。我们的方法有效地弥合了批量提示和少样本提示之间的差距，仅以少量令牌使用量的妥协来提高性能。五个 NLP 任务的实验结果证明了它在减轻性能下降方面的有效性，并且偶尔优于单一提示。此外，它为在批量提示中应用少样本学习技术（例如演示选择）开辟了新的途径，使其成为现实世界应用的稳健解决方案。

发布时间: 10/3/2024

查看原文

高效、内存友好且可扩展的多智能体强化学习

作者: Omayma Mahjoub, Sasha Abramowitz, Ruan de Kock, Wiem Khlifi, Simon du Toit, Jemma Daniel, Louay Ben Nessir, Louise Beyers, Claude Formanek, Liam Clark, Arnu Pretorius

随着多智能体强化学习 (MARL) 领域向更大、更复杂的环境发展，在保持内存效率和可扩展性的同时，实现强大的性能变得越来越重要。虽然最近的研究已经取得了若干先进算法，但到目前为止，还没有一种算法能够同时完全解决所有这些关键特性。在这项工作中，我们介绍了 Sable，一种新颖且理论上可靠的算法，它将 Retentive Networks 的保留机制应用于 MARL。Sable 基于保留的序列建模架构允许对大量智能体进行计算效率高的扩展，并保持较长的时序上下文，使其非常适合大规模部分可观察环境。通过对六个不同环境的广泛评估，我们展示了 Sable 如何能够在大多数任务（45 个中的 34 个，大约 75%）中显著优于现有的最先进方法。此外，Sable 在我们扩展智能体数量时表现出稳定的性能，能够处理拥有超过一千个智能体的环境，同时内存使用量呈线性增长。最后，我们进行了消融研究，以隔离 Sable 性能提升的来源，并确认其高效的计算内存使用情况。我们的结果突出了 Sable 的性能和效率，将其定位为大规模 MARL 的领先方法。

发布时间: 10/3/2024

查看原文

从禁令到接纳：香港高校如何应对ChatGPT在学术工作流程中的应用

作者: Junjun Huang, Jifan Wu, Qing Wang, Kemeng Yuan, Jiefeng Li, Di Lu

本文旨在比较香港大学过去禁止使用 ChatGPT 的时期与目前 ChatGPT 已融入学术流程的时期。由于对技术完整性和伦理问题的担忧，各机构已通过转向采用人工智能素养和责任政策来适应这一转变。本研究探讨了为帮助实施这些积极方面，同时防止对学术界产生负面影响而开发的新范式。

发布时间: 10/3/2024

查看原文