arXiv 论文列表

作者: Jaeyong Kang, Dorien Herremans

近年来，用于音乐的深度学习模型取得了显著进展，但机器学习模型在捕捉情感方面到底有多好？研究人员面临着哪些挑战？本文对现有的音乐情感数据集进行了全面概述，并讨论了该领域的评估标准以及竞赛。我们还简要概述了近年来构建的各种音乐情感预测模型，提供了对该领域不同方法的见解。通过本次考察，我们重点指出了在准确捕捉音乐情感方面存在的挑战，包括数据集质量、标注一致性和模型泛化等问题。此外，我们还探讨了不同模态（如音频、MIDI 和生理信号）对情感预测模型有效性的影响。认识到该领域的动态性，我们在研究结果的基础上补充了相应的 GitHub 代码库。该代码库包含一份全面的音乐情感数据集和最新的预测模型列表。

发布时间: 10/23/2024

查看原文

语言模型委员会：在高度主观任务上民主地对基础模型进行基准测试

作者: Justin Zhao, Flor Miriam Plaza-del-Arco, Benjie Genchel, Amanda Cercas Curry

随着大型语言模型 (LLM) 的不断发展，寻找有效且有意义的评估方法的工作仍在进行中。许多最近的评估使用 LLM 作为评判者来评分其他 LLM 的输出，通常依赖于单个大型模型，如 GPT-4o。然而，使用单个 LLM 评判者容易受到模型内部偏差的影响，许多任务（例如与情商、创意写作和说服力相关的任务）可能过于主观，以至于单个模型无法公平地评判。我们介绍了语言模型委员会 (LMC)，其中一群 LLM 协同合作创建测试、对测试做出回应，并互相评估彼此的回应，以民主的方式产生排名。与之前专注于通过使用一组较小模型来降低成本或偏差的方法不同，我们的工作考察了完全包容的 LLM 评估系统的益处和细微之处。在一个关于情商的详细案例研究中，我们部署了一个由 20 个最新的 LLM 组成的委员会，让他们在对人际冲突的开放式回应中互相排名。我们的结果表明，LMC 生成的排名更具可分离性和鲁棒性，并且通过用户研究，我们发现它们与人类评估的一致性比任何单个 LLM 评判者都要高。然而，使用所有 LLM 进行评判可能成本很高，因此我们使用蒙特卡罗模拟和手工策划的子委员会来研究假设的委员会构成，并讨论增量 LLM 评判者的价值。

发布时间: 10/23/2024

查看原文

基于扩展图的时序图重构

作者: Katarina Petrovi\'c, Shenyang Huang, Farimah Poursafaei, Petar Veli\v{c}kovi\'c

现实世界网络中不断变化的关系通常由时序图建模。时序图神经网络（TGNNs）通过利用图神经网络（GNNs）核心中的消息传递机制，来建模此类图的演化行为。众所周知，GNNs 易受与输入图拓扑结构直接相关的一些问题的困扰，例如未到达和过度压缩——我们认为这些问题在时序图中往往会加剧，尤其是在节点和边陈旧的情况下。虽然图重连技术在 GNNs 中被频繁使用，以使图拓扑结构更利于消息传递，但它们在 TGNNs 中并没有得到主流应用。在这项工作中，我们提出了时序图重连（TGR），据我们所知，这是第一个针对时序图的图重连方法。TGR 通过利用扩展图传播（一种用于静态图重连的突出框架，对底层图结构做出最少假设）在连续时间动态图中构建了时间上相距较远的节点之间的消息传递高速公路。在具有挑战性的 TGB 基准测试中，TGR 在撰写本文时在 tgbl-review、tgbl-coin、tgbl-comment 和 tgbl-flight 数据集上取得了最先进的结果。对于 tgbl-review，TGR 在 MRR 上比基础 TGN 模型提高了 50.5%，比基础 TNCN 模型提高了 22.2%。与基础模型相比的显著改进证明了时序图重连的明显优势。

发布时间: 10/23/2024

查看原文

基于推测解码的更快速级联

作者: Harikrishna Narasimhan, Wittawat Jitkrittum, Ankit Singh Rawat, Seungyeon Kim, Neha Gupta, Aditya Krishna Menon, Sanjiv Kumar

级联和推测解码是提高语言模型推理效率的两种常见方法。两种方法都涉及交织不同大小的模型，但通过根本不同的机制：级联采用推迟规则，仅对“困难”输入调用较大的模型，而推测解码使用推测执行，主要在并行验证模式下调用较大的模型。这些机制提供了不同的优势：从经验上看，级联提供了更好的成本-质量权衡，通常甚至优于大型模型，而从理论上讲，推测解码提供了质量中立的保证。在本文中，我们通过设计新的推测级联技术来利用这两种方法的优势，这些技术通过推测执行来实现它们的推迟规则。我们描述了我们推测级联的最佳推迟规则，并采用了最佳规则的插件近似值。在 Gemma 和 T5 模型上进行的一系列语言基准测试实验表明，我们的方法比级联和推测解码基线产生了更好的成本质量权衡。

发布时间: 10/23/2024

查看原文

扩散奖励对抗模仿学习

作者: Chun-Mao Lai, Hsiang-Chun Wang, Ping-Chun Hsieh, Yu-Chiang Frank Wang, Min-Hung Chen, Shao-Hua Sun

模仿学习旨在通过观察专家演示来学习策略，而无需访问环境中的奖励信号。生成对抗模仿学习 (GAIL) 将模仿学习表述为对抗性学习，采用生成器策略学习来模仿专家行为，并采用鉴别器学习来区分专家演示和代理轨迹。尽管 GAIL 取得了令人鼓舞的结果，但其训练通常很脆弱且不稳定。受扩散模型在生成式建模中近期主导地位的启发，我们提出了扩散奖励对抗模仿学习 (DRAIL)，它将扩散模型集成到 GAIL 中，旨在为策略学习提供更稳健、更平滑的奖励。具体来说，我们提出了一种扩散鉴别分类器来构建增强型鉴别器，并根据分类器的输出设计扩散奖励用于策略学习。我们在导航、操作和运动中进行了大量实验，验证了 DRAIL 与先前模仿学习方法相比的有效性。此外，额外的实验结果证明了 DRAIL 的泛化能力和数据效率。GAIL 和 DRAIL 的可视化学习奖励函数表明，DRAIL 可以产生更稳健、更平滑的奖励。项目页面：https://nturobotlearninglab.github.io/DRAIL/

发布时间: 10/23/2024

查看原文

堆叠你的Transformer：深入探究高效LLM预训练中的模型增长

作者: Wenyu Du, Tongxu Luo, Zihan Qiu, Zeyu Huang, Yikang Shen, Reynold Cheng, Yike Guo, Jie Fu

由于其规模庞大，大型语言模型 (LLM) 的预训练计算成本很高。模型增长通过利用较小的模型来加速更大模型的训练，成为一种很有前景的方法。然而，这些模型增长方法在高效 LLM 预训练中的可行性尚未得到充分探索。这项工作确定了三个关键的障碍：（O1）缺乏综合评估，（O2）未经验证的可扩展性，以及（O3）缺乏经验指南。为了解决 O1，我们将现有方法总结为四个原子增长算子，并在标准化的 LLM 预训练环境中对其进行系统评估。我们的发现表明，一种名为 Gstack 的深度堆叠算子在训练中表现出显著的加速，与强大的基线相比，它导致了损失降低，并在八个标准 NLP 基准测试中提高了整体性能。受这些有希望的结果的启发，我们进行了广泛的实验，深入研究 Gstack 以解决 O2 和 O3。对于 O2（未经验证的可扩展性），我们的研究表明，Gstack 是可扩展的，并且始终表现良好，实验涵盖了增长后高达 7B 的 LLM，以及使用 7500 亿个标记对 LLM 进行预训练。例如，与使用 3000 亿个标记训练的传统 7B 模型相比，我们的 Gstack 模型在使用 1940 亿个标记时收敛到相同的损失，速度提高了 54.6%。我们进一步通过制定指南来确定 Gstack 的增长时间和增长因子来解决 O3（缺乏经验指南），使其在一般的 LLM 预训练中变得实用。我们还对 Gstack 进行了深入讨论和全面的消融研究。我们的代码和预训练模型可在 https://llm-stacking.github.io 获取。

发布时间: 10/23/2024

查看原文

变分延迟策略优化

作者: Qingyuan Wu, Simon Sinong Zhan, Yixuan Wang, Yuhui Wang, Chung-Wei Lin, Chen Lv, Qi Zhu, Chao Huang

在存在延迟观测的环境中，通过在延迟窗口内包含动作来增强状态，从而恢复马尔可夫性质，使强化学习 (RL) 成为可能。然而，由于延迟导致的增强状态空间的显著扩展，使用时序差分 (TD) 学习框架的最先进 (SOTA) RL 技术通常会面临学习效率低下问题。为了在不牺牲性能的情况下提高学习效率，本文提出了一种名为变分延迟策略优化 (VDPO) 的新框架，该框架将延迟 RL 重构为一个变分推理问题。这个问题进一步被建模为一个两步迭代优化问题，第一步是在无延迟环境中使用较小的状态空间进行 TD 学习，第二步是行为克隆，它比 TD 学习可以更有效地解决。我们不仅从样本复杂度和性能方面对 VDPO 进行了理论分析，而且通过实验证明，VDPO 可以实现与 SOTA 方法一致的性能，在 MuJoCo 基准测试中样本效率显著提高（样本量减少约 50%）。

发布时间: 10/23/2024

查看原文

基于强化学习和智能体建模模拟理性对经济的影响

作者: Simone Brusatin, Tommaso Padoan, Andrea Coletta, Domenico Delli Gatti, Aldo Glielmo

基于代理的模型（ABMs）是经济学中用于克服基于一般均衡假设的传统框架的一些局限性的模拟模型。然而，ABM 中的代理遵循预先确定的“有限理性”行为规则，这些规则的设计可能很繁琐，也很难证明其合理性。在这里，我们利用多智能体强化学习 (RL) 来扩展 ABMs 的能力，引入了通过与环境交互并最大化奖励函数来学习其策略的“完全理性”代理。具体来说，我们通过扩展经济学文献中的典型宏观 ABM，提出了一个“理性宏观 ABM”（R-MABM）框架。我们表明，逐渐用 RL 代理替换模型中的 ABM 公司，这些代理经过训练可以最大化利润，从而可以研究理性对经济的影响。我们发现，RL 代理自发地学习了三种不同的利润最大化策略，最佳策略取决于市场竞争和理性的水平。我们还发现，具有独立策略并且无法相互交流的 RL 代理会自发地学习将自己分成不同的战略群体，从而增加市场力量和总体利润。最后，我们发现，经济中数量较多的理性（RL）代理总是会改善以总产出衡量的宏观经济环境。根据具体的理性政策，这可能会以更高的不稳定性为代价。我们的 R-MABM 框架允许稳定的多智能体学习，具有开源代码，代表了扩展经济模拟器的一个有原则且稳健的方向。

发布时间: 10/23/2024

查看原文

用于无监督分布漂移检测的自组织聚类系统

作者: Sebasti\'an Basterrech, Line Clemmensen, Gerardo Rubino

对非平稳数据的建模是持续学习领域中的一项挑战，数据分布的偏移可能会对机器学习模型的性能产生负面影响。传统的学习工具通常容易受到输入协变量扰动的影响，并且对异常值和噪声敏感，一些工具还基于严格的代数假设。由于生产原材料的变化、季节性、用户群的不同甚至对抗性攻击，数据分布偏移经常发生。因此，需要更有效的分布偏移检测技术。在这项工作中，我们提出了一种持续学习框架来监控和检测分布变化。我们在由生物启发的自组织聚类和潜在空间的统计方面生成的潜在空间中探索这个问题。特别地，我们研究了由两个拓扑保持映射进行的投影：自组织映射和尺度不变映射。我们的方法可以在监督和无监督的环境中应用。我们将数据分布变化的评估构建为高斯信号的比较，使所提出的方法快速且鲁棒。我们将它与其他无监督技术进行比较，特别是主成分分析 (PCA) 和核 PCA。我们的比较包括使用图像序列（基于 MNIST 和注入对抗性样本的偏移）、化学传感器测量值和与臭氧水平相关的环境变量进行实验。实证研究揭示了所提出方法的潜力。

发布时间: 10/23/2024

查看原文

位置工程：通过位置信息操控提升大型语言模型

作者: Zhiyuan He, Huiqiang Jiang, Zilong Wang, Yuqing Yang, Luna Qiu, Lili Qiu

大型语言模型 (LLM) 的性能受提供提示的质量影响很大。为了应对这个问题，研究人员开发了大量提示工程策略，旨在修改提示文本以提高任务性能。本文介绍了一种名为位置工程的新技术，它提供了一种更有效的方式来指导大型语言模型。与提示工程需要花费大量精力修改提供给 LLM 的文本不同，位置工程仅涉及更改提示中的位置信息，而不会修改文本本身。我们在两种广泛使用的 LLM 场景中评估了位置工程：检索增强生成 (RAG) 和上下文学习 (ICL)。我们的研究结果表明，位置工程在这两种情况下都显著优于基线。因此，位置工程代表了一种利用大型语言模型能力的有前景的新策略。

发布时间: 10/23/2024

查看原文