arXiv 论文列表

作者: KaiHui Huang, RunQing Wu, Fei Ye

arXiv:2501.12121v3 更换类型: replace-cross 摘要：持续学习已成为一个关键的研究领域，主要是因为它具有一个有利于模型持续获取和保留信息的优势特性。然而，灾难性遗忘可能会严重损害模型性能。在本研究中，我们通过引入一种名为 Optimally-Weighted Maximum Mean Discrepancy (OWMMD) 的新框架来解决网络忘记问题，该框架通过多级特征匹配机制 (MLFMM) 对表示变化施加惩罚。此外，我们提出了一种自适应正则化优化 (ARO) 策略来精炼自适应权重向量，在优化过程中自主评估每一层特征的重要性。所提出的 ARO 方法可以缓解过度正则化问题，并促进未来的任务学习。我们进行了一系列全面的实验，将我们提出的方法与几个现有的基准方法进行了对比。实证结果表明，我们的方法取得了最先进的性能。

发布时间: 2/11/2025

查看原文

在回声状态网络中无监督学习的输入重建

作者: Taiki Yamada, Yuichi Katori, Kantaro Fujiwara

arXiv:2501.11409v3 宣告类型: 替换-交叉摘要：传统回声状态网络（ESNs）需要监督学习来训练读出层，使用期望输出作为训练数据。在本研究中，我们专注于输入重构（IR），即训练读出层在其输出中重现输入时间序列。我们将ESNs读出层的学习算法重新制定，以通过无监督学习（UL）实现IR。通过理论分析和数值实验，我们证明在不显式使用期望输出作为训练数据的情况下，ESNs中的IR可以在现实条件下有效实施；这样，可以实现无监督学习。此外，我们展示了一种依赖于IR的应用，如动态系统复制和噪声过滤，可以在无监督学习框架下重新制定。我们的发现建立了一种理论上有根据且普遍适用的IR表述及其相关任务，特别是在时间序列处理方法和大脑计算模型的背景下，为ESNs开辟了新的预侧途径，并突显了其中未解决的理论挑战。

发布时间: 2/11/2025

查看原文

从语言模型生成结构化输出：基准与研究

作者: Saibo Geng, Hudson Cooper, Micha{\l} Moskal, Samuel Jenkins, Julian Berman, Nathan Ranchin, Robert West, Eric Horvitz, Harsha Nori

arXiv:2501.10868v2 宣告类型: 交叉替代摘要：可靠地生成结构化输出已经成为现代语言模型（LM）应用中的一项关键能力。约束解码已经成为了各个行业中在生成过程中强制执行结构化输出的主导技术。尽管其普及程度不断提高，但在系统的评估约束解码的行为和性能方面却鲜有进展。约束解码框架已经基于JSON Schema标准化了结构化数据格式，在大多数情况下，给定一个模式，可以保证约束合规。然而，对实践中方法的有效性理解不足。我们提出了一种评估框架，以从三个关键维度评估约束解码方法：生成合规输出的效率、覆盖多种类型的约束、以及生成输出的质量。为了促进这一评估，我们引入了JSONSchemaBench，一个由10,000个现实世界的JSON模式组成的基准，这些模式涵盖了各种复杂程度的广泛约束。我们使用现有的官方JSON Schema Test Suite配对基准，并评估了六个最先进的约束解码框架，包括Guidance、Outlines、Llamacpp、XGrammar、OpenAI和Gemini。通过广泛的实验，我们获得了关于使用现实世界的JSON模式进行结构化生成的约束解码的能力和局限性的见解。我们的工作提供了关于改进约束解码框架和结构化生成任务的具体见解，并为评估约束解码和结构化生成确立了新的标准。我们将在https://github.com/guidance-ai/jsonschemabench发布JSONSchemaBench。

发布时间: 2/11/2025

查看原文

超越深度限制的适应：大型不完美信息游戏中的一种反制策略

作者: David Milec, Vojt\v{e}ch Kova\v{r}\'ik, Viliam Lis\'y

arXiv:2501.10464v3 通知类型: replace-cross 摘要：我们研究了在线游戏中适应已知次理性对手的问题，同时保持对理性对手的鲁棒性。我们关注大型不完美信息（零和）游戏，这使得无法一次性检查整个游戏树，因此需要使用深度有限搜索。然而，现有的所有方法都假设有深度限制之外的理性游戏，这仅允许它们适应对手行为的非常有限的部分。我们提出了一种名为“超越深度限制的适应”（ABD）的算法，该算法使用策略组合方法——我们称之为矩阵状态——来实现深度有限搜索。这种方法使算法能够充分利用所有关于对手模型的信息，成为第一个能够在大型不完美信息游戏中做到这一点的鲁棒适应方法。此外，使用矩阵状态使该算法比基于最优价值函数的传统方法更为简单。我们在德州扑克和水雷游戏中进行的实验结果表明，当面对在深度限制之外犯错误的对手时，ABD 在效用上能提高超过两倍；同时，在对抗随机生成的对手时，ABD 在效用和安全性方面也取得了显著改进。

发布时间: 2/11/2025

查看原文

使用信任分数提高条件覆盖的 conformal 预测集

作者: Jivat Neet Kaur, Michael I. Jordan, Ahmed Alaa

arXiv:2501.10139v2 宣告类型: replace-cross 摘要：标准的共形预测提供了一种边际上的覆盖保证，但为了使预测集真正有用，它们理想情况下应该在每个测试点的基础上确保条件覆盖。不幸的是，在有限样本中实现精确且无分布假设的条件覆盖是不可能的。在本文中，我们提出了一种替代的共形预测算法，该算法针对最关键的覆盖领域——分类器在其错误预测上过于自信的实例——发力。我们首先剖析了边际有效共形预测中的错误覆盖事件，并表明错误覆盖率根据分类器的信心以及其偏离贝叶斯最优分类器的程度而变化。受到这些见解的启发，我们开发了一种共形成变量变种，该变种针对一个缩减的变量集的目标覆盖：分类器在其预测上的信心以及一个非参数信任评分，该评分衡量其偏离贝叶斯分类器的程度。在多个图像数据集上的实验评估显示，与标准的共形预测相比，我们的方法通常能在条件覆盖性质方面有所改进，包括类别条件下的覆盖、任意子群体的覆盖以及人口统计群体的覆盖。

发布时间: 2/11/2025

查看原文

文本到图像扩散模型的地面真值方法以实现受控高质量化图像生成

作者: Ahmad S\"uleyman, G\"oksel Biricik

arXiv:2501.09194v2 通知类型: 交叉替换摘要：文本到图像（T2I）生成扩散模型在从文本描述合成多样化、高质量视觉方面表现出色。已经开发了多种布局到图像模型，通过利用分割图、边缘和人体关键点等广泛的布局来控制生成过程。在本文中，我们提出了一种称为ObjectDiffusion的模型，该模型通过在扩散模型中使用语义和空间定位信息进行条件约束，从而使特定对象在通过边界框定义的特定位置上精确渲染和放置成为可能。为此，我们对ControlNet引入的网络架构进行了重大修改，并将其与GLIGEN提出的定位方法结合。我们在COCO2017训练数据集上微调ObjectDiffusion，并在COCO2017验证数据集上评估它。我们的模型在可控图像生成的精确性和质量上有所改进，实现了AP$_{\text{50}}$为46.6，AR为44.5，FID为19.8的结果，这三个指标均优于训练于开源数据集的当前SOTA模型。ObjectDiffusion在多种语境下展示了独特的能力，能够合成多样化、高质量、高保真度的图像，这些图像能够无缝符合语义和空间控制布局。在定性和定量测试中，ObjectDiffusion在封闭集和开放集词汇设置下展示了显著的定位能力。定性的评估验证了ObjectDiffusion生成不同大小、形态和位置的多个详细对象的能力。

发布时间: 2/11/2025

查看原文

生成式视频模型在观看视频时学习物理原理吗？

作者: Saman Motamed, Laura Culp, Kevin Swersky, Priyank Jaini, Robert Geirhos

arXiv:2501.09038v2 通知类型: 交叉替换摘要：AI 视频生成正在经历一场革命，质量与真实性迅速提高。这些进步引发了激烈的科学争论：视频模型是否学习了“世界模型”，发现了物理定律——或者，它们仅仅是高级的像素预测器，能够在不理解现实物理原理的情况下实现视觉真实性？我们通过开发 Physics-IQ，一个只能通过深刻理解各种物理原理（如流体动力学、光学、固体力学、磁学和热力学）才能解决的综合基准数据集，来探讨这一问题。我们发现，目前的几种模型（Sora、Runway、Pika、Lumiere、Stable Video Diffusion 和 VideoPoet）对物理的理解严重有限，并且与视觉真实性无关。与此同时，一些测试用例已经可以成功解决。这表明，仅凭观察就获取一定的物理原理可能是可能的，但仍然存在重大挑战。尽管我们预期未来将有快速进步，但我们的工作表明，视觉真实性并不意味着物理理解。我们的项目页面位于 https://physics-iq.github.io；代码位于 https://github.com/google-deepmind/physics-IQ-benchmark。

发布时间: 2/11/2025

查看原文

张量积注意力等你所剩无余

作者: Yifan Zhang, Yifeng Liu, Huizhuo Yuan, Zhen Qin, Yang Yuan, Quanquan Gu, Andrew Chi-Chih Yao

arXiv:2501.06425v2 通知类型: 替换-交叉摘要: 扩展语言模型以处理更长的输入序列通常需要大量的键-值(KV)缓存，这会导致推理时产生大量的内存开销。在本文中，我们提出了一种新的注意机制——张量积注意(TPA)，它使用张量分解来紧凑地表示查询、键和值，显著减小了推理时的KV缓存大小。通过将这些表示分解为上下文低秩组件（上下文分解因素）并无缝集成RoPE，TPA 实现在内存效率提升的同时保持了模型质量。基于TPA，我们引入了张量积注意变换器（T6）这种新的序列建模模型架构。通过广泛的经验评估语言建模任务，我们证明了T6在各种度量标准中，包括困惑度和一系列知名评估基准中，超过了包括MHA、MQA、GQA和MLA在内的标准Transformer基线模型。值得注意的是，TPA 的内存效率使得在固定资源约束条件下能够处理显著更长的序列，从而解决了现代语言模型中的一个重要可扩展性挑战。代码可在 https://github.com/tensorgi/T6 获取。

发布时间: 2/11/2025

查看原文

影响人类遵从偏好模型以实现RLHF

作者: Stephane Hatgis-Kessell, W. Bradley Knox, Serena Booth, Scott Niekum, Peter Stone

arXiv:2501.06416v2 更新类型: 交叉替换摘要: 设计一种从人类反馈中强化学习（RLHF）的算法以逼近人类不可观测的奖励函数，需要隐含或明确地假设一个人类偏好的模型。如果偏好模型不能很好地描述人类如何生成偏好，那么就有可能学到一个不理想的对人类奖励函数的近似。本文中，我们进行了三项人类研究，以评估是否可以通过影响人类真实偏好的表达，使其更接近于某种期望的偏好模型。重要的是，我们的方法并不旨在改变人类的不可观测奖励函数。而是改变人类使用该奖励函数来生成偏好的方式，以使其更好地与某个特定RLHF算法所假设的偏好模型相匹配。我们引入了三种干预措施：向人类展示构成偏好模型的基础量，这些通常是从奖励函数中推导出的不可观察信息；训练人们遵循特定的偏好模型；以及修改偏好获取问题。所有类型的干预措施都显示出显著效果，提供了改进偏好数据质量和由此产生的学习奖励函数与期望对齐程度的实际工具。总的来说，我们确立了一个新的研究方向：设计界面和训练干预措施，以增加人们对将学习其输入算法的建模假设的符合程度。

发布时间: 2/11/2025

查看原文

测试时扩散模型的对齐无需奖励过度优化

作者: Sunwoo Kim, Minkyu Kim, Dongmin Park

arXiv:2501.05803v2 宣布类型: replace-cross 摘要：扩散模型在生成任务中表现出色，但在保持其灵活性的同时与特定目标保持对齐仍然是一个挑战。现有的微调方法往往遭受奖励过度优化的困扰，而近似指导方法在优化目标奖励方面效果不佳。为了解决这些限制，我们提出了一种基于顺序蒙特卡洛（SMC）的无训练、测试时的方法，用于从奖励对齐的目标分布中采样。我们的方法针对扩散采样进行了定制，并结合了退火技术，在保持多样性和跨奖励泛化的同时，实现了与微调方法相当或更优的目标奖励。我们在单奖励优化、多目标场景和在线黑盒优化中展示了其有效性。这项工作提供了一种稳健的解决方案，以不同下游目标对齐扩散模型，而不牺牲其一般能力。代码可在 https://github.com/krafton-ai/DAS 获取。

发布时间: 2/11/2025

查看原文