arXiv 论文列表

作者: Asad Aali, Giannis Daras, Brett Levac, Sidharth Kumar, Alexandros G. Dimakis, Jonathan I. Tamir

arXiv:2403.08728v2 逆问题类型: 替换-交叉摘要: 我们提供了一种框架，用于解决来自线性受腐蚀数据中学习的扩散模型的逆问题。首先，我们将Ambient Diffusion框架扩展为能够直接从Fourier域中受腐蚀的数据中进行训练。其次，我们仅使用采样速率为R=2,4,6,8的Fourier子采样多线圈测量数据来训练MRI的扩散模型。随后，我们提出了Ambient Diffusion后验采样(A-DPS)，这是一种利用在一种类型腐蚀(如图像填充)上预先训练的生成模型来对另一种前向过程(如图像模糊)的测量数据进行后验采样的重建算法。对于高加速率下的MRI重建，我们观察到，训练于子采样数据上的A-DPS模型比训练于全采样数据上的模型更适合解决逆问题。我们还在自然图像数据集(CelebA, FFHQ, AFHQ)上测试了A-DPS的有效性，并展示了在速度和性能方面，A-DPS有时可以优于清洁数据上训练的模型，完成多项图像恢复任务。

发布时间: 4/23/2025

查看原文

基于使命导向的探索以加速带有时间逻辑任务规范的深度强化学习

作者: Jun Wang, Hosein Hasanbeig, Kaiyuan Tan, Zihe Sun, Yiannis Kantaros

arXiv:2311.17059v2 宣告类型: 替换-交叉摘要: 本文解决了设计具有未知随机动态的智能体的控制策略的问题，同时使用线性时序逻辑（LTL）来指定控制目标。近期的深度强化学习（DRL）算法旨在计算最大化LTL公式的满足概率的策略，但它们通常会遭受学习速度缓慢的问题。为了解决这一问题，我们提出了一种新颖的深度Q学习算法，显著提高了学习速度。这种增强的学习效率来自于一种以任务为导向的探索策略，该策略优先探索可能有助于任务成功的方向。确定这些方向依赖于LTL任务的自动机表示以及一个部分模型化智能体与环境交互的神经网络。我们提供了比较实验，展示了我们的算法在未见过的环境中进行机器人导航任务时的效率。

发布时间: 4/23/2025

查看原文

EMelodyGen：基于音乐特征模板的ABCnotation情绪条件旋律生成

作者: Monan Zhou, Xiaobing Li, Feng Yu, Wei Li

arXiv:2309.13259v2 宣布类型: 替换交叉摘要：EMelodyGen 系统专注于通过音乐特征模板控制在 ABC 符号表示下生成情感旋律。由于高质量、结构良好且带有情感标签的乐谱稀缺，我们设计了一个模板，通过从小规模的情感符号音乐数据集和音乐心理学结论中提取的音乐特征与情感标签之间的统计相关性来控制情感旋律的生成。然后，我们使用该模板自动标注了一个大规模、结构良好的乐谱集合，并用粗糙的情感标签标注了它们，将其转换为 ABC 符号表示，并通过数据增强减少了标签不平衡，最终得到了一个名为 Rough4Q 的数据集。基于 Rough4Q 预训练的系统骨干可以实现高达 99% 的 music21 解析率，而由模板生成的旋律能够在盲听测试中情感表达对齐度达到 91%。进一步的消融研究还验证了模板中特征控制的有效性。相关代码和演示可在 https://github.com/monetjoe/EMelodyGen 查看。

发布时间: 4/23/2025

查看原文

协同弱强协作，通过对齐偏好

作者: Yizhu Jiao, Xuchao Zhang, Zhaoyang Wang, Yubo Ma, Zhun Deng, Rujia Wang, Chetan Bansal, Saravan Rajmohan, Jiawei Han, Huaxiu Yao

arXiv:2504.15188v2 宣告类型: 替换摘要：当前的大语言模型（LLMs）在通用推理方面表现出色，但在需要专有或特定领域知识的专用任务上却力不从心。为了每个特定应用重新训练大型模型往往由于黑箱约束和高计算开销而不可行。为了解决这一问题，我们提出了一种协作框架，该框架将一个专门的弱模型与一个通用的强大模型配对。专门的弱模型针对特定领域进行调整，生成初步草稿和背景信息，而强大的模型利用其高级推理能力对这些草稿进行修正，从而扩展大语言模型在关键且专门任务上的能力。为了优化这种协作，我们引入了一种协作反馈机制，对弱模型进行微调，该机制量化了弱模型在协作过程中的影响，并建立偏好对来指导弱模型的偏好调优。我们通过在三个领域进行实验验证了该框架。我们发现，协作显著优于单独使用每个模型，这是通过利用互补优势实现的。此外，将弱模型与协作偏好对齐进一步提高了整体性能。

发布时间: 4/23/2025

查看原文

文本到决策代理：从自然语言监督学习通用策略

作者: Shilin Zhang, Zican Hu, Wenhao Wu, Xinyi Xie, Jianxiang Tang, Chunlin Chen, Daoyi Dong, Yu Cheng, Zhenhong Sun, Zhi Wang

arXiv:2504.15046v2 宣告类型: 替换摘要：RL系统通常通过从高质量样本或预热探索中推断任务信念来处理泛化问题。这种限制形式限制了其通用性和实用性，因为这些监督信号在事先获取未见过的任务时是昂贵甚至不可行的。直接从原始文本中学习决策任务是一种有望利用更广泛监督源的替代方案。在本文中，我们提出了Text-to-Decision Agent（T2DA），这是一种简单且可扩展的框架，通过自然语言监督通用主义策略学习。我们首先介绍了一种泛化世界模型，将多任务决策数据编码到一个动态感知嵌入空间中。然后，受到CLIP的启发，我们预测哪种文本描述与哪种决策嵌入相关，通过对比语言-决策预训练有效地弥合了它们之间的语义差距，并使文本嵌入能够理解环境动态。在训练文本条件下的通用主义策略后，该智能体可以直接实现反应语言指令的零样本文本到决策生成。在MuJoCo和Meta-World基准上的全面实验表明，T2DA促进了高容量的零样本泛化，并优于各种基线方法。

发布时间: 4/23/2025

查看原文

具有情感的AI：探索大型语言模型中的情感表达

作者: Shin-nosuke Ishikawa, Atsushi Yoshino

arXiv:2504.14706v2 通知类型: 替换摘要：大型语言模型（LLMs）在各种任务中达到人类水平的表现激发了对未来人工智能（AI）可能具备情感的期望。为了探索当前LLMs在输出中表达情感的能力，我们使用了几种LLM（OpenAI GPT、Google Gemini、Meta Llama3 和 Cohere Command R+）进行了一个实验，让它们扮演具有指定情感状态的代理角色，回答问题。我们使用鲁斯兰的情感环形模型来定义情感状态，这是一种广为认可的框架，通过激活-昏睡（唤醒）和愉悦-不愉悦（效价）两个轴来描述情感。我们选择了这个模型，因为它简单，并且使用了两个连续参数，这使得在涉及连续情感状态变化的应用中具有更好的可控性。生成的响应使用了一个独立于LLM的情感分析模型进行评估，该模型是基于GoEmotions数据集进行训练的。评估结果显示，生成的答案的情感状态与规定的一致，证明了LLMs具备情感表达的能力。这表明基于LLM的AI代理有可能模拟情感，从而为基于情感的交互开辟广泛的应用领域，如能够提供带有个人色彩建议或意见的顾问或咨询者。

发布时间: 4/23/2025

查看原文

时间到了！在输出长度限制下的语言模型推理能力实证研究

作者: Yi Sun, Han Wang, Jiaqiang Li, Jiacheng Liu, Xiangyu Li, Hao Wen, Huiwen Zheng, Yan Liang, Yuanchun Li, Yunxin Liu

arXiv:2504.14350v2 宣传类型：替换摘要：最近的研究已经展示了大语言模型（LLMs）在测试时扩展方面的非凡潜力。通过让模型在回答之前进行思考，它们能够在额外的推理计算下实现更高的准确性。然而，在许多实际场景中，模型在时间限制下使用，需要在一定的输出长度内给出答案。目前尚不清楚在这些约束下LLMs的推理能力是否仍然有效，以及如何在这种约束下保持其有效性。我们通过进行一项深入的经验研究来首次探讨这个问题。具体来说，我们在广泛的输出长度预算下测试了超过25种LLMs在常见推理数据集上的表现，并分析了推理准确性与模型类型、模型大小、提示风格等各种属性之间的相关性。我们还考虑了 token 预算与实际设备延迟预算之间的映射关系。结果显示了一些有趣的结果，这些结果与不受约束的情况下的情况不同，例如，在不同预算下，模型大小和提示的最佳选择会发生变化。这些发现为用户在实际延迟限制下部署LLMs提供了实用的指导。

发布时间: 4/23/2025

查看原文

FAIRGAME：基于博弈论的AI代理偏见识别框架

作者: Alessio Buscemi, Daniele Proverbio, Alessandro Di Stefano, The Anh Han, German Castignani, Pietro Li\`o

arXiv:2504.14325v2 宣告类型: 替换摘要：在多智能体应用中让AI代理相互作用增加了对AI结果可解释性和预测的复杂性，这对其在研究和社會中的可靠采用产生了深远的影响。博弈论提供了强大的模型来捕捉和解释代理之间的战略性交互，但需要支持可重复、标准且用户友好的IT框架，以便进行结果的比较和解释。为此，我们提出了FAIRGAME，一个基于博弈论的AI代理偏差识别框架。我们描述了其实现和使用方法，并利用它在流行的基于AI代理的游戏中发现了偏差结果，这取决于所使用的大型语言模型（LLM）和所使用的语言，以及代理的个性特征或战略知识。总体而言，FAIRGAME使用户能够可靠且容易地模拟他们想要的游戏和场景，并在仿真活动中比较结果与博弈论预测进行对比，从而系统地发现偏差，预见由战略相互作用产生的新兴行为，并增强对使用LLM代理的战略决策研究。

发布时间: 4/23/2025

查看原文

TALES: 文本冒险学习环境套件

作者: Christopher Zhang Cui, Xingdi Yuan, Ziang Xiao, Prithviraj Ammanabrolu, Marc-Alexandre C\^ot\'e

arXiv:2504.14128v2 宣告类型: 替换摘要：推理是使大型语言模型（LLMs）能够与世界互动的一项基本技能。随着任务变得越来越复杂，它们对顺序决策所需的推理能力和多样性提出了越来越复杂和多样的要求，这就需要对上下文历史进行结构化的推理，以确定下一步的最佳行动。我们介绍了TALES，这是一个多样性的合成和人工撰写的文本冒险游戏集合，旨在挑战并评估多样的推理能力。我们在一系列LLMs、开放式和封闭式的权重上进行了实验，并对表现最佳的模型进行了定性的分析。尽管在合成游戏上表现出色，即使是最优秀的LLM驱动的代理也无法在设计供人类娱乐的游戏上达到15%的成就。可以在 https://microsoft.github.io/tales 查找到实验的代码和可视化结果。

发布时间: 4/23/2025

查看原文

通过压缩理解大语言模型的行为：数据生成、知识获取和标度定律

作者: Zhixuan Pan, Shaowen Wang, Jian Li

arXiv:2504.09597v4 宣告类型: 更换摘要: 大型语言模型（LLMs）在众多任务中展现了卓越的能力，然而它们内部机制及其背后的诸多现象（如缩放定律、幻觉及相关行为）的原理性解释仍然难以捉摸。在本文中，我们回溯了压缩与预测之间经典的科莫多夫复杂性和香农信息理论关系，以提供对LLM行为更深刻的见解。通过利用科莫多夫结构函数，并将LLM压缩视为两部分编码过程，我们提供了关于LLMs如何在不断增加的模型和数据规模中获取和存储信息的详细观点——从普遍的句法规则到逐渐稀有的知识元素。基于这一理论视角以及受到Heaps定律和Zipf定律启发的自然假设，我们引入了一个简化但具有代表性的分层数据生成框架，称为语法-知识模型。在贝叶斯框架下，我们展示了在这个模型中，预测和压缩自然会导致LLMs多样化的学习和缩放行为。特别是，我们的理论分析为数据和模型缩放定律、训练和微调过程中知识的获取动态、LLMs的事实知识幻觉提供了直观且原理性的解释。实验结果验证了我们的理论预测。

发布时间: 4/23/2025

查看原文