arXiv:2504.15668v1 宣布类型: 新
摘要: 在可解释AI规划中,解释规划问题的不可解性是一项重要的研究兴趣。AI规划文献中报道了生成规划问题解的解释的多项研究努力。然而,解释规划问题的不可解性仍然是一个未解决且研究不足的问题。一种广泛采用的计划生成和自动化问题解决方法是将任务分解为有助于逐步接近目标的子问题。在本文中,我们提出采用同样的子问题识别哲学作为分析和解释混合系统中规划问题不可解性的机制。特别是,对于给定的不可解规划问题,我们建议识别常见的关键点,即普遍的障碍,这些障碍阻止计划的存在;换句话说,它们出现在从起点到规划目标的每一条计划路径上。本文设想这些关键点作为规划问题的子问题,而任何这些关键点不可达作为原始规划问题不可解性的解释。我们提出了一种新颖的子点识别方法,将其问题形式化为计算机科学中广泛流行的最长公共子序列问题的一个实例,通常作为动态规划范式的示例问题。一旦识别出关键点,我们对其执行符号可达性分析以找出最早不可达的关键点,并将其报告为不可解性的解释。我们展示了在混合域中不可解规划问题的实验结果。
arXiv:2504.15610v1 宣布类型: 新增
摘要: 本研究描述了一种经济高效的方法,用于根据学习交流背景对大型语言模型(LLMs)进行适应,并将其应用于低资源的跨文化适应方法中。通过使用 Mistral-7B-Instruct 模型并结合低秩适应(LoRA)方法和 4 位量化方法,该模型在两项与本研究目的相关的训练阶段中进行了训练,旨在增强领域特异性同时保持计算效率。在第一阶段,模型通过 Gemini Pro API 与合成数据集进行预处理;在第二阶段,模型使用 StudyAbroadGPT 项目中手工整理的数据集进行训练,以实现更具上下文含义的响应。技术创新包括高效量化、参数有效适应和通过 Weights & Biases 进行持续的训练分析。经过训练后,本研究展示了训练损失减少 52.7%,特定领域的推荐准确率达到 92%,支持 95% 的 markdown 格式化,以及在标准 GPU 设备上每秒运行 100 个样本的中位运行率。这些发现支持在教育顾问中有效应用指令调整的 LLM,尤其是在低资源机构情景中。局限性包括一般化能力的降低和使用合成生成的数据集,但该框架可扩展以添加新的多语言增强和实时学术咨询过程。未来方向可能包括集成检索增强生成、应用动态量化流程以及连接到实时的学术数据库,以提高适应性和准确性。
arXiv:2504.15552v1 通知类型: 新
摘要: 本文介绍了一种新颖的多智能体框架,通过整合大型语言模型、视觉生成和语音合成技术,实现了秦腔戏剧从头到尾的自动化生产。三个专门的智能体按顺序协作:Agent1 使用大型语言模型来创作连贯且具有文化根基的剧本;Agent2 利用视觉生成模型渲染上下文准确的舞台场景;Agent3 利用语音合成(TTS)生成同步且情感表达的演唱表演。在《窦娥冤》的案例研究中,系统在剧本忠实度上获得了3.8的专家评分,在视觉一致性上获得了3.5的评分,在语音准确性上获得了3.8的评分,总体评分为3.6,比单智能体基线模型提高了0.3分。消融实验表明,去除Agent2或Agent3会导致分别下降0.4分和0.5分,突显了模块化协作的价值。本项工作展示了人工智能驱动的工作流程如何简化和扩大传统表演艺术的保存,并指出了今后在跨模态对齐、更丰富的情感细腻以及支持更多歌剧流派等方面的改进方向。
arXiv:2504.15466v1 宣布类型: 新颖
摘要:扩展推理时间计算显著提升了语言模型的推理能力。然而,现有的方法存在一些重大限制:序列化的思维链方法会产生过长的输出,导致延迟增加和上下文窗口耗尽,而并行方法如自我一致性则因协调不足而导致冗余计算和性能提升有限。为了解决这些问题,我们提出了一种新的推理框架——自适应并行推理(Adaptive Parallel Reasoning, APR),它能够使语言模型在端到端的流程中协调序列化和并行计算。APR通过启用使用 spawn() 和 join() 操作的自适应多线程推理来泛化现有的推理方法。一个关键的创新是我们提出的端到端强化学习策略,它优化了父线程和子线程的推理,以提高任务的成功率,而无需预先定义推理结构。在 Countdown 推理任务上的实验结果表明,APR具有显著的优势:(1)在相同上下文窗口下更高的性能(4k 上下文窗口下,APR 达到 83.4%,而其他方法仅为 60.0%);(2)随着计算量的增加,具有更好的可扩展性(20k 总令牌下,APR 达到 80.1%,而其他方法仅为 66.6%);(3)在相当延迟下提高准确率(大约 5,000 毫秒时,APR 达到 75.2%,而其他方法仅为 57.3%)。APR代表了使语言模型能够通过自适应分配计算资源来自主优化其推理过程的一个步骤。
arXiv:2504.15457v1 宣告类型: 新
摘要: 能够与新人合作是许多经济上有价值的AI任务的重要组成部分,从家庭机器人到自动驾驶汽车都是如此。然而,对新型人类的泛化需要训练数据来捕捉人类行为的多样性。对抗训练是一种寻找此类数据的方法,确保智能体具有鲁棒性。然而,在合作环境中应用这种方法是有困难的,因为对抗策略旨在故意破坏任务,而不是模拟有效的合作伙伴。为了解决这一挑战,我们提出了一种克服自我破坏的新型策略,该策略结合了预训练的生成模型来模拟有效的合作智能体策略,以及对抗训练以最大化悔恨。我们称之为我们的方法GOAT: 生成对抗性训练。在该框架中,GOAT 动态地搜索并生成合作策略,让学习策略——合作智能体——表现不佳。GOAT 通过让合作智能体接触到各种具有挑战性的交互场景,从而更好地泛化。为了保持现实的合作策略,只有更新生成模型的嵌入,而保持其参数冻结,从而避免对抗性利用。我们使用真实的human伙伴评估了GOAT,并且结果表明在Overcooked基准测试中实现了最先进的性能,突显了其在泛化到多样的人类行为方面的有效性。
arXiv:2504.15434v1 Announce Type: 新闻
摘要:本文研究了多模态代理,特别是由OpenAI训练的计算机用户代理(CUA),该代理通过标准计算机界面控制和完成任务,类似于人类操作。我们通过评估代理在《纽约时报》Wordle游戏上的表现来引发模型行为并识别其不足之处。我们的发现揭示了模型在识别颜色方面的能力在不同上下文中有显著差异。在一周的调查中,模型在数百次运行中正确识别颜色的成功率仅为5.36%。尽管对AI代理及其可能引领通用人工智能(AGI)的极大热情,但我们的发现加强了这样一个事实,即即使是简单任务也给当今的前沿AI模型带来了巨大挑战。我们总结了潜在的根本原因、对未来发展的影响以及改进这些AI系统的研究方向。
arXiv:2504.15364v1 宣告类型: 新颖
摘要: 在这项工作中,我们展示了在LLM推理过程中,具有显著性的键通常具有高注意力分数。我们研究了这一现象,并提出了KeyDiff,一种基于键相似性的训练-free KV缓存驱逐方法。这种方法有助于在资源受限且内存和计算预算有限的环境中部署基于LLM的应用程序,特别是那些需要长输入提示的应用程序。与其它KV缓存驱逐方法不同,KeyDiff可以在严格的资源限制下处理任意长的提示,并高效生成响应。我们证明,KeyDiff计算了KV缓存选择问题的最优解,该问题的目标是最大化键的多样性,从而为KeyDiff提供了一个理论上的理解。值得注意的是,KeyDiff不依赖于注意力分数,这使得可以使用优化的注意力机制,如FlashAttention。我们在各种任务和模型上展示了KeyDiff的有效性,表明在LongBench基准上,对于Llama 3.1-8B和Llama 3.2-3B模型,与非驱逐基线相比,8K缓存预算(约23%的KV缓存减少)的性能差距小于0.04%。
arXiv:2504.15360v1 宣告类型: 新
摘要: 传统的机器学习分类器往往过于自信,在实验室基准测试之外可能无法可靠使用。正确评估模型每个样本输出的可靠性对于这些系统实际部署时的实际场景至关重要。因此,已经采用了不同的技术来正确量化给定模型的预测质量。这些技术中最常见的是贝叶斯统计,最近则是符合学习。通过校准集,符合学习可以生成保证以所需显著性水平覆盖目标类别的输出,并且这些输出比贝叶斯方法使用的标准置信区间更可靠。在本文中,我们提议使用符合学习与模糊规则基于系统进行分类,并展示了它们性能的一些指标。然后,我们讨论了使用类型2模糊集如何改进系统输出的质量,同时与模糊规则和清晰规则相比。最后,我们还讨论了如何调整系统的微调以提高符合预测的质量。
arXiv:2504.15313v1 宣布类型: 新
摘要:多智能体由于大型语言模型(LLMs)的能力,已经在现实世界的模拟中展示了显著的智能,尤其是在社交认知和知识检索方面。然而,现有研究在涉及有效的认知链(包括推理、规划、决策和反思)的智能体方面仍然有限,尤其是在动态互动场景中。此外,与人类不同,在不确定的游戏过程中,基于提示的响应面临着心理状态感知和经验校准方面的挑战,这不可避免地会导致认知偏差。鉴于以上问题,我们介绍了PolicyEvol-Agent,这是一种系统地获取他人意图并适应性优化非理性策略以实现持续增强的全面LLM赋能框架。具体来说,PolicyEvol-Agent 首先获取反思专长模式,然后结合心智理论整合一系列认知操作,同时包含内外部视角。模拟结果表明,PolicyEvol-Agent 在最终游戏胜利方面优于基于强化学习的模型和基于智能体的方法。此外,策略演化机制在自动评估和人工评估中都显示了动态指导方针调整的有效性。
arXiv:2504.15304v1 宣告类型: 新
摘要: 机器学习 ML 代理在过去广泛的任务和环境中被越来越多地用于决策。这些 ML 代理通常被设计为在做出选择时平衡多个目标。了解它们的决策过程与人类推理是如何一致或不一致是至关重要的。人类代理经常遇到难以抉择的情况,即选项之间不可通约;既没有偏好的选项,但代理对于这些选项也不是无所谓的。在这种情况下,人类代理可以通过深思熟虑来识别并解决难以抉择的问题。相比之下,由于多目标优化或 MOO 方法的基本局限性,当前的 ML 代理无法识别难以抉择的情况,更不用说解决它们了。标量优化和帕累托优化,这两种主要的多目标优化方法,都无法捕捉到不可通约性。这一局限性产生了三种不同的对齐问题:从人类角度来看,ML 决策行为的陌生性;基于偏好对难以抉择的问题进行对齐策略的不可靠性;以及追逐多重目标的对齐策略的阻碍。我评估了两种潜在的技术解决方案,并推荐一个最有可能实现 ML 代理识别难以抉择的问题并减轻对齐问题的集合解决方案。然而,没有任何已知的技术可以让 ML 代理通过深思熟虑来解决难以抉择的问题,因为它们无法自主更改目标。这突显了人类代理的独特性,并敦促机器学习研究人员重新概念化机器自主性,并开发出能够更好地解决这一基本缺口的框架和方法。