arXiv:2408.10878v3 通告类型:替换
摘要:来自团队体育等领域的多智能体轨迹数据经常由于各种因素而缺失。尽管已经提出了许多用于时空数据的插值方法,但在球员移动高度动态且智能体间交互不断变化的多智能体体育场景中,这些方法并不适用。为了解决这些挑战,我们提出了一种名为MIDAS(Multi-agent Imputer with Derivative-Accumulating Self-ensemble)的框架,该框架能够以高准确性和物理合理性插值多智能体轨迹。它通过基于Set Transformer的神经网络同时预测位置、速度和加速度,并通过递归积累预测的速度和加速度值生成替代估计。然后,使用可学习的加权集成将这些预测结合,生成最终的插值轨迹。在三个体育数据集上的实验表明,MIDAS在位置准确性和物理合理性方面显著优于现有基线。最后,我们展示了MIDAS的应用案例,例如估算总体距离和传球成功率,以突出其在需要完整跟踪数据的实际下游任务中的适用性。
arXiv:2408.00521v2 公布类型: 替换
摘要:一些公司(例如微软研究和谷歌深度思维)发现了一些关于 GPTs 自回归范式的局限性,这些局限性体现在模型缺乏规划、工作记忆、回溯和推理能力。GPTs 依赖于一种局部且贪婪的生成下一个词的过程,而没有对任务或输出进行全面理解。我们通过针对代码理解的专业实证研究确认了上述局限性。尽管 GPT-4 在生成流畅且连贯的文本方面表现出色,但它无法处理复杂的逻辑关系,生成未见过的新代码,并且在生成正确代码时过于依赖提示的格式化。我们提出了一种超越下一个词预测范式的新型代码理解范式,该范式受到图像生成(Dalle-2, Sora)和蛋白质结构生成(AlphaFold-3)中成功应用扩散技术的启发,而后者没有任何自回归约束。我们不将代码编码成模仿自然语言的形式,而是将代码编码为一个包含全球信息记忆的异构图像范式,模仿图像和蛋白质结构。然后,我们参考 Sora 的 CLIP 上游文本到图像编码器模型,设计了一个文本到代码编码器模型,可以应用于各种下游代码理解任务。该模型在新的异构图像范式下学习代码的全局理解,连接文本和代码的编码空间,并将文本输入编码为最接近它的代码向量。通过在 456,360 对文本-代码对上进行自我监督的对比学习,该模型实现了对新数据的零样本预测。这项工作是未来使用新型范式下的扩散技术进行代码生成的基础,以避免自回归的局限性。
arXiv:2404.18074v3 宣传类型: 更改
摘要: 与个人电脑应用交互的大规模语言模型代理往往因其与现实环境交互方式的单一性而受到限制,导致其实用性受限和频繁出现幻觉。为了解决这一问题,我们提出了多模态代理协作框架(MMAC-Copilot),该框架利用多样代理的集体专业知识来增强与应用的交互能力。该框架引入了一种团队协作链,使每个参与的代理能够根据其特定领域的专业知识贡献见解,有效减少由于知识领域差距引起的幻觉。我们使用GAIA基准和我们新引入的视觉交互基准(VIBench)评估了MMAC-Copilot。MMAC-Copilot在GAIA上的表现尤为出色,与现有领先系统相比,平均改进了6.8%。VIBench专注于跨不同领域的非API可交互应用程序,包括3D游戏、娱乐和办公室场景。它也在VIBench上展示了出色的性能。我们希望这项工作能为这一领域提供灵感,并提供对自主代理更加全面的评估。匿名GitHub代码库可在https://anonymous.4open.science/r/ComputerAgentWithVision-3C12访问。
arXiv:2401.07115v3 宣告类型: 替换
摘要: 在大型语言模型(LLMs)中出现类似人类行为的趋势,引发了自然语言处理(NLP)和人类心理学之间的更紧密联系。学者们一直在研究LLMs展现出的固有个性,并试图将人类特质和行为融入其中。然而,这些努力主要集中在商业许可的LLMs上,忽视了开放LLMs的广泛使用和显著进步。本文旨在通过采用基于最具代表性的开放模型的一组12个LLM代理,并将它们置于Myers-Briggs类型指标(MBTI)测试和大五人格量表(BFI)测试的一系列评估中来填补这一空白。我们的方法涉及评估开放LLM代理的内在人格特质,并确定在特定人格和角色条件下,这些代理模仿人类个性的程度。我们的发现揭示了:(i) 每个开放LLM代理展现出不同的人类个性;(ii) 依据人格进行提示会产生不同的效果,仅少数代理能够成功模仿施加的人格,而大多数代理仍“闭关自守”(即,它们保留了其固有的特质);(iii) 结合角色和人格条件可以增强代理模仿人类个性的能力。我们的工作代表了通过开放LLMs的视角理解NLP和人类心理学之间密不可分关系的一个进步。
arXiv:2311.13811v3 公告类型: 替换
摘要: 本文介绍了一种新的知识蒸馏方法,称为教育蒸馏(ED),这是受到人类学习的结构化和渐进性启发而提出的。ED 模拟了从小学到中学再到大学的教育阶段,并设计了教学参考模块。学生模型被拆分为主体和多个教学参考模块,逐步从教师那里学习。这种方法在保持学生模型结构的同时,促进高效的知识蒸馏。在CIFAR100、Tiny Imagenet、Caltech和Food-101数据集上的实验结果显示,教学参考模块能够有效避免遗忘问题。与传统的单教师和多教师知识蒸馏方法相比,ED 显著提高了学生模型的准确性和泛化能力。这些发现突出了ED在不同架构和数据集上提高模型性能的潜力,表明其在各种深度学习场景中的价值。有关代码示例可以访问:https://github.com/Revolutioner1/ED.git。
arXiv:2308.07332v2 更新通知类型: 替换
摘要: 在本文中,我们探讨了Notation3逻辑(N3),这是一种扩展了RDF的语法规则,使得用户能够为RDF图引入新的空白节点。这一能力在各种应用中至关重要,尤其是在本体映射方面,因为空白节点(无论是直接还是在辅助构造中)在Web上无处不在。然而,支持空白节点引入的快速N3推理器仍然相对有限。相反,像VLog或Nemo这样的引擎,尽管不是特别为语义网规则格式设计的,但它们可以处理类似的构造,即存在规则。
我们研究了带有空白节点头部的N3规则与其存在规则之间的关联。我们确定了一部分N3规则,可以无缝转换为存在规则,并建立了保留N3公式等价性的映射。为了展示这一转换在N3推理中的潜在好处,我们实现了这一映射,并将EYE和cwm等N3推理器与VLog和Nemo进行比较,分别对比它们处理原生N3规则和转换后的规则的性能。我们的发现表明,存在规则推理器在事实丰富的情况下表现出色,而EYE推理器在处理大量依赖规则时表现出极高的速度。
除了原始会议版本的文章外,我们还包含了定理的所有证明,并引入了一节新的内容,专门讨论N3列表(具有内置函数)及其如何在存在规则中实现。添加列表到我们的转换/框架中,给我们提供了关于相关设计决策如何影响N3标准化的有趣见解。
arXiv:2303.12032v2 通知类型: 替换
摘要:本文旨在澄清深度学习模型(DLMs)的表现形式状态。虽然通常被称为“表现形式”,但由于将功能性表现形式和关系性表现形式的概念混为一谈,这一点的含义是模糊的。本文认为,尽管DLMs在关系意义上表现其目标,但总体而言,我们没有充分的理由相信DLMs编码了其目标的局部语义可分解表现形式。也就是说,这些模型的表现形式能力主要是全球性的,而不是可以分解为稳定、局部子表现形式的。这一结果对可解释人工智能(XAI)有直接的影响,并将人们的注意力引导到探索深度学习表现形式的全局关系性质及其与更广泛模型的关系,从而更好地理解它们在未来科学研究中的潜在作用。
arXiv:2503.18945v1 宣告类型: cross
摘要: 在开发能够进行类人类空间推理的AI系统时,几何重建与生成建模的融合仍然是一项关键挑战。本文提出Aether,一种统一框架,通过联合优化三种核心能力,实现了世界模型中的几何感知推理:(1) 4D动态重建,(2) 动作条件下的视频预测,以及(3) 目标条件下的视觉规划。通过任务交错特征学习,Aether实现了重建、预测和规划目标之间的协同知识共享。基于视频生成模型,我们的框架在训练过程中从未观察到真实世界数据的情况下,实现了前所未有的合成到真实世界的泛化能力。此外,由于其内在的几何建模能力,我们的方法在行动跟随和重建任务中实现了零样本泛化。令人惊讶的是,即使没有真实世界的数据,其重建性能也远远超过了领域特定的模型。此外,Aether利用了一个几何信息指导的动作空间,使得预测能够无缝地转化为动作,从而使自主轨迹规划得以有效实现。我们希望我们的工作能够激励社区探索物理合理的世界建模及其应用的新前沿。
arXiv:2503.18942v1 类型: cross
摘要:随着训练数据、模型规模和计算成本的增加,视频生成在数字创作中取得了令人印象深刻的成果,使用户能够在各个领域表达创造力。最近,大语言模型(LLMs)的研究人员将扩展范围扩展到了测试时间,这可以通过更多的推理时间计算来显著提高LLM的性能。我们不通过昂贵的训练成本来扩大视频基础模型的规模,而是探索了视频生成中的测试时间缩放(TTS)的能力,旨在回答这个问题:如果一个视频生成模型能够在推理时间使用非平凡数量的计算,给定一个具有挑战性的文本提示,它可以提高多少生成质量。在这项工作中,我们将视频生成的测试时间缩放重新解释为一个搜索问题,在高斯噪声空间中从噪声到目标视频分布采样更好的轨迹。具体而言,我们构建了带有测试时间验证器的搜索空间,以提供反馈,并设计启发式算法来指导搜索过程。给定一个文本提示,我们首先探索了一个直观的线性搜索策略,通过在推理时间增加噪声候选者。由于同时对所有帧进行全步骤去噪需要大量的测试时间计算成本,我们进一步设计了一种更高效的视频生成TTS方法,称为帧树(ToF),该方法以自回归方式适当地扩展和修剪视频分支。在针对文本条件视频生成的广泛基准上进行的实验表明,增加测试时间的计算始终会导致视频质量的显著提高。项目页面:https://liuff19.github.io/Video-T1
arXiv:2503.18892v1 宣告类型: cross
摘要: DeepSeek-R1 已经展示了,通过基于规则的奖励简单强化学习 (RL) 框架,长链思考 (CoT) 推理可以自然地出现,而训练可能直接从基础模型开始,这就是所谓的零 RL 训练。最近在重现零 RL 训练的努力中,主要集中在 Qwen2.5 模型系列上,这可能不够代表,因为我们的研究表明,基础模型本身已经表现出强烈的操作指令和自我反思的能力。在本工作中,我们研究了跨越10个不同基础模型的零 RL 训练,这些基础模型涵盖了不同的家庭和大小,包括LLama3-8B、Mistral-7B/24B、DeepSeek-Math-7B、Qwen2.5-math-7B以及所有从0.5B到32B的所有Qwen2.5模型。通过采用几种关键设计策略,如调整格式奖励和控制查询难度,我们在多数设置中实现了推理准确性和响应长度的显著改进。然而,通过仔细监测训练动态,我们观察到不同的基础模型在训练期间表现出不同的模式。例如,增加的响应长度并不总是与某些认知行为(即“恍然大悟”或“啊哈时刻”)的出现相关。值得注意的是,我们在来自Qwen家族的小模型中首次观察到“恍然大悟”的现象。我们分享了使零 RL 训练成功的关键设计,同时分享了我们的发现和实践经验。为促进进一步的研究,我们开源了代码、模型和分析工具。