arXiv 论文列表

作者: Colin Samplawski, Adam D. Cobb, Susmit Jha

arXiv:2504.08981v1 公告类型：交叉摘要：计算机辅助设计（CAD）是新兴人工智能方法的一个有前途的应用领域。传统的以网络物理系统为中心的工作流程创建了详细的数字模型，这些模型可以在物理模拟器中进行评估，以缩小搜索空间，然后创建物理原型。这一方法的一个主要瓶颈是，模拟器通常计算成本高昂且运行速度慢。最近的人工智能方法的发展为加速这些流程提供了可能性。我们使用了最近发布的AircraftVerse数据集，该数据集特别适用于开发和评估用于设计的大规模语言模型。AircraftVerse包含了通过文本设计树表示的多样化的无人机设计，以及详细的物理模拟结果。紧跟大规模语言模型（LLMs）的近期成功，我们提出了AGENT（Aircraft GENeraTor）。AGENT是一个基于CodeT5+ LLM的综合设计工具，直接从JSON文件中学习飞机文本设计的强大表示。我们开发了一系列训练任务，赋予单个模型一系列有用的功能。AGENT能够根据飞行动力学属性（悬停时间、最大速度等）生成设计。此外，AGENT能够对设计进行评价，使其能够作为底层支撑AircraftVerse数据集的物理模拟的代理模型。我们进行了一系列实验，展示了我们系统的功能。我们使用CodeT5+大家族中最小的成员（参数量为220M）实现了良好的性能。这使得该系统具有灵活性和强大性，可以在单个GPU上执行，为未来部署提供了清晰的道路。

发布时间: 4/15/2025

查看原文

大规模评估嵌入模型在知识图谱完成中的性能

作者: Nasim Shirvani-Mahdavi, Farahnaz Akrami, Chengkai Li

arXiv:2504.08970v1 宣告类型: cross 摘要: 知识图嵌入（KGE）模型在知识图完成方面得到了广泛研究，但其评估仍然受到不现实基准的限制。常用的数据集要么有误，要么太小，无法反映真实世界的数据。很少有研究探讨调解节点的作用，这些节点对于建模n元关系至关重要，或者考察模型在不同领域的性能变化。常用评估指标依赖于闭世界假设，该假设因正确预测缺失三元组而惩罚模型，这与链接预测的基本目标相矛盾。这些指标通常将准确性评估压缩为单一数值，掩盖了模型的特定优点和弱点。当前的评估协议在不现实的假设下进行操作，即实体的属性值，对于这些值需要进行预测，在预测之前就已经知晓。虽然属性预测、实体对排名和三元组分类等替代协议解决了一些这些限制，但它们仍然未充分利用。本文在大规模数据集FB-CVT-REV和FB+CVT-REV上全面评估了四种代表性的KGE模型。我们的分析揭示了关键洞察，包括小型和大型数据集之间显著的性能差异，无论是在相对排名还是绝对指标上，当n元关系被二元化时，系统性地高估了模型的能力，以及当前评估协议和指标的基本局限性。

发布时间: 4/15/2025

查看原文

MotionDreamer：带局部生成遮罩变换器的一对多运动合成

作者: Yilin Wang, Chuan Guo, Yuxuan Mu, Muhammad Gohar Javed, Xinxin Zuo, Juwei Lu, Hai Jiang, Li Cheng

arXiv:2504.08959v1 Announce Type: cross 摘要：生成性蒙罩变压器在各种内容生成任务中已经证明了其卓越的成功，主要归功于它们能够高效地建模大规模数据集分布，保持高度的一致性。然而，在动画领域，大规模数据集并不总是可用的。将生成性蒙罩建模应用于从单个MoCap参考生成多样性实例可能会导致过拟合，这是一个尚未解决的挑战。在本文中，我们提出了MotionDreamer，一种设计用于从具有任意拓扑和持续时间的给定运动中学习局部运动模式的局部蒙罩建模范式。通过使用新颖的分布正则化方法将给定的运动嵌入量化token中，MotionDreamer构建了一个稳健且富有信息性的代码本，用于局部运动模式。此外，我们引入了滑动窗口局部注意力机制，在蒙罩变压器中，这使得能够生成自然且多样化的动画，这些动画与参考运动模式高度相似。通过全面的实验展示，MotionDreamer在贴切性和多样性方面均超过了典型的基于GAN或扩散的方法。得益于以量化为基础的方法的稳定性和稳健性，MotionDreamer还可以有效执行下游任务，如时间运动编辑、\textcolor{update}{人群动画}和节奏对齐的舞蹈生成，所有这些任务都可以使用一个参考运动。访问我们的项目页面：https://motiondreamer.github.io/

发布时间: 4/15/2025

查看原文

使用大语言模型为开放式编程练习生成规划反馈

作者: Mehmet Arif Demirta\c{s}, Claire Zheng, Max Fowler, Kathryn Cunningham

arXiv:2504.08958v1 宣告类型: cross 摘要: 为了完成一个开放式的编程练习，学生们不仅需要规划高层次的解决方案，还需要使用适当的语法实现它。然而，这些问题通常通过测验案例来评估最终提交的正确性，学生无法获得其规划过程的反馈。大型语言模型（LLM）可能能够通过检测代码的整体结构（即使代码存在语法错误）来生成这种反馈。为此，我们提出了一种方法，使用LLM来检测学生程序中存在的高层次目标和模式（即编程计划）。我们展示了完整的大规模预训练模型GPT-4o及其小变体（GPT-4o-mini）都能以惊人的准确性检测这些计划，超过了基于传统代码分析方法的基线模型。我们进一步展示了，经过微调后，较小、成本效益更高的变体（GPT-4o-mini）能达到目前最先进的结果（GPT-4o），为更小模型在实时评分中的应用创造了前景。这些较小的模型可以集成到开放式的代码编写练习的自动评分系统中，即使程序存在语法错误，也可以为学生的隐式规划技能提供反馈。此外，大型语言模型可能在其他领域的问题中也很有用，在这些领域中，学生从一组高层次的解决方案步骤开始，逐步计算输出，例如数学和物理问题。

发布时间: 4/15/2025

查看原文

使用外生变量的上下文ES-adRNN加密货币价格预测

作者: Slawek Smyl, Grzegorz Dudek, Pawe{\l} Pe{\l}ka

arXiv:2504.08947v1 交叉公告类型: 摘要: 在本文中，我们提出了一种使用结合指数平滑(ES)和递归神经网络(RNN)的混合上下文模型来预测加密货币价格的新方法。该模型由两条轨道组成：上下文轨道和主轨道。上下文轨道为主轨道提供额外的信息，这些信息是从代表性时间序列中提取出来的。上下文轨道提供的信息以及从外生变量中提取的信息会动态调整以适应主要轨道所预测的个体时间序列。通过集成近年来开发的注意力扩张递归单元，该模型具有分层扩张的RNN堆叠架构，能够捕捉跨时间序列的短期和长期依赖关系，并动态加权输入信息。该模型生成了一天、一周和四周展望期的点每日预测和预测区间。我们使用该模型基于17个输入变量预测15种加密货币的价格，并将其性能与其对比模型进行比较，包括统计和机器学习模型。

发布时间: 4/15/2025

查看原文

深入探讨深度 reinforcement learning 中的危险转弯

作者: Chace Ashcraft, Kiran Karra, Josh Carney, Nathan Drenkow

arXiv:2504.08943v1 宣告类型: cross 摘要："背叛的转折"指的是人工智能 (AI) 代理通过一种微妙的、也许是有意为之的方式，学习执行一种有利于自身的行为，但这种行为被视作对人类监督者有害且不可接受。在训练过程中，代理按照人类监督者的期望行事，但在部署执行任务时，在监督者无法阻止的情况下，它会执行另一种行为。初始实验将强化学习应用于一个《塞尔达传说：时光之笛》示例的实现中，并未自然产生背叛的转折现象，尽管对环境进行了各种修改以试图产生其效果。然而，在这项工作中，我们发现使用其他木马注入策略可以在强化学习代理中重现背叛行为。这种方法与典型的背叛的转折行为有所不同，因为这种行为是明确地在代理中进行训练的，而不是由环境复杂性或目标描述不准确导致的意外后果。尽管如此，这些实验为产生真正具备背叛转折行为的代理所面临的挑战提供了新的见解。

发布时间: 4/15/2025

查看原文

AgentRewardBench：评估对Web代理轨迹的自动评价方法

作者: Xing Han L\`u, Amirhossein Kazemnejad, Nicholas Meade, Arkil Patel, Dongchan Shin, Alejandra Zambrano, Karolina Sta\'nczak, Peter Shaw, Christopher J. Pal, Siva Reddy

arXiv:2504.08942v1 类型: cross 摘要: 网页代理使用户能够通过自然语言交互在网页浏览器中执行任务。评估网页代理的轨迹是一个重要的问题，因为它有助于我们确定代理是否成功完成了任务。基于规则的方法广泛用于这一目的，但它们难以扩展到新任务，可能不一定总是能够识别成功的轨迹。我们可能通过人工评估获得更高的准确性，但过程会显著减慢并增加成本。使用大语言模型（LLM）的自动评估可以避免设计新规则和手动标注轨迹的挑战，从而实现更快、成本更低的评估。然而，对于评估网页代理的有效性尚不清楚。为了解决这一问题，我们提出了AgentRewardBench，这是首个评估大语言模型法官评估网页代理有效性基准。AgentRewardBench包含了5个基准和4个大语言模型中的1302个轨迹。AgentRewardBench中的每个轨迹都由专家审核，专家回答关于代理成功、副作用和重复性的问题。使用我们的基准，我们评估了12个大语言模型法官，发现没有任何一个大语言模型在所有基准上都表现出色。我们还发现，通用基准使用的基于规则的评估倾向于低估代理的成功率，这突显了基于规则的评估的一个关键弱点，并强调了开发更灵活的自动评估的重要性。我们在此发布了基准：https://agent-reward-bench.github.io

发布时间: 4/15/2025

查看原文

使用元学习结合预测：复杂季节性趋势的比较研究

作者: Grzegorz Dudek

arXiv:2504.08940v1 交叉类型公告摘要：在这篇论文中，我们研究了不同类型的模型生成的预测结合的元学习方法。虽然将预测结合的典型方法涉及简单的平均值，但机器学习技术通过元学习使结合方法更加复杂化，从而提高了预测准确性。我们使用线性回归、$k$-近邻、多层感知机、随机森林和长短期记忆网络作为元学习器。我们定义了适用于复杂季节性的时序的全局和局部元学习变体，并在多个预测问题上对元学习器进行了比较，展示了它们相比简单平均值的优越性能。

发布时间: 4/15/2025

查看原文

长上下文在域内的压缩通过提炼本质

作者: Aleksandar Petrov, Mark Sandler, Andrey Zhmoginov, Nolan Miller, Max Vladymyrov

arXiv:2504.08934v1 Announce Type: cross 摘要：长上下文处理对于大语言模型（LLM）的采用至关重要，但现有方法往往引入了架构上的复杂性，这妨碍了它们的实用采用。Gisting 是一种无需修改解码器变换器架构的上下文内压缩方法，由于其简单性和与现有框架的兼容性，它是一种有前途的方法。虽然在短指令方面有效，但我们发现 gisting 在长上下文方面存在困难，即使在最小压缩率下也会出现显著性能下降。令人惊讶的是，一个简单的平均池化基线在所有情况下都优于 gisting。我们分析了 gisting 的局限性，包括信息流中断、容量限制以及无法将注意力限制在上下文的子集上。受 gisting 与平均池化之间性能差距的理论见解以及大量实验的驱动，我们提出了 GistPool，一种新的上下文内压缩方法。GistPool 保留了 gisting 的简单性，同时显著提升了其在长上下文压缩任务中的性能。

发布时间: 4/15/2025

查看原文

连续逻辑中的一致性法则和具有有限域的连续结构

作者: Vera Koponen

arXiv:2504.08923v1 跨领域公告类型摘要：我们考虑域为有限集 $[n] := \{1, \ldots, n\}$ 的连续关系结构以及在单位区间取值的多值逻辑 $CLA$，该逻辑使用连续联结词和连续聚合函数。$CLA$ 包含在“传统”有限结构上的一阶逻辑。对于每个关系符号 $R$ 和符合 $R$ 的元数的元组身份约束 $ic$，我们关联一个连续概率密度函数 $\mu_R^{ic} : [0, 1] \to [0, \infty)$。我们还考虑在具有域 $[n]$ 的连续结构集合 $\mathbf{W}_n$ 上的概率分布，使得对于每个关系符号 $R$、身份约束 $ic$ 和满足 $ic$ 的元组 $\bar{a}$，$R(\bar{a})$ 的分布由 $\mu_R^{ic}$ 给出，且与其他关系符号或元组的值无关。在上述设置中，我们证明了 $CLA$ 中的每个公式在渐近意义上等价于不含任何聚合函数的公式。这一结果用于证明 $CLA$ 的收敛定律，对于不含自由变量的公式而言，如果 $\varphi \in CLA$ 且不含自由变量，$I \subseteq [0, 1]$ 是一个区间，那么存在 $\alpha \in [0, 1]$，当 $n$ 趋于无穷时，$\varphi$ 的值落在 $I$ 内的概率趋于 $\alpha$。

发布时间: 4/15/2025

查看原文