arXiv 论文列表

作者: Iurii Kemaev, Dan A Calian, Luisa M Zintgraf, Gregory Farquhar, Hado van Hasselt

arXiv:2505.00793v1 通知类型: cross 摘要: 基于梯度的 bilevel 优化是一种强大的技术，应用于超参数优化、任务适配、算法发现、更广泛的元学习以及其他领域。这种方法经常需要通过梯度优化过程本身进行梯度求导，导致需要计算“梯度的梯度”计算，包括计算成本高昂的二阶和混合导数。虽然现代自动微分库提供了一种方便的方式来编写计算这些导数的程序，但它们通常无法开箱即用地充分利用这些问题的特定结构，导致性能不佳。在本文中，我们分析了这些情况，并提出了一种名为 Mixed-Flow Meta-Gradients（或 MixFlow-MG）的实用算法，该算法使用混合模式微分来构建更高效的可扩展计算图，在现代元学习设置中，与标准实现相比，内存使用量提高了10倍以上， wall-clock 时间减少了高达25%。

发布时间: 5/5/2025

查看原文

构造最优行为基底以优化选项键盘

作者: Lucas N. Alegre, Ana L. C. Bazzan, Andr\'e Barreto, Bruno C. da Silva

arXiv:2505.00787v1 宣称类型: cross 摘要: 多任务强化学习旨在通过最少或无需额外环境交互来快速识别新任务的解决方案。通用策略改进(GPI)通过组合一组基策略来生成一个新的策略，该新策略至少与任何一个基策略一样好，尽管不一定是最优的。特别在线性奖励的情况下，可以通过计算凸覆盖集(CCS)的方法来确保最优性。然而，这些方法计算成本高昂且难以扩展到复杂领域。选项键盘(OK)改进了GPI，通过生成至少与任何一个基策略一样好、甚至更好的策略。这通过一个通过学习的元策略动态组合基策略来实现。然而，其性能严重依赖于基策略的选择。这引发了一个关键问题：是否存在一个最优的基策略集——最优行为基——使得对于任何线性任务都能零样本识别出最优解决方案？我们通过引入一种新的方法解决了这个问题，该方法高效地构建了这样一个最优行为基。我们展示了这种方法在新的任务中确保最优性时所需的基本策略数量大幅减少。我们还证明，它比CCS更具有表达能力，使得特定类型的非线性任务能够被最优地解决。我们在具有挑战性的领域中实验性地评估了该技术，并展示了与现有最佳方法相比，其表现更优，并且随着任务复杂度的增加，这种优势更加明显。

发布时间: 5/5/2025

查看原文

多模态语言模型作为文本到图像模型评估器

作者: Jiahui Chen, Candace Ross, Reyhane Askari-Hemmat, Koustuv Sinha, Melissa Hall, Michal Drozdzal, Adriana Romero-Soriano

arXiv:2505.00759v1 声称类型: cross 摘要：文本到图像（T2I）生成模型的持续改进导致依赖静态数据集的自动评估基准逐渐被淘汰，这促使研究人员寻找评估T2I进展的替代方法。在本文中，我们探讨了多模态大型语言模型（MLLMs）作为与T2I模型交互的评估代理的潜力，旨在评估提示生成一致性和图像美学。我们提出了多模态文本到图像评估（MT2IE）评估框架，该框架迭代生成用于评估的提示，对生成的图像进行评分，并使用现有基准中所使用的提示的分数之一与现有静态基准的T2I评估匹配。此外，我们展示了MT2IE的提示生成一致性评分与文献中引入的先前评分相比，与人类判断的相关性更高。MT2IE生成的提示能够在有效探测T2I模型性能的同时，仅使用现有基准分数的1/80就产生了相同的相对T2I模型排名。

发布时间: 5/5/2025

查看原文

Hailo-8上高效实现基于4D雷达的3D物体检测

作者: Woong-Chan Byun, Dong-Hee Paek, Seung-Hyun Song, Seung-Hyun Kong

arXiv:2505.00757v1 交叉公告类型摘要：由于其在恶劣天气条件下实现稳健的3D物体检测的能力，4D雷达在自动驾驶领域引起了广泛关注。为了在低功耗嵌入式环境中实际部署此类技术，实现实时处理是至关重要的。为了解决这一问题，我们在Hailo-8L AI加速器上首次提出了基于4D雷达的3D物体检测模型的片上实现。尽管传统的3D卷积神经网络（CNN）架构需要5D输入，而Hailo-8L仅支持4D张量，这构成了一个重大挑战。为克服这一限制，我们介绍了一种在编译过程中将5D输入重新塑形为4D格式的张量转换方法，从而可以在不改变模型结构的情况下实现直接部署。所提出系统实现了46.47%的AP_3D和52.75%的AP_BEV，同时保持与基于GPU的模型相当的准确性，推理速度达到13.76 Hz。这些结果表明，基于4D雷达的感知技术可以应用于自动驾驶系统。

发布时间: 5/5/2025

查看原文

P2P-Insole：基于足压分布和运动传感器的人体姿态估计

作者: Atsuya Watanabe, Ratna Aisuwarya, Lei Jing

arXiv:2505.00755v1 交叉类型: P2P-Insole 摘要: 本文介绍了一种基于脚垫传感器的低成本方法，该方法利用与IMU集成的鞋垫式传感器估计和可视化3D人体骨骼数据。每个脚垫使用电子纺织品技术制造，成本低于1美元，使其比商业替代品更便宜，并且适用于大规模生产。我们的方法通过利用足底压力分布、加速度和旋转数据来克服限制，提供了一种轻量级、侵入性小且注重隐私的解决方案。该系统采用Transformer模型进行高效的时序特征提取，输入流中包含一阶和二阶导数的信息。通过包括多模态信息，如加速度计和旋转测量，提高了复杂运动模式识别的准确性。这些事实已在实验中得到验证，而误差指标则展示了该方法在各种姿态估计任务中的鲁棒性。此项工作可能成为康复、伤预防和健康监测等低成本、实用应用的基础，同时也为传感器优化和扩展数据集提供了进一步发展的可能性。

发布时间: 5/5/2025

查看原文

DARTer：动态适应表示跟踪器，用于夜间无人机跟踪

作者: Xuzhao Li, Xuchen Li, Shiyu Hu

arXiv:2505.00752v1 交叉公告类型：跨领域摘要：夜间无人机跟踪由于极端光照变化和视角变化带来了巨大挑战，严重削弱了跟踪性能。现有方法要么依赖于高计算成本的光照增强器，要么引入冗余领域适应机制，未能充分利用变化视角中的动态特征。为解决这些问题，我们提出了一种名为\textbf{DARTer}（\textbf{D}ynamic \textbf{A}daptive \textbf{R}epresentation \textbf{T}racker）的端到端跟踪框架，专门适用于夜间无人机场景。DARTer 利用动态特征混合器（DFB）有效地融合静态和动态模板的多视角夜间特征，增强了表示的鲁棒性。同时，动态特征激活器（DFA）根据提取出的特征自适应地激活Vision Transformer层，极大地提高了效率，减少了冗余计算。我们的模型消除了复杂的多任务损失函数的需要，从而简化了训练过程。多项夜间无人机跟踪基准测试的实验结果表明，DARTer 在最先进的跟踪器中表现更优。这些结果证实了DARTer 能够有效平衡跟踪精度和效率，使其成为实际夜间无人机跟踪应用的有前途的解决方案。

发布时间: 5/5/2025

查看原文

珊瑚协议：连接智能代理互联网的开放基础设施

作者: Roman J. Georgio, Caelum Forder, Suman Deb, Peter Carroll, \"Onder G\"urcan

arXiv:2505.00749v1 宣告类型: cross 摘要：Coral 协议是一个开放的去中心化协作基础设施，使通信、协调、信任和支付成为代理互联网（IoA）的一部分成为可能。它解决了一个日益增长的需求，即在组织部署多个专门的AI代理时，这些代理必须跨领域和供应商合作。作为多代理AI生态系统的基础平台，Coral 建立了一个通用的语言和协调框架，使任何代理都能够与其他代理一起高效地参与复杂的流程工作。其设计强调广泛的兼容性、安全性和供应商中立性，确保代理交互是高效且可信赖的。特别地，Coral 引入了标准化的消息格式用于代理通信、模块化的协调机制用于 orchestrating 多代理任务，以及安全的团队形成能力以动态组建信任小组的代理。这些创新共同将 Coral 协议定位为新兴“代理互联网”的基石，通过开放代理协作，解锁新的自动化、集体智能和商业价值水平。

发布时间: 5/5/2025

查看原文

Zoomer: 适应性图像聚焦优化用于黑盒MLLM

作者: Jiaxu Qian, Chendong Wang, Yifan Yang, Chaoyun Zhang, Huiqiang Jiang, Xufang Luo, Yu Kang, Qingwei Lin, Anlan Zhang, Shiqi Jiang, Ting Cao, Tianjun Mao, Suman Banerjee, Guyue Liu, Saravan Rajmohan, Dongmei Zhang, Yuqing Yang, Qi Zhang, Lili Qiu

arXiv:2505.00742v1 Announce Type: cross 摘要：近期多模态大型语言模型（MLLMs）的发展扩展了视觉-语言任务的应用范围，在像图像字幕和交互式问答等应用中表现出色。然而，这些模型在准确处理视觉数据方面存在问题，特别是在需要精确物体识别和细微视觉细节的任务中表现不佳。严格的标记限制常常导致关键信息的遗漏，影响性能。为了解决这些问题，我们引入了** SysName **，这是一种新颖的视觉提示机制，旨在在保持标记限制内关键视觉细节的同时增强MLLM的性能。** SysName** 拥有三个关键创新：一个提示感知的策略，能够动态突出显示相关图像区域；一个空间保持的协调方案，能够保持物体的完整性；以及一种预算感知的提示方法，能够在全局背景与关键视觉细节之间取得平衡。在多个数据集上的全面评估表明，** SysName** 一致地优于基线方法，在准确性上最多可提高26.9%，同时显著减少标记消耗。

发布时间: 5/5/2025

查看原文

植物表型中的3D重建技术综述：从经典方法到神经辐射场（NeRF）、3D高斯点云（3DGS）及其他技术

作者: Jiajia Li, Xinda Qi, Seyed Hamidreza Nabaei, Meiqi Liu, Dong Chen, Xin Zhang, Xunyuan Yin, Zhaojian Li

arXiv:2505.00737v1 交叉型公告摘要：植物表型分析在理解植物特性和它们与环境的相互作用方面发挥着关键作用，对于推进精准农业和作物改良至关重要。3D重建技术已成为捕捉植物形态和结构详细信息的强大工具，为准确和自动化的表型分析提供了巨大潜力。本文提供了一种综合性的3D重建技术在植物表型分析中的回顾，涵盖了经典重建方法、新兴的神经辐射场（NeRF）以及新颖的3D高斯聚集（3DGS）方法。经典的重建方法通常依赖于高分辨率传感器，由于其简单性和在表示植物结构方面的灵活性，这些方法被广泛采用。然而，它们面临着数据密度、噪声和可扩展性等挑战。NeRF 是一项近期的进展，能够从稀疏视角生成高质量、逼真的3D重建，但是在室外环境中的适用性和计算成本仍然是研究的热点。新兴的3DGS技术通过使用高斯原语表示几何结构，引入了一种新的建模方式，具有在效率和可扩展性方面提供潜在益处的前景。我们回顾了这些方法在植物表型分析中的方法、应用和性能，并讨论了它们各自的优势、限制及其未来前景（https://github.com/JiajiaLi04/3D-Reconstruction-Plants）。通过这篇综述，我们旨在提供见解，说明这些多样化的3D重建技术如何能够有效地应用于自动化和高通量植物表型分析，为下一代农业技术做出贡献。

发布时间: 5/5/2025

查看原文

TF1-EN-3M: 用于训练小型开放语言模型的三百万 synthetic 道德寓言

作者: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu

arXiv:2504.20605v1 宣告类型: 交叉摘要：道德故事是传承价值观的传统载体，但现代NLP缺乏一个大型且结构化的语料库，能够将连贯的叙事与明确的道德教训相结合。我们通过TF1-EN-3M弥补了这个缺口，这是首个开放的数据集，包含了三百万篇英语寓言，这些寓言完全由不超过80亿参数的指令微调模型生成。每篇故事遵循六槽结构（角色 -> 特质 -> 场景 -> 冲突 -> 解决方案 -> 道德教训），通过一个组合提示引擎保证了文体一致性和广泛的主题覆盖范围。一种混合评估流水线结合了(i)一个基于GPT的批判者，用于评估语法、创造力、道德清晰度和模板一致性，以及(ii)无参考多样性和可读性指标。在十款开放加权候选模型中，80亿参数的Llama-3变体提供了最佳的质量-速度权衡，可以在单个消费者级GPU（约24GB显存）上生成高评分寓言，每千篇寓言成本约为13.5美分。我们以宽松的许可证发布了数据集、生成代码、评估脚本和完整元数据，确保可完全重现并进行成本基准测试。TF1-EN-3M为指令跟随、叙事智能、价值观对齐以及儿童友好的教育AI研究开辟了途径，证明了大规模道德叙事故事不再需要专有的巨无霸模型。

发布时间: 5/5/2025

查看原文