arXiv 论文列表

作者: Celal Ziftci, Stoyan Nikolov, Anna Sj\"ovall, Bo Kim, Daniele Codecasa, Max Kim

arXiv:2504.09691v1类型：Cross 摘要：开发人员经常通过内部更改来进化现有的软件系统，称为迁移。切换到新的框架、改进实现以提高效率、以及将依赖项升级到最新版本都是迁移的例子。迁移是通常连续进行的手动或通过工具进行的维护任务。某些迁移工作量大且成本高昂，开发人员发现这些工作缺乏成就感，可能需要花费数年时间才能完成。因此，自动化对于这种迁移更为优选。在本文中，我们讨论了在Google进行的一个大型、昂贵且传统的手动迁移项目，提出了一种新的自动化算法，该算法利用变更位置发现和大型语言模型（LLM）来帮助开发人员进行迁移，报告了大规模案例研究的结果，并讨论了所学到的教训。我们的案例研究涉及三位开发人员在十二个月内进行的39次不同的迁移，结果显示提交了总计595次代码更改和93,574次编辑，其中74.45%的代码更改和69.46%的编辑是由LLM生成的。开发人员对自动化工具的满意度很高，并估计相比之前的手动迁移，迁移所花费的总时间减少了50%。我们的结果显示，我们的自动化、LLM辅助的工作流可以作为类似倡议的模型。

发布时间: 4/15/2025

查看原文

LLM能否革新可解释且高效的TinyML模型设计？

作者: Christophe El Zeinaty, Wassim Hamidouche, Glenn Herrou, Daniel Menard, Merouane Debbah

arXiv:2504.09685v1 交叉公告类型摘要：本文介绍了一种新框架，专门用于为小型机器学习(TinyML)平台设计高效神经网络架构。通过利用大型语言模型(LLMs)进行神经架构搜索(NAS)，基于视觉变压器(ViT)的知识蒸馏(KD)策略以及解释性模块，该方法在准确率、计算效率和内存使用之间达到了最佳平衡。LLM引导的搜索探索了一个分层搜索空间，基于准确率、复数乘法操作(MACS)和内存指标通过帕累托优化细化候选架构。性能最佳的架构进一步通过基于logits的知识蒸馏进行微调，使用预训练的ViT-B/16模型，从而增强泛化能力而不增加模型大小。在CIFAR-100数据集上进行评估并在STM32H7微控制器(MCU)上部署，所提出的三种模型——LMaNet-Elite、LMaNet-Core和QwNet-Core——分别获得了74.50%、74.20%和73.00%的准确率。所有三种模型均超过了当前最先进的(SOTA)模型，如MCUNet-in3/in4（69.62% / 72.86%）和XiNet（72.27%），同时保持了低于100百万MACs的计算成本，并符合严格的320 KB静态随机存取存储器(SRAM)约束。这些结果展示了该框架在TinyML平台上的效率和性能，突显了结合LLM驱动的搜索、帕累托优化、KD和解释性以开发准确、高效和可解释模型的潜力。该方法为NAS开辟了新可能性，使得能够为TinyML设计高效的架构。

发布时间: 4/15/2025

查看原文

SPOT： freight 运输网络中载货 consolidation 的时空模式挖掘与优化

作者: Sikai Cheng, Amira Hijazi, Jeren Konak, Alan Erera, Pascal Van Hentenryck

arXiv:2504.09680v1 宣言类型：交叉摘要：货物集结具有显著的潜力，可以减少运输成本并减轻拥堵和污染。有效的货物集结计划依赖于精心选择的集结点，以确保与现有的运输管理过程（如驾驶员调度、人员规划和终端运营）保持一致。这一复杂性使得寻找最优集结策略成为一个重大的挑战。传统的基于优化的方法提供精确的解决方案，但由于其计算复杂性，在大规模实例中并不实际，且无法有效利用历史数据。基于机器学习的方法解决了这些问题，但常常忽视操作约束，导致不可行的集结计划。本工作提出了一种名为 SPOT 的端到端方法，该方法将机器学习（ML）和优化的优点整合到货物集结中。机器学习组件在规划阶段发挥关键作用，通过时空聚类和受约束的频繁项集挖掘识别集结点，而优化选择给定运营日下的最经济可行的集结路线。在工业货物数据上进行的广泛实验表明，与现有的行业标准货物计划策略以及基于邻域的启发式方法相比，SPOT 显著减少了行驶距离和运输成本（在大型终端上约降低了50%）。此外，机器学习组件提供了有价值的战术级见解，通过识别频繁出现的集结机会指导主动规划。此外，SPOT 计算高效，可以轻松扩展以适应大规模的运输网络。

发布时间: 4/15/2025

查看原文

AgentDynEx：引导多智能体模拟的动力学和机械原理

作者: Jenny Ma, Riya Sahni, Karthik Sreedhar, Lydia B. Chilton

arXiv:2504.09662v1 Announce Type: 多智能体摘要：多智能体大型语言模型模拟有潜力模拟复杂的真人行为和互动。如果机制设置得当，可以揭示出意想不到且有价值的社交动态。然而，在保持显著和新兴动态的同时，一致地执行模拟机制仍然具有挑战性。我们介绍了AgentDynEx，这是一个帮助用户从指定的机制和动态中设置模拟的AI系统。AgentDynEx使用大型语言模型（LLMs）引导用户通过配置矩阵来识别核心机制并定义里程碑以跟踪动态。此外，它引入了一种称为“引导”的方法，系统会动态地反思模拟进度，如果开始偏离预期结果，会温和地干预。一项技术评估表明，与没有引导的模拟相比，引导可以使模拟拥有更复杂的机制并保持其显著动态。我们讨论了作为多智能体模拟机制和动态平衡技术的引导的重要性。

发布时间: 4/15/2025

查看原文

缅甸语 XNLI：构建数据集并探索低资源自然语言推理方法

作者: Aung Kyaw Htet, Mark Dras

arXiv:2504.09645v1 Announce Type: cross 摘要：尽管自然语言处理（NLP）在最近取得了巨大进展，但将大型语言模型（LLM）应用于低资源语言仍然是一个主要挑战。这种挑战在跨语言自然语言推理（XNLI）基准中尤为明显，这是一个关键任务，它展示了跨15种语言的NLP系统的跨语言能力。在这篇论文中，我们将XNLI任务扩展至一个额外的低资源语言——缅语，并将其作为更广泛的低资源语言的代理挑战，并做出了三项核心贡献。首先，我们使用社区众筹方法构建了一个名为缅语XNLI（myXNLI）的数据集，作为现有XNLI语料库的扩展。这个过程包括社区构建的两个阶段，随后是专家验证；通过分析，我们展示了并量化了在低资源语言的社区构建背景下专家验证阶段的价值。我们为未来的研究将myXNLI数据集提供给社区。第二，我们在myXNLI基准上评估了最近的多语言语言模型，并探索了数据扩充方法以提高模型性能。我们使用的数据扩充方法在缅语上的模型准确率提高了2个百分点，同时提高了其他语言的表现。第三，我们研究了这些数据扩充方法在XNLI数据集中其他低资源语言上的泛化能力。

发布时间: 4/15/2025

查看原文

慢思考用于序列推荐

作者: Junjie Zhang, Beichen Zhang, Wenqi Sun, Hongyu Lu, Wayne Xin Zhao, Yu Chen, Ji-Rong Wen

arXiv:2504.09627v1 类别: cross 摘要: 为开发有效的序列推荐系统，提出了一系列方法来建模历史用户行为。尽管这些方法效果显著，但它们都共享快速思考的范式。即，为了进行推荐，这些方法通常将用户的历史交互编码为用户表示，并直接将这些表示与候选项目表示进行匹配。然而，由于传统轻量级推荐模型的容量有限，这种一步推断范式往往导致性能欠佳。为解决这一问题，我们提出了一种新颖的慢思考推荐模型，名为STREAM-Rec。我们的方法能够分析历史用户行为，生成一个多步骤、审慎的推理过程，并最终提供个性化的推荐。特别是在两个关键挑战上集中精力：（1）在推荐系统中识别合适的推理模式，以及（2）探索如何有效地激发传统推荐器的推理能力。为此，我们引入了一个三阶段训练框架。在第一阶段，模型在大规模用户行为数据上进行预训练，以学习行为模式并捕捉长距离依赖。在第二阶段，我们设计了一种迭代推理算法，通过对模型预测进行逐步精炼来标注合适的推理轨迹。然后使用这些标注的数据来微调模型。最后，在第三阶段，我们应用强化学习进一步增强模型的泛化能力。广泛的实验验证了我们提出方法的有效性。

发布时间: 4/15/2025

查看原文

Ges3ViG：将指针手势融入基于语言的3D视觉定位以理解和应用实体参考

作者: Atharv Mahesh Mane, Dulanga Weerakoon, Vigneshwaran Subbaraju, Sougata Sen, Sanjay E. Sarma, Archan Misra

arXiv:2504.09623v1 类型: cross 摘要：3维体素参考理解（3D-ERU）结合了语言描述和伴随的手指指示动作，以识别3D场景中最相关的目标物体。尽管前期研究已经探索了基于语言的3D定位，但对于结合人体手指指示的3D-ERU的研究却相对有限。为了弥补这一缺口，我们引入了一个数据增强框架-Imputer，并利用它通过将人体手指指示纳入仅包含语言指令的现有3D场景数据集中，构建了一个新的基准数据集-ImputeRefer，用于3D-ERU。我们还提出了一种新的3D-ERU模型Ges3ViG，该模型相较于其他的3D-ERU模型在准确性上提高了约30%，相比于其他的基于纯语言的3D定位模型则提高了约9%。我们的代码和数据集可在https://github.com/AtharvMane/Ges3ViG获取。

发布时间: 4/15/2025

查看原文

基于梅塔ropolis-哈特نغ采样游戏：通过去中心化贝叶斯推断融合视线语言模型的知识

作者: Yuta Matsui, Ryosuke Yamaki, Ryo Ueda, Seitaro Shinagawa, Tadahiro Taniguchi

arXiv:2504.09620v1 类别：交叉摘要：我们提出了Metropolis-Hastings图咏（MHCG）方法，这是一种通过互相学习来融合多种视觉-语言模型（VLM）知识的方法。尽管现有结合多个模型的方法会受到推理成本和架构限制的影响，但MHCG通过一个类似语言游戏的过程进行去中心化的贝叶斯推理，从而避免了这些问题。知识融合过程通过交替地为图像进行图咏并从中相互学习建立了两个VLM代理之间的沟通。我们使用两个在不同数据集上进行预训练的VLM进行了两次图像-图咏实验。第一个实验表明，MHCG在免参考评估指标上实现了一致的改进。第二个实验探讨了MHCG如何通过观察生成的图咏中词汇的出现而促进VLMs类别级别词汇的共享。

发布时间: 4/15/2025

查看原文

一种具有改进敏捷性的折翼Flying Squirrel无人机

作者: Dohyeon Lee, Jun-Gill Kang, Soohee Han

arXiv:2504.09609v1 类型: 交叉学科摘要: 与大多数其他航空飞行器一样，由于推力能力有限，无人机在实现灵活飞行时面临固有的劣势。这些物理限制仅靠控制算法的进步无法完全解决。受到滑翔飞鼠的启发，本文提出了一种配备增强机动性折翼的 highly 应变无人机。通过利用 Thrust-Wing Coordination Control (TWCC) 框架下的协作控制，即传统螺旋桨系统与可折叠翼协调控制，操控加速度的范围得以扩展，从而产生 abrupt 垂直力，这是传统无翼无人机无法实现的。可折叠翼的复杂空气动力学特性通过一种物理辅助递归神经网络 (paRNN) 模型来建模，该模型校准攻角 (AOA) 以与翼的真实空气动力学行为对齐。适当部署这些翼片所产生的额外空气阻力显著改善了所提出的“滑翔飞鼠”无人机的跟踪性能。该模型在实际飞行数据上进行训练，并结合平板空气动力学原理。实验结果表明，与传统无翼无人机相比，所提出的滑翔飞鼠无人机在均方根误差 (RMSE) 指标的跟踪性能上提高了 13.1%。演示视频可在 YouTube 上观看：https://youtu.be/O8nrip18azY。

发布时间: 4/15/2025

查看原文

调优大型语言模型以自动化计算流体力学模拟

作者: Zhehao Dong, Zhen Lu, Yue Yang

arXiv:2504.09602v1 类型: 交叉摘要: 配置计算流体力学（CFD）模拟通常需要大量的领域专业知识，限制了其更广泛的使用。尽管大型语言模型（LLMs）已经在科学计算方面取得了进展，但它们在自动化CFD工作流中的应用尚不完善。我们介绍了一种以领域特定的LLM适应为中心的新方法。通过将Qwen2.5-7B-Instruct针对NL2FOAM进行微调，我们使用包含28716个自然语言到OpenFOAM配置对的自定义数据集及其链式思考（CoT）标注，实现了直接从自然语言描述到可执行CFD设置的翻译。一个多元智能代理框架协调整个过程，自主验证输入、生成配置、运行模拟并纠正错误。在包含21个多样流动案例的基准测试中，展示了最先进的性能，解决方案精度达到88.7%，初次尝试成功率达到82.6%。这远远优于更大且通用的模型如Qwen2.5-72B-Instruct、DeepSeek-R1和Llama3.3-70B-Instruct，同时需要更少的纠正迭代次数，并保持了高计算效率。结果强调了在部署LLM助手进行复杂工程工作流时领域特定适应的至关重要的作用。

发布时间: 4/15/2025

查看原文