arXiv 论文列表

波博戈特——一种用于群机器人技术的开源硬件低成本机器人

作者: Alessia Loi, Loona Macabre, J\'er\'emy Fersula, Keivan Amini, Leo Cazenille, Fabien Caura, Alexandre Guerre, St\'ephane Gourichon, Olivier Dauchot, Nicolas Bredeche

arXiv:2504.08686v1 类型: cross 摘要：本文描述了Pogobot，一个专为群机器人研究设计的开源和开放硬件平台。Pogobot的特点是在低成本（每台约250欧元）的封装中拥有振动驱动的移动、红外通信和一系列传感器。该平台的模块化设计、全面的应用程序接口（API）以及可扩展的架构，促进了群智能算法和分布式在线强化学习算法的实现。与现有平台相比，Pogobot提供了一种更易访问的替代方案，同时还提供了包括单元间定向通信在内的高级功能。已有超过200台Pogobot每天在索邦大学和PSL被用于研究自组织系统、可编程主动物质、离散反应扩散迁移系统以及社会学习和进化的模型。

发布时间: 4/14/2025

查看原文

海带-7B：视频生成基础模型的经济高效训练

作者: Team Seawead, Ceyuan Yang, Zhijie Lin, Yang Zhao, Shanchuan Lin, Zhibei Ma, Haoyuan Guo, Hao Chen, Lu Qi, Sen Wang, Feng Cheng, Feilong Zuo Xuejiao Zeng, Ziyan Yang, Fangyuan Kong, Zhiwu Qing, Fei Xiao, Meng Wei, Tuyen Hoang, Siyu Zhang, Peihao Zhu, Qi Zhao, Jiangqiao Yan, Liangke Gui, Sheng Bi, Jiashi Li, Yuxi Ren, Rui Wang, Huixia Li, Xuefeng Xiao, Shu Liu, Feng Ling, Heng Zhang, Houmin Wei, Huafeng Kuang, Jerry Duncan, Junda Zhang, Junru Zheng, Li Sun, Manlin Zhang, Renfei Sun, Xiaobin Zhuang, Xiaojie Li, Xin Xia, Xuyan Chi, Yanghua Peng, Yuping Wang, Yuxuan Wang, Zhongkai Zhao, Zhuo Chen, Zuquan Song, Zhenheng Yang, Jiashi Feng, Jianchao Yang, Lu Jiang

arXiv:2504.08685v1 论文类型: cross 摘要: 本技术报告介绍了一种成本效益高的视频生成基础模型训练策略。我们使用大约665,000个H100 GPU小时从头开始训练了一个中型研究模型Seaweed-7B，包含约70亿个参数（7B）。尽管使用了较为适度的计算资源进行训练，Seaweed-7B在性能上仍然表现出与更大规模的当前视频生成模型相当，甚至超越的效果。在计算资源受限的情况下，设计选择尤为重要。本技术报告强调了对于中型扩散模型性能提升的关键设计决策。实验证明，我们做出了以下两点观察：(1) Seaweed-7B在性能上能达到与在大量GPU资源下训练的大规模模型相当，甚至超越的效果；(2) 具备较强泛化能力的我们的模型可以通过轻量级微调或继续训练，有效地适应广泛的应用场景。访问项目页面: https://seaweed.video/

发布时间: 4/14/2025

查看原文

天才：一个通用且完全无监督的自我训练框架，用于高级推理

作者: Fangzhi Xu, Hang Yan, Chang Ma, Haiteng Zhao, Qiushi Sun, Kanzhi Cheng, Junxian He, Jun Liu, Zhiyong Wu

arXiv:2504.08672v1 宣告类型: cross 摘要: 提升大规模语言模型（LLM）的推理能力引起了广泛的关注。然而，当前的后训练技术高度依赖监督信号，如结果监督或辅助奖励模型，这些方法面临可扩展性和高标注成本的问题。这促使我们无需外部监督就能增强LLM的推理能力。我们介绍了一种可泛化的、完全无监督的自我训练框架，名为Genius。在没有外部辅助的情况下，Genius要求以逐步方式寻求最佳响应序列并优化LLM。为了探索潜在的步骤并利用最优的步骤，Genius引入了一种逐步前瞻重采样策略，通过模拟未来结果来采样和估计步骤值。进一步地，我们认识到在无监督设置中不可避免地会产生内在噪声和不确定性。为了提供稳健的优化，我们提出了一个经优势校准的优化（ACO）损失函数，以减轻估计不一致的问题。结合这些技术和方法，Genius提供了一种先进的初步步骤，旨在在无需监督的情况下自我提升LLM的推理能力，同时利用广泛可用的通用查询革命性地改进推理的扩展律。代码将在https://github.com/xufangzhi/Genius上发布。

发布时间: 4/14/2025

查看原文

设计儿童友好的AI界面：从分析迪士尼动画中获得的六项发育适宜设计见解

作者: Nomisha Kurian

arXiv:2504.08670v1 交叉类型: cross 摘要: 为了构建儿童能够直观理解并使用的AI接口,设计师需要一种真正满足儿童发展需求的设计语法。本文将面向儿童的AI设计——一个仍在界定最佳实践的新兴领域——与成熟且拥有数十年通过情感共鸣、认知可访问的叙述技巧吸引年轻观众的儿童动画领域相结合。结合皮亚杰的发展理论和从52部迪士尼动画作品中提取的设计模式,本文提出了六项可应用于以儿童为中心的AI接口设计的设计洞察:(1)情感表达性和视觉清晰度,(2)音乐和听觉支持,(3)视听同步以提供情感舒适,(4)伴佐式人设,(5)象征性游戏和想象性探索的支持,以及(6)可预测且支持渐进交互结构。这些策略在迪士尼动画中经过长期的精炼,作为多模态的支持工具,有助于注意、理解以及情感调整,从而形成了一个既熟悉于儿童又可应用于AI接口设计的结构化设计语法。通过将电影叙事重新构想为AI的设计逻辑,本文提供了使AI接口与儿童的认知阶段和情感需求相一致的方法论。本文通过展示感官、情感和叙事技巧如何为面向儿童的发展性适宜的AI设计提供指导,为设计理论做出了贡献。未来的研究方向包括实证测试、文化适应以及参与式共同设计。

发布时间: 4/14/2025

查看原文

基于变异性驱动的用户故事生成：结合LLM和三元概念分析

arXiv:2504.08666v1 类型: cross 摘要: 软件开发中广泛使用的一种敏捷实践是生成一组用户故事（也称为“敏捷产品待办事项列表”），其中包括一组角色处理特定功能的对。在软件产品线的背景下，对于一系列相似系统的功能需求就变成了一组用户故事集，每种系统对应一个集合，从而形成由三元组（系统，角色，功能）组成的三维数据集。在本文中，我们结合三元组概念分析（TCA）和大型语言模型（LLM）提示，根据现有系统家族的变异性逻辑，建议用于开发新系统所需用户故事集。该过程包括以下步骤：1）计算以TCA推论形式表达的三维变异性，2）为设计者提供可理解的设计选项，3）捕捉设计者的选择，4）提出与该选择对应的初步用户故事集，5）根据步骤1中确定的推论验证其有效性，并在必要时对其进行补充，6）利用LLM使得网站更加全面。该过程使用包含67个类似用途网站用户故事集的数据集进行评估。

发布时间: 4/14/2025

查看原文

增强建筑物绘制图搜索的标题块检测与信息提取

arXiv:2504.08645v1 交叉类型：cross 摘要：建筑、工程和施工（AEC）行业仍然高度依赖存储在设计图中的信息来进行建筑施工、维护、合规性和错误检查。然而，从建筑图纸中提取信息（IE）通常耗时且成本较高，尤其在处理历史建筑时。通过利用图纸标题块中存储的信息，可以简化图纸搜索，这些信息可以被视为图纸的元数据。然而，特别是在处理不符合现有统一标准的历史图纸时，标题块IE可能会变得非常复杂。本工作对这类IE任务现有的方法进行了比较，并提出了一种新颖的标题块检测和IE流水线，该流水线在特定情况下，特别是处理复杂且有噪的历史图纸时，优于现有方法。该流水线通过结合轻量级卷积神经网络和GPT-4o获得。提出的推理流水线以高精度检测建筑工程标题块，并从标题块中提取结构化的图纸元数据，这些元数据可用于图纸搜索、过滤和分组。本工作在矢量（CAD）和手绘（历史）图纸中均展示了高精度和高效率的IE能力。还建立并部署了一个基于提取的元数据的用户界面（UI），用于实际项目中的图纸搜索，这展示了显著的时间节省。此外，通过一种高效的AEC友好的标注工作流开发了一个扩展性强的领域专家标注数据集，为未来工作奠定了基础。

发布时间: 4/14/2025

查看原文

无需训练的引导：通过多模态规划和结构化噪声初始化在文本到视频生成中的应用

作者: Jialu Li, Shoubin Yu, Han Lin, Jaemin Cho, Jaehong Yoon, Mohit Bansal

arXiv:2504.08641v1 类型：交叉学科摘要：最近在文本到视频（T2V）扩散模型方面的进展显著提高了生成视频的视觉质量。然而，即使是最近的T2V模型在准确跟随文本描述方面也面临挑战，特别是在提示需要对空间布局或对象轨迹进行精确控制时。最近的研究采用布局指导来帮助T2V模型，在推理时间需要对注意力图进行微调或迭代操作。这显著增加了内存需求，使得难以采用大型T2V模型作为骨干。为解决这一问题，我们提出了Video-MSG，一种基于多模态规划和结构化噪声初始化的无需训练的T2V生成指导方法。Video-MSG 包含三个步骤，在前两个步骤中，Video-MSG 创建了视频素描，即最终视频的精细空间时间计划，指定了背景、前景和对象轨迹，并以草图视频帧的形式呈现。在最后一步，Video-MSG 通过噪声反转和去噪指导下游的T2V扩散模型。值得注意的是，Video-MSG 在推理时间不需要额外的内存来进行微调或注意力操作，从而使其更容易采用大型T2V模型。Video-MSG 在多个T2V生成基准（VideoCrafter2 和 CogVideoX-5B）上展现了增强文本对齐的效果，这些基准包括T2VCompBench 和 VBench。我们提供了关于噪声反转比率、不同的背景生成器、背景物体检测和前景物体分割的全面消融研究。

发布时间: 4/14/2025

查看原文

电池生产线上热 runaway 事件的深度学习检测方法

作者: Athanasios Athanasopoulos, Mat\'u\v{s} Mihal\'ak, Marcin Pietrasik

arXiv:2504.08632v1 安全类型：跨域摘要：电池制造中的关键安全考虑之一是热失控，这是一种无法控制的温度升高，可能导致火灾、爆炸和有毒气体的排放。因此，在学术和工业领域，开发能够检测此类事件的自动化系统具有重要性。在本文中，我们研究了深度学习在检测VDL Nedcar电池生产线热失控事件中的应用。VDL Nedcar是一家荷兰汽车制造商。具体来说，我们收集了生产线上代表基线（非热失控）和热失控条件的数据。通过外部热源和烟源模拟热失控。数据包括光学图像和热成像图片，然后进行预处理和融合，最终作为模型的输入。在此基础上，我们评估了在计算机视觉中广泛使用的三种深度学习模型，包括浅层卷积神经网络、残差神经网络和视觉变换器，针对两个性能指标进行了评估。此外，我们还使用可解释性方法评估了这些模型，以了解它们从输入中捕获相关特征信息的能力。获得的结果表明，使用深度学习是电池生产线中热失控检测的一种可行方法。

发布时间: 4/14/2025

查看原文

基于任务条件的专业模型集成用于连续学习

作者: Renu Sharma, Debasmita Pal, Arun Ross

arXiv:2504.08626v1 宣布类型：交叉摘要：机器学习中的一项主要挑战是在非稳态环境中保持已部署模型（例如，分类器）的准确性。非稳态环境导致数据分布的变化，从而影响准确性。使用新数据持续学习已部署模型可能是解决问题的一种方法。然而，一个关键问题是如何用新训练数据更新模型，使其在保持对旧数据准确性的同时适应新数据。在本项工作中，我们提出了一种基于任务条件的模型集成方法，以维护现有模型的性能。该方法基于任务归属信息构建专家模型的集成。基于本地异常概念且不同于专家模型的任务归属模型（in-domain models）在运行时为每个探针样本动态提供任务归属信息。为了评估所提出的方法，我们进行了三种设置的实验：第一种表示任务之间的数据分布变化（LivDet-Iris-2017），第二种表示任务之间及任务内部的数据分布变化（LivDet-Iris-2020），第三种表示任务之间的不相交数据分布（Split MNIST）。实验突显了所提出方法的优势。源代码可在 https://github.com/iPRoBe-lab/Continuous_Learning_FE_DM 获取。

发布时间: 4/14/2025

查看原文

模型上下文协议（MCP）的企业级安全策略：框架与缓解策略

作者: Vineeth Sai Narajala, Idan Habler

arXiv:2504.08623v1 安全类型：跨平台摘要：Anthropic 提出的模型上下文协议（MCP）提供了一种标准化框架，以便人工智能（AI）系统能够在实时中与外部数据源和工具进行交互。虽然 MCP 在 AI 整合和能力扩展方面提供了显著优势，但它也引入了新的安全挑战，需要进行严格的分析和缓解。本文在此基础上，基于 MCP 架构的基础研究和初步安全评估，提供了企业级别的缓解框架和详细的实施策略。通过系统的威胁建模和 MCP 实施的分析，以及对潜在攻击向量的分析，包括复杂的威胁如工具投毒，我们为 MCP 实施者和采用者呈现了可操作的安全模式。本文的主要贡献在于将理论安全关切转化为具体可实施的框架，并提供了切实可行的控制措施，从而为企业安全地采用和治理整合 AI 系统提供了必要的指导。

发布时间: 4/14/2025

查看原文