arXiv:2504.08686v1 类型: cross
摘要:本文描述了Pogobot,一个专为群机器人研究设计的开源和开放硬件平台。Pogobot的特点是在低成本(每台约250欧元)的封装中拥有振动驱动的移动、红外通信和一系列传感器。该平台的模块化设计、全面的应用程序接口(API)以及可扩展的架构,促进了群智能算法和分布式在线强化学习算法的实现。与现有平台相比,Pogobot提供了一种更易访问的替代方案,同时还提供了包括单元间定向通信在内的高级功能。已有超过200台Pogobot每天在索邦大学和PSL被用于研究自组织系统、可编程主动物质、离散反应扩散迁移系统以及社会学习和进化的模型。
arXiv:2504.08685v1 论文类型: cross
摘要: 本技术报告介绍了一种成本效益高的视频生成基础模型训练策略。我们使用大约665,000个H100 GPU小时从头开始训练了一个中型研究模型Seaweed-7B,包含约70亿个参数(7B)。尽管使用了较为适度的计算资源进行训练,Seaweed-7B在性能上仍然表现出与更大规模的当前视频生成模型相当,甚至超越的效果。在计算资源受限的情况下,设计选择尤为重要。本技术报告强调了对于中型扩散模型性能提升的关键设计决策。实验证明,我们做出了以下两点观察:(1) Seaweed-7B在性能上能达到与在大量GPU资源下训练的大规模模型相当,甚至超越的效果;(2) 具备较强泛化能力的我们的模型可以通过轻量级微调或继续训练,有效地适应广泛的应用场景。访问项目页面: https://seaweed.video/
arXiv:2504.08672v1 宣告类型: cross
摘要: 提升大规模语言模型(LLM)的推理能力引起了广泛的关注。然而,当前的后训练技术高度依赖监督信号,如结果监督或辅助奖励模型,这些方法面临可扩展性和高标注成本的问题。这促使我们无需外部监督就能增强LLM的推理能力。我们介绍了一种可泛化的、完全无监督的自我训练框架,名为Genius。在没有外部辅助的情况下,Genius要求以逐步方式寻求最佳响应序列并优化LLM。为了探索潜在的步骤并利用最优的步骤,Genius引入了一种逐步前瞻重采样策略,通过模拟未来结果来采样和估计步骤值。进一步地,我们认识到在无监督设置中不可避免地会产生内在噪声和不确定性。为了提供稳健的优化,我们提出了一个经优势校准的优化(ACO)损失函数,以减轻估计不一致的问题。结合这些技术和方法,Genius提供了一种先进的初步步骤,旨在在无需监督的情况下自我提升LLM的推理能力,同时利用广泛可用的通用查询革命性地改进推理的扩展律。代码将在https://github.com/xufangzhi/Genius上发布。
arXiv:2504.08670v1 交叉类型: cross
摘要: 为了构建儿童能够直观理解并使用的AI接口,设计师需要一种真正满足儿童发展需求的设计语法。本文将面向儿童的AI设计——一个仍在界定最佳实践的新兴领域——与成熟且拥有数十年通过情感共鸣、认知可访问的叙述技巧吸引年轻观众的儿童动画领域相结合。结合皮亚杰的发展理论和从52部迪士尼动画作品中提取的设计模式,本文提出了六项可应用于以儿童为中心的AI接口设计的设计洞察:(1)情感表达性和视觉清晰度,(2)音乐和听觉支持,(3)视听同步以提供情感舒适,(4)伴佐式人设,(5)象征性游戏和想象性探索的支持,以及(6)可预测且支持渐进交互结构。这些策略在迪士尼动画中经过长期的精炼,作为多模态的支持工具,有助于注意、理解以及情感调整,从而形成了一个既熟悉于儿童又可应用于AI接口设计的结构化设计语法。通过将电影叙事重新构想为AI的设计逻辑,本文提供了使AI接口与儿童的认知阶段和情感需求相一致的方法论。本文通过展示感官、情感和叙事技巧如何为面向儿童的发展性适宜的AI设计提供指导,为设计理论做出了贡献。未来的研究方向包括实证测试、文化适应以及参与式共同设计。
arXiv:2504.08666v1 类型: cross
摘要: 软件开发中广泛使用的一种敏捷实践是生成一组用户故事(也称为“敏捷产品待办事项列表”),其中包括一组角色处理特定功能的对。在软件产品线的背景下,对于一系列相似系统的功能需求就变成了一组用户故事集,每种系统对应一个集合,从而形成由三元组(系统,角色,功能)组成的三维数据集。在本文中,我们结合三元组概念分析(TCA)和大型语言模型(LLM)提示,根据现有系统家族的变异性逻辑,建议用于开发新系统所需用户故事集。该过程包括以下步骤:1)计算以TCA推论形式表达的三维变异性,2)为设计者提供可理解的设计选项,3)捕捉设计者的选择,4)提出与该选择对应的初步用户故事集,5)根据步骤1中确定的推论验证其有效性,并在必要时对其进行补充,6)利用LLM使得网站更加全面。该过程使用包含67个类似用途网站用户故事集的数据集进行评估。
arXiv:2504.08645v1 交叉类型:cross
摘要:建筑、工程和施工(AEC)行业仍然高度依赖存储在设计图中的信息来进行建筑施工、维护、合规性和错误检查。然而,从建筑图纸中提取信息(IE)通常耗时且成本较高,尤其在处理历史建筑时。通过利用图纸标题块中存储的信息,可以简化图纸搜索,这些信息可以被视为图纸的元数据。然而,特别是在处理不符合现有统一标准的历史图纸时,标题块IE可能会变得非常复杂。本工作对这类IE任务现有的方法进行了比较,并提出了一种新颖的标题块检测和IE流水线,该流水线在特定情况下,特别是处理复杂且有噪的历史图纸时,优于现有方法。该流水线通过结合轻量级卷积神经网络和GPT-4o获得。提出的推理流水线以高精度检测建筑工程标题块,并从标题块中提取结构化的图纸元数据,这些元数据可用于图纸搜索、过滤和分组。本工作在矢量(CAD)和手绘(历史)图纸中均展示了高精度和高效率的IE能力。还建立并部署了一个基于提取的元数据的用户界面(UI),用于实际项目中的图纸搜索,这展示了显著的时间节省。此外,通过一种高效的AEC友好的标注工作流开发了一个扩展性强的领域专家标注数据集,为未来工作奠定了基础。
arXiv:2504.08641v1 类型:交叉学科
摘要:最近在文本到视频(T2V)扩散模型方面的进展显著提高了生成视频的视觉质量。然而,即使是最近的T2V模型在准确跟随文本描述方面也面临挑战,特别是在提示需要对空间布局或对象轨迹进行精确控制时。最近的研究采用布局指导来帮助T2V模型,在推理时间需要对注意力图进行微调或迭代操作。这显著增加了内存需求,使得难以采用大型T2V模型作为骨干。为解决这一问题,我们提出了Video-MSG,一种基于多模态规划和结构化噪声初始化的无需训练的T2V生成指导方法。Video-MSG 包含三个步骤,在前两个步骤中,Video-MSG 创建了视频素描,即最终视频的精细空间时间计划,指定了背景、前景和对象轨迹,并以草图视频帧的形式呈现。在最后一步,Video-MSG 通过噪声反转和去噪指导下游的T2V扩散模型。值得注意的是,Video-MSG 在推理时间不需要额外的内存来进行微调或注意力操作,从而使其更容易采用大型T2V模型。Video-MSG 在多个T2V生成基准(VideoCrafter2 和 CogVideoX-5B)上展现了增强文本对齐的效果,这些基准包括T2VCompBench 和 VBench。我们提供了关于噪声反转比率、不同的背景生成器、背景物体检测和前景物体分割的全面消融研究。
arXiv:2504.08632v1 安全类型:跨域
摘要:电池制造中的关键安全考虑之一是热失控,这是一种无法控制的温度升高,可能导致火灾、爆炸和有毒气体的排放。因此,在学术和工业领域,开发能够检测此类事件的自动化系统具有重要性。在本文中,我们研究了深度学习在检测VDL Nedcar电池生产线热失控事件中的应用。VDL Nedcar是一家荷兰汽车制造商。具体来说,我们收集了生产线上代表基线(非热失控)和热失控条件的数据。通过外部热源和烟源模拟热失控。数据包括光学图像和热成像图片,然后进行预处理和融合,最终作为模型的输入。在此基础上,我们评估了在计算机视觉中广泛使用的三种深度学习模型,包括浅层卷积神经网络、残差神经网络和视觉变换器,针对两个性能指标进行了评估。此外,我们还使用可解释性方法评估了这些模型,以了解它们从输入中捕获相关特征信息的能力。获得的结果表明,使用深度学习是电池生产线中热失控检测的一种可行方法。
arXiv:2504.08626v1 宣布类型:交叉
摘要:机器学习中的一项主要挑战是在非稳态环境中保持已部署模型(例如,分类器)的准确性。非稳态环境导致数据分布的变化,从而影响准确性。使用新数据持续学习已部署模型可能是解决问题的一种方法。然而,一个关键问题是如何用新训练数据更新模型,使其在保持对旧数据准确性的同时适应新数据。在本项工作中,我们提出了一种基于任务条件的模型集成方法,以维护现有模型的性能。该方法基于任务归属信息构建专家模型的集成。基于本地异常概念且不同于专家模型的任务归属模型(in-domain models)在运行时为每个探针样本动态提供任务归属信息。为了评估所提出的方法,我们进行了三种设置的实验:第一种表示任务之间的数据分布变化(LivDet-Iris-2017),第二种表示任务之间及任务内部的数据分布变化(LivDet-Iris-2020),第三种表示任务之间的不相交数据分布(Split MNIST)。实验突显了所提出方法的优势。源代码可在 https://github.com/iPRoBe-lab/Continuous_Learning_FE_DM 获取。
arXiv:2504.08623v1 安全类型:跨平台
摘要:Anthropic 提出的模型上下文协议(MCP)提供了一种标准化框架,以便人工智能(AI)系统能够在实时中与外部数据源和工具进行交互。虽然 MCP 在 AI 整合和能力扩展方面提供了显著优势,但它也引入了新的安全挑战,需要进行严格的分析和缓解。本文在此基础上,基于 MCP 架构的基础研究和初步安全评估,提供了企业级别的缓解框架和详细的实施策略。通过系统的威胁建模和 MCP 实施的分析,以及对潜在攻击向量的分析,包括复杂的威胁如工具投毒,我们为 MCP 实施者和采用者呈现了可操作的安全模式。本文的主要贡献在于将理论安全关切转化为具体可实施的框架,并提供了切实可行的控制措施,从而为企业安全地采用和治理整合 AI 系统提供了必要的指导。