arXiv 论文列表

作者: Luca Garello, Giulia Belgiovine, Gabriele Russo, Francesco Rea, Alessandra Sciutti

arXiv:2504.01588v1 类型:交叉学科摘要：将机器人融入情景教学或体能训练等日常生活场景中，需要具备适应性、社交互动能力和目标导向互动能力的机器人。虽然大型语言模型在人类样式的通信方面表现出很大的潜力，但它们单独使用时受到存储限制和上下文不一致性的阻碍。本文提出了一种多模态、以认知为基础的框架，旨在增强基于大型语言模型的自主决策能力，特别是在社会性和任务导向的人机交互（HRI）中。特别是，我们为机器人教练开发了一个基于大型语言模型的代理，平衡了社交对话、任务指导和目标驱动的激励。为了进一步增强自主性和个性化能力，我们引入了一种记忆系统，用于选择、存储和检索经验，从而基于不同交互过程中积累的知识进行泛化推理。初步的人机交互（HRI）用户研究和使用合成数据集的离线实验验证了我们的方法，展示了该系统能够管理复杂交互、自主驱动训练任务，并构建和检索上下文记忆的能力，推进了智能社交机器人技术的发展。

发布时间: 4/3/2025

查看原文

程序扩散指导生成：面向建筑 facades 的生成方法

作者: Aleksander Plocharski, Jan Swidzinski, Przemyslaw Musialski

arXiv:2504.01571v1 宣告类型: cross 摘要: 我们提出了一种名为 Pro-DG 的框架，用于通过结合过程性形状语法和基于扩散的图像合成，实现程序可控的写实建筑立面生成。从单张输入图像开始，我们使用语法规则重构其立面布局，然后通过用户定义的转换编辑该结构。由于建筑立面本质上是多层级结构，我们引入了一种分层匹配程序，用于在不同层级对建筑立面结构进行对齐，并引入控制图来指导生成扩散管道。这种方法保留了局部外观的真实性，同时能够容纳大规模修改，如楼层复制或窗户重新排列。我们提供了全面的评估，将 Pro-DG 与基于填补的方法和合成的地面真实值进行对比。我们的用户研究和定量测量表明，Pro-DG 保留了更好的建筑身份并具有更高的修改准确性。我们的新方法是首次将神经符号性导出的形状语法与现代生成模型结合用于建模，并突显了此类方法在精确可控图像操纵方面的更广泛潜力。

发布时间: 4/3/2025

查看原文

使用量子退火优化包裹交付：处理时间窗口和同时拾取与交付

作者: Eneko Osaba, Esther Villar-Rodriguez, Pablo Miranda-Rodriguez, Ant\'on Asla

arXiv:2504.01560v1 宣告类型: cross 摘要: 量子计算和路由问题交叉领域的近期研究非常丰硕。许多相关工作集中在如旅行商问题和车辆路由问题等经典问题上。这些问题的实际应用性取决于具体的目标和约束条件。然而，将复杂的现实世界需求转化为这些经典形式通常证明是具有挑战性的。在本文中，我们采用我们之前发表的处理以实际需求为导向的路由问题的量子-经典技术，即量子用于实际包裹传递（Q4RPD），并详细探讨了解决更多实际问题实例的方法。因此，本文强调了以下特性：i) 同时的装载和交付，ii) 时间窗口，和 iii) 车辆类型的移动限制。为了说明Q4RPD的应用，我们进行了包括七个实例的实验，以展示新开发的功能的演示。

发布时间: 4/3/2025

查看原文

双曲扩散推荐模型

作者: Meng Yuan, Yutian Xiao, Wei Chen, Chu Zhao, Deqing Wang, Fuzhen Zhuang

arXiv:2504.01541v1 宣告类型：交叉摘要：扩散模型（DMs）已经成为了新的基于深度生成模型的最先进家族。为了深入了解扩散模型在推荐系统中的局限性，我们研究了图像与项目之间基本结构的差异。结果发现，项目通常表现出独特的各向异性结构和方向性结构，这些结构在图像中较少见。然而，传统的一维扩散过程不断添加各向同性的高斯噪声，导致各向异性的信号降级为噪声，这损害了推荐系统中语义上有意义的表示。受超曲空间进展的启发，我们提出了一种新的 \textit{\textbf{H}yperbolic} \textit{\textbf{D}iffusion} \textit{\textbf{R}ecommender} \textit{\textbf{M}odel}（命名为HDRM）。与基于欧几里得空间的现有定向扩散方法不同，超曲空间的内在非欧几里得结构使其特别适合处理各向异性扩散过程。特别是，我们首先通过在几何上基于超曲空间中构建概念来表征潜在的定向扩散过程。随后，我们提出了一种专门为用户和项目设计的新型超曲空间潜在扩散过程。利用超曲空间的自然几何属性，我们对空间施加结构限制，以增强超曲空间扩散传播，从而确保用户-项目图的内在拓扑结构得以保留。在三个基准数据集上的广泛实验表明了HDRM的有效性。

发布时间: 4/3/2025

查看原文

重定义技术以服务于土著语言

作者: Silvia Fernandez-Sabido, Laura Peniche-Sabido

arXiv:2504.01522v1 交叉学科分类：社会学摘要：在本文中，我们概述了土著语言的情况，指出了这些语言贬值的原因以及需要制定语言权利法案的必要性。我们回顾了用于振兴这些语言的技术，发现当这些技术来自外部时，它们往往会产生相反的效果；然而，当这些技术是在社区内开发时，它们成为表达的强大工具。我们提议将土著知识纳入大型语言模型（LLMs）将丰富技术景观，但必须在促进知识交流的参与环境中进行。

发布时间: 4/3/2025

查看原文

领域指导：一种简单的预训练扩散模型转训练方法

作者: Jincheng Zhong, Xiangcheng Zhang, Jianmin Wang, Mingsheng Long

arXiv:2504.01521v1 公告类型：交叉摘要：近期在扩散模型方面的进展彻底革新了生成模型。然而，这些模型优越并生动的输出往往伴随着显著的模型扩展和增加的计算需求。因此，基于现成模型构建个性化的扩散模型已成为一种吸引人的替代方案。本文我们提出了一个针对条件生成转移预训练模型的新视角。从这个视角出发，我们提出了 *领域指导*，这是一种简单的转移方法，利用预训练的知识来引导采样过程向目标领域靠拢。领域指导的公式与高级的分类器自由引导类似，这有助于更好的领域对齐和更高质量的生成。我们提供了关于领域指导机制的实证和理论分析。我们的实验结果表明，领域指导在各种转移基准上的表现十分显著，与标准微调相比，在FID上提高了19.6%，在FD$_\text{DINOv2}$上提高了23.4%。值得注意的是，现有的微调模型可以无缝地集成领域指导，以利用这些好处，无需额外的训练。

发布时间: 4/3/2025

查看原文

无需训练的密集对齐扩散指导模块化条件图像合成

作者: Zixuan Wang, Duo Peng, Feng Chen, Yuwei Yang, Yinjie Lei

arXiv:2504.01515v1 Announce 类型: cross 摘要: 条件图像合成是一项具有广泛应用的重要任务，例如艺术创作和虚拟现实。然而，当前的生成方法往往是针对特定任务的，处理范围狭窄，仅适用于受限条件。在本文中，我们提出了一种新颖的方法，将条件图像合成视为多样化的基础条件单元的模块化组合。具体而言，我们将条件分为三个主要单元：文本、布局和拖拽。为了对这些条件进行有效的控制，我们为每个条件设计了一个专门的对齐模块。对于文本条件，我们引入了密集概念对齐（DCA）模块，该模块通过利用各种文本概念实现密集的视觉-文本对齐。对于布局条件，我们提出了密集几何对齐（DGA）模块，以施加全面的几何约束，从而保持空间配置不改变。对于拖拽条件，我们引入了密集运动对齐（DMA）模块，以应用多层次的运动正则化，确保每个像素跟随其期望的轨迹，而不会产生视觉伪影。通过灵活地插入和组合这些对齐模块，我们的框架增强了模型对各种条件生成任务的适应性，并极大地扩展了其应用范围。大量的实验表明，我们的框架在包括文本描述、分割掩码（边界框）、拖拽操作及其组合等各类条件下的性能均优于现有方法。代码可在https://github.com/ZixuanWang0525/DADG获取。

发布时间: 4/3/2025

查看原文

HH-PIM: 适用于边缘AI设备的异构混合PIM的功率和性能动态优化

作者: Sangmin Jeon, Kangju Lee, Kyeongwon Lee, Woojoo Lee

arXiv:2504.01468v1 论文类型: 横跨领域摘要: 记忆处理（Processing-in-Memory，PIM）架构为在能量受限的边缘环境中高效处理AI应用提供了令人信服的解决方案。虽然传统的PIM设计通过减少数据在内存和处理单元之间的移动来提高性能和能源效率，但这些设计在边缘设备上受到持续电源需求和大型神经网络权重存储在SRAM和DRAM中的存储要求的限制。结合非易失性存储器如MRAM和ReRAM的混合PIM架构减轻了这些限制，但在固定计算资源与动态变化的推理工作负载之间存在不匹配的问题。为了应对这些挑战，本研究引入了一种异构混合PIM（HH-PIM）架构，该架构包括高性能的MRAM-SRAM PIM模块和低功耗的MRAM-SRAM PIM模块。我们进一步提出了一种数据位置优化算法，该算法根据不同计算需求动态分配数据，最大限度地提高能源效率。使用具有HH-PIM和其他PIM类型的处理器通过FPGA原型设计和功率仿真表明，提出的HH-PIM相比于传统的PIM实现了高达60.43%的平均能源节省，同时满足应用延迟要求。这些结果证实了HH-PIM在边缘设备中实现适应性和能源效率的AI处理的适当性。

发布时间: 4/3/2025

查看原文

基于目标的强化学习的概率性 curriculum 学习

作者: Llewyn Salt, Marcus Gallagher

arXiv:2504.01459v1 类别: cross 摘要: 强化学习（RL）——一种通过最大化奖励信号来教授人工代理与环境互动的算法——近年来取得了显著的成功。这些成功得益于算法（例如，深度Q学习、深度确定性策略梯度、近端策略优化、信任区域策略优化以及软演员-评论家）的进步和专用计算资源（如GPU和TPU）的支持。其中一个有前景的研究方向是引入目标以允许多模态策略，通常通过层次化或阶梯化强化学习来实现。这些方法系统地将复杂行为分解为更简单的子任务，类似于人类逐步学习技能的过程（例如，我们在学会走路之前先学会跑步，或是在学习微积分之前先学习算术）。然而，完全自动化目标创建仍是一个开放的挑战。我们提出了一种新的概率阶梯化学习算法，以建议连续控制和导航任务中的强化学习代理的目标。

发布时间: 4/3/2025

查看原文

BiSeg-SAM：增强分割 Anything 模型中二元分割的弱监督后处理框架

作者: Encheng Su, Hu Cao, Alois Knoll

arXiv:2504.01452v1 类型: cross 摘要：结直肠癌和皮肤癌的诊断中，结肠息肉和皮肤病变的精确分割是至关重要的。虽然已经开发了使用完全监督深度学习技术进行结肠息肉和皮肤病变分割的各种方法，但医生对医学图像进行像素级标注既耗时又成本高昂。基础视觉模型如段切一切模型（SAM）已经展示了卓越的性能；然而，直接将SAM应用于医学分割可能由于缺乏特定领域的医学知识而无法获得满意的结果。在本文中，我们提出了一种BiSeg-SAM，这是一种SAM引导的弱监督提示和边界细化网络，用于结肠息肉和皮肤病变的分割。具体来说，我们结合了一个CNN模块对SAM进行微调以学习局部特征。我们引入了弱盒（WeakBox），具有两个功能：自动生成SAM模型的框提示，并使用我们提出的多选择图填充到框（MM2B）转换进行粗略的图填充到框的转换，以解决粗略标签和精确预测之间的不匹配问题。此外，我们应用尺度一致性（SC）损失进行预测尺度对齐。我们的DetailRefine模块通过细化粗略预测以提高边界精度和分割准确性，同时仅使用有限的真实标签。这种综合方法使得BiSeg-SAM能够实现卓越的多任务分割性能。在对五个结肠息肉数据集和一个皮肤癌数据集进行测试时，我们的方法在所有先进的（SOTA）方法中表现出了显著的优越性。

发布时间: 4/3/2025

查看原文