arXiv:2503.04844v4 宣告类型: replace-cross
摘要:生成式AI有望最终实现跨多种媒体的动态、个性化故事叙述技术。到目前为止,生成式AI在程序化叙述生成领域的技术尝试表现出了相当的前景。然而,仍然存在一些基本的叙述困境,如玩家自主权与叙述连贯性的平衡问题,而且还没有提出一种严谨的叙述标准来专门利用生成式AI的优势。在这篇论文中,我们提出了叙述上下文协议(Narrative Context Protocol,NCP),这是一种开放且可扩展的标准,旨在将作者置于未来的叙述设计流程中心,并实现跨创作平台的互操作性。通过按照客观叙述模型编码作者的意图,NCP 使叙述的移植成为可能,并为生成系统提供了基于意图的约束。
arXiv:2503.03506v3 通知类型: replace-cross
摘要:合成数据正在成为一种成本有效的解决方案,以应对AI开发日益增长的数据需求,这些数据要么源自现有知识,要么源自真实数据。传统的将合成数据类型划分为混合、部分或完全合成数据集的方法已失去其价值,并不能反映生成合成数据方法的不断增多。生成方法及其来源共同塑造合成数据的特点,进而决定了其实际应用。我们提出了一种替代的分组合成数据类型的方案,更加符合隐私视角,以便为合成数据的生成和处理提供更有效的监管指导。这种分类方法提供了对新进展如深度生成方法的灵活性,并为未来应用提供了更实用的框架。
arXiv:2503.00234v2 宣布类型: replace-cross
摘要:机器学习系统的广泛应用引发了对公平性和偏见的重大关注,这使得减轻有害偏见成为了AI开发的必要条件。在本文中,我们研究了公平性提升与计算机视觉任务中神经网络中的有害偏见去除之间的关系。首先,我们介绍了一组新颖的基于XAI的度量标准,通过分析显著性图来评估模型决策过程中的变化。然后,我们证明了成功的去偏方法系统地将模型的重点从受保护属性转移到其他方面。此外,我们展示了最初为去伪结构开发的技术可以有效地重新用于提高公平性。这些发现强调了确保模型出于正确的原因进行公平性的重要性,有助于开发更具伦理性和可信度的AI系统。
arXiv:2502.19460v2 通知类型: replace-cross
摘要:传统的生存指标,如Harrell的一致性指数和Brier得分,在存在右删失数据的情况下,依赖于独立删失假设以进行有效的推理。然而,当实例因与所感兴趣事件有关的原因而被删失时,这种假设不再成立,因为这种依赖性删失会偏倚流行非参数估计器的边缘生存估计。在本文中,我们提出了三种基于 copula 的指标来评估在存在依赖性删失情况下的生存模型,并设计了一个框架以创建具有依赖性删失的现实且半合成数据集,以促进对这些指标的评估。我们在合成和半合成数据集上的实证分析表明,我们的指标可以给出更接近真实误差的误差估计,尤其是在预测准确性方面。
arXiv:2502.19390v2 宣告类型: 替换-交叉
摘要:多模态磁共振成像(Multi-modal MRI)对于提供有关大脑解剖和病理的补充信息至关重要,从而能够进行更准确的诊断。然而,在临床环境中获得高质量的多模态MRI由于时间限制、高成本和患者运动伪影等原因是困难的。为了克服这一困难,越来越多的研究兴趣集中在开发生成模型,这些模型可以从现有的源模态图像中合成缺失的目标模态图像。因此,我们的团队PLAVE设计了一个生成模型,将多模态对比学习与对关键肿瘤区域的关注相结合。具体来说,我们将适用于多种源模态的多模态对比学习集成,并通过在对比学习过程中根据熵选择特征来增强其效果。此外,我们的网络不仅生成缺失的目标模态图像,同时还能预测分割输出,同步进行。这种方法提高了生成器精确生成肿瘤区域的能力,最终改善了下游分割任务的性能。通过利用对比、分割以及额外的自表示损失的组合,我们的模型有效地反映了目标特定的信息并生成高质量的目标图像。因此,在Brain MR图像合成挑战中的结果表明,所提出模型在生成缺失模态方面表现优异。
arXiv:2502.17494v5 宣告类型: replace-cross
摘要:广告推荐是在线广告系统中的一个突出服务,并且已经得到了积极的研究。最近的研究表明,扩大推荐模型的规模和改进设计可以带来显著的性能提升。然而,随着模型规模的增大,这些之前的研究所面临的问题与工业应用之间的差距也急剧增加,这主要是因为它们往往忽视了工业规模应用中的两个基本挑战。首先,模型的训练和推理预算受到限制,以避免延迟并影响用户体验。其次,以流式方式到来的大数据集具有动态变化的数据分布,因为新用户/广告加入系统,而现有用户/广告离开系统。我们提出了外部大型基础模型(ExFM)框架来解决这些被忽视的挑战。具体而言,我们开发了外部蒸馏和数据增强系统(DAS),以在保持高性能的同时控制训练/推理的计算成本。我们设计教师模型类似于基础模型(FM),它可以作为多个学生模型(VMs)的垂直模型,来分摊其构建成本。我们提出了辅助头部和学生适配器,以缓解由于流式数据问题导致的FM和VM之间的数据分布差距。在内部工业规模应用和公共数据集上的全面实验表明,ExFM可以获得显著的性能提升。
arXiv:2502.17189v2 通知类型: 替换交叉
摘要: 大型语言模型(LLMs)已经成为一种强大的发现方法。与利用数值数据不同,LLMs 利用关联变量的语义元数据来预测变量关系。同时,LLMs 在给定目标函数 \(f\) 和一系列试验时,表现出令人印象深刻的充当黑盒优化器的能力。我们通过将 LLM 应用于交互式图发现任务来研究这两种能力的交叉:给定一个捕捉变量关系的真实图 \(G^*\) 和 \(I\) 条边试验预算在 \(R\) 个回合中,最小化第 \(R\) 个回合结束时预测图 \(\hat{G}_R\) 与 \(G^*\) 之间的距离。为了解决这一任务,我们提出了一种基于 LLM 的管道 IGDA,包括两个关键组件:1) 一种基于 LLM 不确定性的边试验选择方法;2) 一种利用试验的二元反馈来改进未被选中的邻接边预测的局部图更新策略。在八个不同真实世界的图上的实验结果显示,我们的方法经常优于所有 baselines,包括最先进的交互式图发现数值方法。此外,我们进行了一系列严谨的消融实验,分析每个管道组件的影响。最后,为了评估记忆的影响,我们将我们的交互式图发现策略应用于一个复杂的、截至2024年7月新出现的因果图(涉及蛋白质转录因子),在无法记忆的情况下仍表现出色。总体而言,我们的研究结果表明 IGDA 是一种与现有的数值驱动方法互补的强大图发现方法。
arXiv:2502.17055v2 优化器类型: 替换-交叉
摘要:本文全面评估了几种最近提出的4位训练优化器,研究表明低位精确度会放大对学习率的敏感性,并且经常导致梯度范数不稳定,使得在较高的学习率下发生发散。在这之中,SPAM(一种具有动量重置和尖峰感知梯度裁剪特点的最近提出的优化器)在各种位数级别上都表现出最好的性能,但很难稳定梯度范数,需要仔细调整学习率。为了应对这些限制,我们提出了一种名为Stable-SPAM的方法,它结合了增强的梯度归一化和裁剪技术。具体来说,Stable-SPAM(1)通过跟踪尖峰梯度的历史最大值来适应性地更新裁剪阈值;(2)根据其历史$l_2$-范数统计数据归一化整个梯度矩阵;并且(3)继承了SPAM中的动量重置,定期重置Adam的第一和第二时刻,从而减轻尖峰梯度的积累。广泛的实验表明,Stable-SPAM在4位LLM训练中有效地稳定了梯度范数,与Adam和SPAM相比表现出更优的性能。值得注意的是,使用Stable-SPAM训练的4位LLaMA-1B模型比使用Adam训练的BF16 LLaMA-1B模型在困惑度上高出至多2个单位。此外,在4位训练时,Stable-SPAM能够在与Adam相同的损失下只需要大约一半的训练步骤。代码可在https://github.com/TianjinYellow/StableSPAM.git获取。
arXiv:2502.05996v2 宣告类型: replace-cross
摘要:本文探讨了深度强化学习(DRL)在解决无人机增材制造(AM)中运动控制挑战的应用。基于无人机的增材制造为在大范围或危险环境中实现灵活且自主的材料沉积提供了可能性。然而,在不同载荷和潜在干扰条件下实现多旋翼空中机器人稳健的实时控制仍然是一个挑战。传统的PID控制器等通常需要频繁调整参数,限制了它们在动态场景中的应用。我们提出了一种DRL框架,用于学习多旋翼无人机在AM任务中执行航点导航的可适应控制策略。我们使用了一种课程学习方案来处理不断增加的复杂性,并在其中比较了Deep Deterministic Policy Gradient(DDPG)和Twin Delayed Deep Deterministic Policy Gradient(TD3)。我们的实验表明,当引入质量变异时,TD3能够一致地平衡训练稳定性、准确性和成功。这些发现为增材制造中实现稳健且自主的无人机控制提供了一条可扩展的道路。
arXiv:2502.05450v2 宣告类型: replace-cross
摘要:视觉-语言-动作(VLA)模型在实际机器人操作中展现了巨大的潜力。然而,通过监督学习对这些模型进行微调,由于演示数据有限且不一致,尤其是在富含接触的环境中,难以实现稳健的性能。在本文中,我们提出了一种针对VLA模型的增强微调方法,名为ConRFT,该方法包括基于统一一致性的离线和在线微调,以应对这些挑战。在离线阶段,我们的方法结合了行为克隆和Q学习,有效地从少量的演示数据中提取策略,并稳定价值估计。在在线阶段,VLA模型通过一致性策略进一步微调,并通过人类干预确保安全探索和高样本效率。我们在八个不同的真实世界操作任务上评估了该方法。在45-90分钟的在线微调后,其平均成功率达到了96.3%,与之前的监督方法相比,成功率为144%的提升,并且每个任务的时间长度缩短了1.9倍。这项工作突显了将强化学习整合到VLA模型中以增强其在真实世界机器人应用中的性能的潜力。我们项目的视频和代码可在我们的项目网站https://cccedric.github.io/conrft/ 上获得。