arXiv:2504.11952v1 通报类型: cross
摘要: 一个理想的机器生成内容检测系统应能够应对日益增多的更先进的LLM。现有的系统在准确识别短文本中的AI生成内容方面常常遇到困难。此外,并非所有的文本都完全由人类或LLM撰写,因此我们更侧重于部分情况,即人类-LLM合著的文本。我们的论文介绍了一套用于标记分类任务的模型,这些模型在广泛的合著人类-机器文本集合上进行了训练,表现出了在未见过的领域、未见过的生成器、非母语作者的文本以及具有对抗性输入的文本方面的优越性。我们还介绍了超过240万条此类文本的新数据集,这些文本主要是由23种不同语言中的多个流行的专有LLM合著的。我们还展示了模型在每个领域和生成器每篇文本上的性能。其他研究发现还包括了与每种对抗方法的性能对比、输入文本长度以及与原始人类撰写的文本相比生成文本的特征。
arXiv:2504.11944v1 类型: cross
摘要:离线强化学习(RL)通过预先收集的数据集来学习有效的策略,为那些在线交互具有风险或成本的应用提供了一种实际的解决方案。基于模型的方法特别适合离线RL,这得益于它们的数据效率和泛化能力。然而,由于固有的模型误差,基于模型的方法往往通过基于启发式不确定性估计的人工保守来训练模型,这种不确定性估计可能不可靠。在本文中,我们引入了VIPO,这是一种新颖的基于模型的离线RL算法,它通过价值估计的自监督反馈来增强模型训练。具体而言,该模型通过另外最小化从离线数据直接学习的价值与从模型估计的价值之间的不一致性来学习。我们从多个角度进行了全面评估,以证明VIPO可以高效且一致地学习出一个高度准确的模型,并且能够系统地超越现有方法的表现。它提供了一个通用框架,可以轻松集成到现有的基于模型的离线RL算法中,以系统性地提高模型的准确性。因此,VIPO在D4RL和NeoRL基准测试中的几乎所有任务上都实现了最先进的性能。
arXiv:2504.11901v1 交叉类型公告
摘要:随着机器人在共享环境中(如仓库、购物中心和医院)的日益融合,要求对其基础动力学和人类行为有深入的理解,包括个人在何时、何地进行各种活动和互动的方式。这种知识远超简单的相关性研究,需要更加全面的因果分析。通过利用因果推断来建模因果关系,我们能够更好地预测关键的环境因素,并使自主机器人能够更有效地规划和执行任务。为此,我们提出了一种基于因果关系的决策框架,该框架基于学习到的因果模型进行推理,以预测电池使用和人类障碍,理解这些因素如何影响机器人任务执行。这种推理框架帮助机器人决定何时以及如何完成给定任务。为实现这一目标,我们还开发了PeopleFlow,这是一种新的基于Gazebo的模拟器,用于模拟共享工作空间中受上下文因素(如时间、环境布局和机器人状态)影响的人机空间交互。PeopleFlow具有由这些上下文因素影响的真实人类和机器人轨迹,并能够模拟大量代理。虽然该模拟器具有通用性,但在本文中,我们以类似仓库的环境为案例研究,开展了全面的评估,将我们的因果方法与非因果基线进行对比基准测试。我们的研究结果展示了所提出解决方案的有效性,强调了因果推理如何使自主机器人在共享人类环境的动态环境中更高效、更安全地运行。
arXiv:2504.11896v1 交叉类型:cross
摘要:图像分解提供了对视觉数据成像因素的深刻见解,并显著提升了各种先进的计算机视觉任务。在本文中,我们提出了一种基于拆分物理先验的新方法,用于低光照图像增强。现有的直接将低光照映射到正常光照图像的sRGB颜色空间的方法在色彩预测上存在不一致,并且对光谱功率分布(SPD)的变化高度敏感,导致在不同照明条件下性能不稳定。为了解决这些问题,我们引入了一种物理先验色彩感知变换(PiCat),这是一种基于学习的框架,通过我们提出的色彩感知变换(CAT)将低光照图像从sRGB颜色空间转换为深度照明不变的描述符。这种变换能够稳健地处理复杂的照明和SPD变化。在此基础上,我们提出了内容噪声分解网络(CNDN),该网络通过减少噪声和其他失真来改进描述符分布,使其更好地与良好光照条件对齐,从而有效地恢复低压强图像的内容表示。CAT和CNDN共同作为物理先验,引导从低光照到正常光照域的转换过程。我们提出的PiCat框架在五个基准数据集上展示了与现有最佳方法相比的优越性能。
arXiv:2504.11855v1 宣告类型: cross
摘要:本研究引入了EngramNCA,这是一种神经细胞自动机(NCA),将公开可见的状态和私密的、细胞内部的记忆通道结合起来,受到新兴的生物证据的启发,这些证据表明记忆存储不仅限于突触修改,还涉及到细胞内机制。该提出的模型包括两个组件:GeneCA,这是一种NCA,通过种子细胞中包含不可变的“基因”编码来培养独特的形态结构;以及GenePropCA,一种辅助NCA,它调节细胞的私密“遗传”记忆而不改变其可见状态。这种架构通过公开和私密通道之间的交互,使复杂形态结构的编码和传播成为可能,从而从共享的“遗传”基质中促进多样化结构的生长。EngramNCA支持分层和共存形态的出现,为人工系统中去中心化的记忆存储和传递提供了见解。这些发现对于适应性和自我组织系统的开发具有潜在的影响,并可能有助于更广泛地理解生物和合成上下文中的记忆机制。
arXiv:2504.11837v1 类型: cross
摘要: 情感支持对话(ESC)旨在通过有效的对话减轻个体的情感困扰。尽管大规模语言模型(LLMs)在ESC方面取得了显著进展,但大多数这些研究可能没有从状态模型的角度定义框架,因此提供的可能不是长期满意度的最优解决方案。为解决这一问题,我们利用有限状态机(FSM)在LLMs上,提出了一个名为FiSMiness的框架。该框架允许一个LLM在ESC中进行规划,并在每次对话回合中自我推理寻求者的情感、支持策略以及最终的响应。在ESC数据集上的大量实验表明,FiSMiness优于许多 baselines,包括直接推理、自我修正、思考链、微调以及外部辅助方法,即使这些方法的参数数量更多。
arXiv:2504.11829v1 宣告类型: cross
摘要:多语言大型语言模型(mLLMs)的生成能力和语言覆盖面正在迅速进步。然而,对于mLLMs生成能力的评估实践仍然缺乏全面性、科学严谨性和研究实验室间的一致采用,这削弱了它们在有意义地指导mLLM开发方面的潜力。我们借鉴机器翻译(MT)评估领域的情况,这是一个曾经面临类似挑战并经过数十年发展建立了透明报告标准和可靠的多语言生成模型评估方法的领域。通过针对生成评估管道各关键阶段的定向实验,我们展示了从MT评估实践中可以如何加深对模型质量差异的理解。此外,我们确定了多语言大型语言模型(mLLMs)稳健元评估的关键组成部分,确保评估方法本身也被严格评估。我们将这些洞察力提炼成一份针对mLLM研究与开发的可操作建议清单。
arXiv:2504.11820v1 宣布类型: cross
摘要:现实世界RGB-D数据集中原始深度图中的低质量结构普遍存在,这使得近年来现实世界的深度恢复成为一个关键任务。然而,真实世界中缺乏配对的原始-真实深度图(raw-GT)数据给泛化深度恢复带来了挑战。现有方法在处理原始深度图中的结构错位多样性方面考虑不足,这导致了现实世界深度恢复中的泛化能力较差。值得注意的是,随机结构错位不仅限于原始深度数据,也影响真实世界数据集中的真实深度。在所提出的方法中,我们从输入和输出两个方面解决了泛化问题。对于输入,我们通过设计一个新的原始深度生成管道来丰富原始深度图中的结构错位多样性,这有助于网络避免过度拟合并特定条件。此外,我们设计了一个结构不确定性模块,明确识别输入原始深度图中的错位结构,以便在未见过的情况下更好地泛化。值得注意的是,训练良好的深度基础模型(DFM)可以帮助结构不确定性模块更好地估计结构不确定性。对于输出,我们设计了一个稳健的特征对齐模块,能够精确对齐与准确的RGB图像结构,从而避免不准确的真实深度数据的干扰。在多个数据集上的广泛实验表明,所提出的方法在各种具有挑战性的原始深度图上的准确性和泛化能力表现出竞争力。
arXiv:2504.11812v1 宣传类型:横跨多个领域
摘要:自然界长期以来一直启发智能群体(SI)的发展,这是一种关键的人工智能分支,通过模拟生物系统中观察到的集体行为来解决复杂优化问题。粒子群优化(PSO)因其简单性和效率而广受SI算法的采用。尽管提出了许多学习策略来提高PSO在收敛速度、鲁棒性和适应性等方面的性能,但这些策略的全面和系统化分析依然缺失。我们回顾并分类了各种学习策略以填补这一空白,评估它们对优化性能的影响。另外,还进行了比较性的实验评估,以研究这些策略如何影响PSO的搜索动态。最后,我们讨论了开放挑战和未来方向,强调需要能够应对日益复杂现实世界问题的自适应智能PSO变体的重要性。
arXiv:2504.11793v1 交叉声明类型:
摘要:联邦学习(FL)在训练大型语言模型(LLMs),尤其是在医疗保健应用中,面临着通信开销和模型隐私的重大挑战。为了解决这些问题,我们引入了选择性注意力联邦学习(SAFL),这是一种新颖的方法,可以动态微调仅那些被识别为注意力关键的变压器层。通过使用注意力模式来确定层的重要性,SAFL 显著减少了通信带宽并增强了差分隐私的抗性。在临床自然语言处理基准(i2b2临床概念提取和MIMIC-III出院总结)上的评估证明,SAFL 在与中心化模型相当的性能的同时,显著提高了通信效率和隐私保护。