arXiv:2502.04530v1 宣告类型: 新
摘要: 传统的概率模型检验通常验证感兴趣的度量的期望值属性。这种限制可能无法捕捉系统运行中显著比例的服务质量,特别是在感兴趣的度量的概率分布由于厚尾行为或多重模态而无法很好地由其期望值表示时。最近受分布强化学习启发的工作使用离散直方图来近似整数奖励分布,但在连续奖励空间中遇到困难,并且在精确度与可扩展性之间存在挑战。我们提出了一种新颖的方法,使用厄朗混合物进行矩匹配,在离散时间马尔可夫链中处理连续和离散奖励分布。通过对矩生成函数进行解析推导高阶矩,我们的方法以理论可保证的误差来近似奖励分布,同时保持真实分布的统计特性。这种详细的分布洞察力使得基于整个奖励分布函数来制定和验证质量属性成为可能,而不仅仅是受限于其期望值。我们提供了一种理论基础来确保近似误差的有界性,并通过实验评估展示了我们方法在实际模型检查问题中的准确性和可扩展性。
arXiv:2502.04512v1 宣布类型: 新
摘要: 人工智能的进步在很大程度上受到了基础模型和好奇心驱动的学习的推动,旨在提高能力和适应性。在此领域的一个日益引起兴趣的领域是“无尽性”——AI系统连续自主生成新颖和多样化成果或解决方案的能力。这一能力对于加速科学研究和使AI代理实现持续适应变得至关重要。本文观点认为,固有的动态性和自我传播性使得无尽性AI引入了大量尚未充分探索的风险,包括维护一致、预测性和可控性方面的挑战。本文系统地探讨了这些挑战,提出了缓解策略,并呼吁不同利益相关者采取行动,以支持无尽性AI的安全、负责任和成功的开发。
arXiv:2502.04403v1 代理类型: 新
摘要: 代理是指一个系统将结果导向目标的能力,它是生物学、哲学、认知科学和人工智能领域研究的核心主题。判断一个系统是否表现出代理能力是一个 notoriously 难题:例如,丹内特(1989)指出确定一块岩石、一个恒温器或一个机器人是否具有代理能力的原理之谜。我们从强化学习的角度来解决这一难题,认为代理从根本上说是框架依赖的:任何对系统代理能力的度量都必须相对于一个参考框架来进行。我们通过提出一个哲理 argument 来支持这一论点,即 Barberandiaran 等人(2009)和 Moreno(2018)提出的代理的关键属性本身都是框架依赖的。我们得出结论认为任何基本的代理科学都需要框架依赖性,并讨论这一结论对强化学习的影响。
arXiv:2502.04371v1 通告类型: 新
摘要: 本文介绍了感知偏好优化 (PerPO),这是一种旨在解决生成预训练多模态大型语言模型 (MLLMs) 视觉辨别挑战的感知对齐方法。为了使 MLLMs 与人类的视觉感知过程对齐,PerPO 采用辨别性奖励来收集多样化的负面样本,随后通过列表偏好优化对这些样本进行排序。通过将奖励作为排序的定量边界,我们的方法有效地将生成偏好优化与辨别性经验风险最小化相结合。PerPO 显著增强了 MLLMs 的视觉辨别能力,同时保持了其生成优势,减轻了图像无条件奖励劫持,并确保其在视觉任务上的表现始终如一。这项工作标志着向更具感知对齐和多功能的 MLLMs 又迈出了重要一步。我们还希望 PerPO 能够鼓励社区重新思考 MLLM 的对齐策略。
arXiv:2501.14249v2 宣告类型: replace-cross
摘要:基准是跟踪大规模语言模型(LLM)能力飞速进步的重要工具。然而,基准在难度上没有跟上步伐:LLM 现在在诸如 MMLU 等热门基准测试上达到了超过 90% 的准确率,限制了对最新 LLM 能力的明智评估。为此,我们引入了人类的最后一场考试(HLE),这是一个面向人类知识前沿的多模态基准测试,旨在成为此类具有广泛学科覆盖的最终封闭式学术基准测试。HLE 包含了 3,000 道跨多个学科的问题,包括数学、人文和自然科学。HLE 由相关领域的专家在全球范围内开发,包含适合自动评分的选择题和简答题。每个问题都有一个已知的、明确且易于验证的答案,但这些答案不能通过互联网检索迅速获得。最先进的 LLM 在 HLE 上的准确率和校准度都很低,突显了当前 LLM 能力与封闭式学术问题的专家人类前沿之间存在的巨大差距。为了在充分了解模型能力的基础上指导研究和政策制定,我们已在 https://lastexam.ai 公开发布 HLE。
arXiv:2502.03490v1 声明类型:新的
摘要:先前的工作发现,变压器在学习回答隐含的两跳问题方面存在不一致的能力——这类问题的形式为“鲍勃的母亲的上司是谁?”我们通过研究变压器在其大小随着其容量而变化时,学习两跳问题及其答案(两跳问答)的能力,来探讨为什么会出现这种情况,这受到了关于变压器知识容量的先前工作的影响,这些工作研究了简单事实记忆的情况。我们发现,容量的扩展和泛化都支持这样一个观点:隐含的两跳问答要求变压器需要学习每个事实两次,而具备推理过程的两跳问答则不需要。我们还表明,在适当的数据集参数下,即使模型很小,仍有可能将其“困”在一个它们独立地记忆两跳问题答案的阶段,即使它们能够通过函数组合来学习这些问题会表现得更好。我们的发现表明,容量扩展的测量可以补充现有的可解释性方法,尽管将其用于这一目的还存在一些挑战。
arXiv:2502.02456v2 通知类型: 替换-交叉
摘要:指令设计师面临着大量的设计选择,这使得难以确定最有效的干预措施。为了解决这个问题,我提出了一种模型人类学习者的概念,这是一种统一的学习计算模型,可以帮助设计师评估候选干预措施。本文介绍了这一概念的第一个成功演示,展示了计算模型能够准确预测两个人类A/B实验的结果——一个测试了问题序列干预,另一个测试了项目设计干预。此外,还展示了这种模型可以无需人类数据生成学习曲线,并提供关于为何某种教学干预措施有效性的理论见解。这些发现为未来的整合认知和学习理论以支持跨多样化任务和干预的教学设计的模型人类学习者奠定了基础。
arXiv:2502.02027v2 通知类型:替换交叉
摘要:本研究探讨了将基于人类视觉线索去雾技术集成到目标检测中所面临的挑战,鉴于人类感知的挑选性。虽然人类视觉能动态适应环境条件,但计算去雾并不总能均匀提升检测效果。我们提出了一种多阶段框架,其中轻量级检测器识别感兴趣区域(RoIs),随后通过空间注意力机制进行去雾增强,最终由较重模型进行检测。尽管此方法在雾天环境中效果显著,但在清晰图像上的表现却意外地下降了。我们分析了这一现象,调查可能的原因,并提供了设计兼顾增强和检测的混合管道的见解。我们的研究结果强调了选择性预处理的必要性,并挑战了级联变换普遍带来益处的假设。
arXiv:2502.01718v2 通知类型: replace-cross
摘要:最近的编码器模型的进步主要是由监督微调(SFT)推动的,而强化学习(RL)的潜力尚未得到充分探索,主要是因为缺乏可靠的代码领域的奖励数据/模型。在本文中,我们通过利用自动大规模测试案例合成来应对这一挑战,以增强代码模型的训练。具体来说,我们设计了一个管道,从现有代码数据中生成广泛的(问题,测试案例)对。利用这些测试案例,我们基于采样程序的通过率构建偏好对,并使用Bradley-Terry损失训练奖励模型。通过最好的32个采样,LLama-3.1-8B-Ins的平均改进为10个点,Qwen2.5-Coder-7B-Ins的平均改进为5个点,使得7B模型与236B DeepSeek-V2.5持平。此外,我们使用奖励模型和测试案例通过奖励进行强化学习,导致在HumanEval、MBPP、BigCodeBench和LiveCodeBench(V4)中的一致改进。值得注意的是,我们遵循R1的训练方式,从Qwen2.5-Coder-base直接开始,展示了我们的RL训练可以在HumanEval-plus上提高超过25%,在MBPP-plus上提高6%,只需80个优化步骤。我们认为我们的结果突显了强化学习在编码器模型中的巨大潜力。
arXiv:2502.01057v2 术语类型: replace-cross
摘要:扩散磁共振成像(dMRI)为胎内胎儿大脑微结构提供了独特的见解。纵向和横断面的胎儿dMRI研究可以揭示重要的神经发育变化,但这需要在各扫描和各被试之间进行精确的空间对齐。这由于数据质量低、大脑发育快速以及解剖标志稀缺而极具挑战性。现有的注册方法为高质量的成人数据设计,难以应对这些复杂性。为了解决这个问题,我们提出了FetDTIAlign,一种用于胎儿大脑dMRI注册的深度学习方法,能够实现精确的仿射和变形对齐。FetDTIAlign采用了双编码器架构和迭代特征推断,减少了噪声和低分辨率的影响。它在每个注册阶段优化网络配置和特定领域特征,提高了稳定性和准确性。我们对23至36周的妊娠期数据进行了验证,涵盖了60条白质纤维束。它在对两个经典优化方法和一个深度学习流水线的对比中表现出优越的解剖匹配效果。外部数据进一步验证,来自人类发育连接组项目的数据证实了其在不同采集协议中的普适性。我们的结果表明,深度学习在胎儿大脑dMRI注册中的可行性和优势,为传统技术提供了一个更为准确可靠的替代方案。通过实现精确的跨被试和纤维束特异性分析,FetDTIAlign支持了早期大脑发育的新发现。