LLM2D

arXiv 论文列表

作者: David Pfau, Ian Davies, Diana Borsa, Joao G. M. Araujo, Brendan Tracey, Hado van Hasselt
arXiv:2505.00663v1 宣告类型:交叉 摘要:我们介绍了Wasserstein策略优化(WPO),这是一种在连续动作空间中进行强化学习的演员-评论家算法。WPO 可以被视为 Wasserstein 梯度流的近似,该流应用于所有策略的空间,并投影到有限维参数空间(例如,神经网络的权重),从而导致一个简单且完全通用的封闭形式更新。该算法结合了许多确定性和经典策略梯度方法的特性。就像确定性策略梯度一样,它利用了对动作价值函数关于动作梯度的知识。像经典策略梯度一样,它可以应用于具有任意动作分布的策略——而无需使用参数化技巧。我们在DeepMind控制套件和一个磁约束聚变任务上展示了结果,并与现有的先进连续控制方法进行了比较,结果表现优异。
发布时间: 5/2/2025
查看原文
作者: Wenkai Yang, Jingwen Chen, Yankai Lin, Ji-Rong Wen
arXiv:2505.00662v1 Announce Type: 剪刀 摘要:由于大型语言模型(LLMs)正在迅速发展,提供准确反馈和可扩展的监管变得极为迫切和关键。利用LLMs作为评审模型以实现自动化监督是一种有前途的解决方案。在本文中,我们集中研究并增强了LLMs的数学评审能力。当前的LLM评审者提供的评审过于浅显和表面化,导致判断准确性低,并且难以提供足够的反馈使LLM生成器能够纠正错误。为了解决这一问题,我们提出了一种新颖且有效的两阶段框架来开发能够在数学解决方案的每一个推理步骤中有目的地进行评审的LLM评审者。在第一阶段,我们利用Qwen2.5-72B-Instruct生成4.5K长文形式的评审作为监督微调的种子数据。每个种子评审包含针对每个推理步骤的多视角验证以及初始评审的深入评论。然后,我们使用PRM800K的人工标注数据或通过蒙特卡洛采样基于正确性估计自动标注的数据对微调后的模型进行强化学习,以进一步激励其评审能力。基于Qwen2.5-7B-Instruct开发的评审模型不仅在各种错误识别基准上显著优于现有LLM评审者(包括相同规模的DeepSeek-R1-distill模型和GPT-4o模型),还能更有效地通过更详细的反馈帮助LLM生成器精炼错误步骤。
发布时间: 5/2/2025
查看原文
作者: Andrew K. Lampinen, Arslan Chaudhry, Stephanie C. Y. Chan, Cody Wild, Diane Wan, Alex Ku, J\"org Bornschein, Razvan Pascanu, Murray Shanahan, James L. McClelland
arXiv:2505.00661v1 宣传类型: cross 摘要:大型语言模型表现出令人兴奋的能力,但在微调后的泛化上却显示出出乎意料的狭窄范围——从无法泛化到简单的关系反转,到漏掉从训练信息中可以得出的逻辑推断。这些从微调中无法泛化的失败可能妨碍这些模型的实际应用。然而,语言模型的上下文学习显示出不同的归纳偏见,在某些情况下可以更好地泛化。在这里,我们探讨了基于上下文学习和基于微调学习之间的泛化差异。为此,我们构建了几个新的数据集来评估和提高模型从微调数据中泛化的能力。这些数据集构建成将数据集中的知识与预训练知识隔离,以创建干净的泛化测试。我们让预训练的大模型接触到这些数据集中的受控信息子集——或者在上下文中,或者通过微调——并在需要各种类型泛化的测试集上评估其性能。我们发现,在数据匹配的情况下,上下文学习相比微调更具灵活性泛化(尽管我们还发现了一些先前发现的例外情况,例如在较大的知识结构中包含反转时微调也可以泛化)。基于这些发现,我们提出了一个提高微调泛化能力的方法:在微调数据中加入上下文推断。我们展示出,这种方法在我们数据集和其他基准的各个分割上提高了泛化能力。我们的结果对于理解不同学习模式下语言模型的归纳偏见具有重要意义,并实际改进了它们的性能。
发布时间: 5/2/2025
查看原文
arXiv:2505.00654v1 类别: cross 摘要: 自大型语言模型(LLMs)异常涌现以来,关于它们的理解世界能力和捕捉它们参与对话的意义之间存在一个活跃的持续辩论。基于思想实验、LLMs与人类之间的轶事对话、统计语言分析、哲学考量等, arguments 和 counter-arguments 已被提出。在这篇简短的论文中,我们基于一个思想实验和半正式的考量,提出了一种固有的歧义障碍,这种障碍阻止了LLMs对它们极其流畅的对话的意义有任何理解。
发布时间: 5/2/2025
查看原文
arXiv:2505.00650v1 交叉公告类型:跨学科技术报告 摘要:从多组学数据中无监督地学习疾病亚型为个性化医疗的进步提供了重大机会。我们介绍了OmicsCL,这是一种模块化的对比学习框架,它可以将基因表达、DNA甲基化和microRNA表达等异质组学模态联合嵌入到一个统一的潜在空间中。我们的方法包含一种生存意识对比损失,该损失促使模型学习与生存相关模式对齐的表示,而无需依赖于label的结局。在TCGA BRCA数据集上评估时,OmicsCL揭示了临床相关的亚型聚类,并且在患者生存方面实现了强大的无监督一致性。该框架在超参数配置上表现出鲁棒性,并可以调整以优先考虑亚型一致性或生存分层。消融研究证实,整合生存意识损失显著增强了学习嵌入的预测能力。这些结果突显了对比目标在高维度异质组学数据中发现生物见解的潜力。
发布时间: 5/2/2025
查看原文
作者: Merve G\"ulle, Sebastian Weing\"artner, Mehmet Ak\c{c}akaya
arXiv:2505.00643v1 宣布类型: 交叉 摘要: 实时(Real-Time, RT)动态MRI在捕捉快速生理过程方面发挥着重要作用,提供有关器官运动和功能的独特见解。在这些应用中,实时 cine MRI 对心脏的功能评估尤为重要,具有高时间分辨率。实时成像使心脏运动的自由呼吸、无门控成像成为可能,成为无法忍受传统屏气、心电图门控采集的患者的重要替代方法。然而,由于额外心脏组织的混叠伪影,特别是在高欠采样因子下,实现高加速率在实时 cine MRI 中极具挑战性。在本研究中,我们提出了一种新的外体积去除(OVR)方法,通过在后处理框架中消除非心脏区域的混叠贡献来应对这一挑战。我们的方法使用时间交错欠采样模式的合成时间图像来估计每个时间帧的外体积信号,这些图像本身包含伪周期性鬼影伪影。一种深度学习(DL)模型被训练来识别并去除这些伪影,产生一个干净的外体积估计,随后从相应的 k 空间数据中减去。最终重建使用一种基于物理驱动的 DL (PD-DL) 方法进行,该方法通过一种特定的 OVR 损失函数训练,以恢复高空间-时间分辨率的图像。实验结果显示,在高加速率下,提出的方案在视觉上与临床基线图像保持一致,同时在定性和定量上均优于传统的重建技术。提出的这种方法提供了一个实用且有效的解决方案,可在无需改变采集的前提下减少实时 cine MRI 中的伪影,为在保持诊断质量的同时实现更高的加速率开辟了途径。
发布时间: 5/2/2025
查看原文
arXiv:2505.00626v1 类型: cross 摘要: 集成了多种输入角色(例如,系统指令、用户查询、外部工具输出)的大语言模型在实践中越来越普遍。确保模型能够准确区分每个角色的信号——我们称之为“角色分离”——是实现一致的多角色行为的关键。尽管近期的工作往往针对最先进的提示注入防御方法,但仍不清楚这些方法是否真正教会大语言模型区分角色,还是仅仅记忆了已知的触发信号。在这篇论文中,我们研究了“角色分离学习”:培训大语言模型以稳健地区分系统和用户标记的过程。通过一个“简单且受控的实验框架”,我们发现,微调模型通常依赖于两种角色识别的替代手段:(1) 任务类型利用,以及 (2) 靠近文本开头的位置。虽然数据增强可以在一定程度上缓解这些捷径,但通常会导致不断打补丁而不是根本性修复。为了应对这一问题,我们提出了强化标记角色边界的“不变信号”的方法:通过调整模型输入编码中的标记间线索。特别是,操纵位置ID有助于模型学习更清晰的区别,并减少对其表面替代信号的依赖。通过这种以机制为中心的观点,我们的工作揭示了大语言模型如何在不简单记忆已知提示或触发信号的情况下,更可靠地维护一致的多角色行为。
发布时间: 5/2/2025
查看原文
arXiv:2505.00624v1 交叉公告类型 摘要:从头训练大型语言模型(LLMs)需要大量的计算资源,推动了开发更小、专用领域的LLMs的兴趣,以保持效率和强大的任务性能。中型模型如LLaMA等为领域特定的适应提供了起点,但它们在针对专门数据集进行测试时往往会出现准确性下降的问题。我们介绍了FineScope,这是一种从大型预训练模型中提取紧凑、领域优化LLM的框架。FineScope 利用了稀疏自编码器(SAE)框架,受到其生成可解释特征表示的能力启发,从大型数据集提取领域特定的子集。我们应用了结构剪枝,并结合领域特定的约束条件,确保剪枝后的模型保留了目标领域的关键知识。为了进一步提升性能,这些剪枝后的模型经过自我数据蒸馏,利用SAE挑选的数据集恢复剪枝过程中丢失的关键领域信息。广泛的实验和消融研究表明,FineScope 实现了高度竞争的性能,在特定领域任务中超过了多个大规模的先进LLM。此外,我们的结果显示,FineScope 使经过SAE挑选的数据集微调的剪枝模型能够重新获得原始性能的一部分。进一步将这些数据集应用于未剪枝的预训练LLM的微调也提高了其领域特定的准确性,突显了我们方法的稳健性。代码将在稍后发布。
发布时间: 5/2/2025
查看原文
作者: Colin Kessler, Ekaterina Komendantskaya, Marco Casadio, Ignazio Maria Viola, Thomas Flinkow, Albaraa Ammar Othman, Alistair Malhotra, Robbie McPherson
arXiv:2505.00622v1 交叉类型 摘要:随着机器学习在自主系统中的应用越来越广泛,神经网络控制器的验证已经成为一个活跃的研究领域。现有的工具和年度验证竞赛表明,这项技术很快就会在实际应用中取得成效。我们的应用源自微飞器领域,这些微飞器被动地由风携带,可能在天气或污染监测方面有多种用途。具体来说,我们研究了模仿Alsomitra macrocarpa散布体的厘米级生物启发滑翔无人机。在本文中,我们提出了一种新的案例研究,旨在验证基于神经网络控制器的Alsomitra启发式无人机,以严格遵循目标轨迹。我们证明了我们的系统与现有的VNN和ARCH竞赛基准存在显著差异,并表明结合使用工具对未来验证此类系统充满希望,前提是某些缺点能够得到克服。我们提出了一种用于稳健训练回归网络的新方法,并在Vehicle和CORA中研究了该案例研究的形式化。我们的验证结果表明,所研究的训练方法确实会提高该应用中神经网络控制器的性能和鲁棒性,但在范围和实用性方面仍有限制。这主要是由于Vehicle和CORA两者的系统性局限性以及我们系统的复杂性限制了可达性的规模,而这在本文中得到了详细研究。如果这些局限性能够克服,这将使工程师能够开发出安全且可靠的可提高人们生活质量并减少我们对环境影响的技术。
发布时间: 5/2/2025
查看原文
作者: Simon Giebenhain, Tobias Kirschstein, Martin R\"unz, Lourdes Agapito, Matthias Nie{\ss}ner
arXiv:2505.00615v1 屈曲类型: 交叉 摘要: 我们解决了从单张RGB图像重建人体面部三维结构的问题。为此,我们提出了一种高度通用的视觉变压器集合,Pixel3DMM,用于预测每个像素的几何线索,以约束3D可变面部模型(3DMM)的优化。我们利用DINO基础模型的潜在特征,并引入了专门的法线和平面坐标预测头部。我们通过将三个高质量的3D面部数据集注册到FLAME网格拓扑上来训练我们的模型,从而总共获得超过1000个身份和976K张图像。对于3D面部重建,我们提出了一种FLAME拟合优化方法,该方法从平面坐标和平面估计值中求解3DMM参数。为了评估我们的方法,我们引入了一个新的单图面部重建基准,该基准具有高度多样的面部表情、视角和种族特征。至关重要的是,我们的基准是第一个同时评估有表情和中立面部几何结构的方法。最终,我们的方法在有表情面部几何结构的几何精度上比最竞争的基线高出15%以上。
发布时间: 5/2/2025
查看原文