arXiv 论文列表

哥德尔证明器：开源自动化定理证明的前沿模型

作者: Yong Lin, Shange Tang, Bohan Lyu, Jiayun Wu, Hongzhou Lin, Kaiyu Yang, Jia Li, Mengzhou Xia, Danqi Chen, Sanjeev Arora, Chi Jin

arXiv:2502.07640v2 宣告类型: replace-cross 摘要: 我们引入了Goedel-Prover，这是一个开源的大语言模型（LLM），在数学问题的自动化形式证明生成方面达到了最先进的（SOTA）性能。该领域面临的 key challenge 是形式化数学命题和证明的稀缺，我们通过以下方式应对这一挑战。我们训练声明形式化器，将 Numina 中的自然语言数学问题翻译成形式语言（Lean 4），创建了一个包含 164 万形式化声明的数据集。大语言模型用于检查这些形式化声明是否准确地保留了原始自然语言问题的内容。然后，通过训练一系列证明器，逐步构建一个大型形式化证明的数据集。每个证明器都成功证明了许多之前证明器无法证明的命题，这些新证明被添加到下一个证明器的训练集中。尽管仅使用监督微调，我们最终的证明器显著优于之前的最佳开源模型 DeepSeek-Prover-V1.5，该模型使用强化学习。在 miniF2F 验证基准上，我们的模型取得了 57.6%（Pass@32）的成功率，超越了 DeepSeek-Prover-V1.5 的 7.6%。在 PutnamBench 上，Goedel-Prover 成功解决了 7 个问题（Pass@512），在排行榜上排名第一。此外，它为 Lean Workbook 问题生成了 29,700 个形式化证明，几乎是此前工作产量的两倍。

发布时间: 2/17/2025

查看原文

细节在提示中：脱敏痕迹加剧了合成胸部X光生成的记忆风险

作者: Raman Dutt

arXiv:2502.07516v2 Announce Type: replace-cross 摘要：生成模型，特别是在医学图像分析中，文本到图像（T2I）扩散模型起着关键作用。然而，这些模型容易记住训练数据，这对患者隐私构成了重大风险。合成胸部X光图像是在医学图像分析中最常见的应用之一，而MIMIC-CXR数据集是该任务的主要数据存储库。本研究首次系统地尝试识别MIMIC-CXR中最能导致训练数据记忆化的提示和文本标记。我们的分析揭示了两个意想不到的发现：（1）包含去识别程序痕迹（用于隐藏受保护的健康信息的标记）的提示是最容易记忆的，（2）在所有标记中，去识别标记对记忆化的贡献最大。这突显了标准匿名化实践及MIMIC-CXR在T2I合成中所面临更广泛的问题。更糟糕的是，现有的推理时记忆化缓解策略效果不佳，无法充分减少模型对记忆化文本标记的依赖。为此，我们提出了不同利益相关方的可行动策略，以增强隐私并提高生成模型在医学成像中的可靠性。最后，我们的结果为未来使用MIMIC-CXR数据集开发和基准测试合成胸部X光图像记忆化缓解技术奠定了基础。匿名代码可在https://anonymous.4open.science/r/diffusion_memorization-8011/获取。

发布时间: 2/17/2025

查看原文

2021年东京奥运会多语言新闻文章数据集

作者: Erik Novak, Erik Calcina, Dunja Mladeni\'c, Marko Grobelnik

arXiv:2502.06648v2 宣告类型: replace-cross 摘要：在本文中，我们介绍了一个涵盖2021年东京奥运会的多语言新闻文章数据集。总共从1,918家不同的出版商收集了10,940篇新闻文章，涵盖了2021年奥运会的1,350个子事件，并且发布时间为2021年7月1日至2021年8月14日。这些文章使用了来自不同语言家族的九种不同语种和书写系统编写。为了创建这个数据集，首先通过一个收集和分析新闻文章的服务获取原始新闻文章。然后，使用在线聚类算法将文章分组，每组包含报道同一子事件的文章。最后，对这些组进行了人工标注和评估。开发这个数据集的目标是为了提供一个评估多语言新闻聚类算法性能的资源，目前可利用的数据集有限。它还可以从不同角度分析2021年东京奥运会的动态和事件。该数据集以CSV格式提供，并可通过CLARIN.SI仓库访问。

发布时间: 2/17/2025

查看原文

kolmogorov-阿诺德网络的低张量秩适应

作者: Yihang Gao, Michael K. Ng, Vincent Y. F. Tan

arXiv:2502.06153v2 宣布类型: 替换交叉摘要：Kolmogorov--Arnold网络（KANs）在各种领域中已被证明是多层感知机（MLPs）的一种替代方案，尤其是在科学任务方面。然而，KANs的迁移学习仍然是一个相对未探索的领域。在本文中，受张量的Tucker分解以及KAN参数更新中低张量秩结构证据的启发，我们为微调KANs开发了低张量秩适应（LoTRA）。我们基于Tucker分解近似来研究LoTRA的表示能力。此外，我们提供了一种理论分析，以选择每个LoTRA组件的学习率，从而使训练更加高效。我们的分析还表明，使用所有组件相同的学习率会导致训练效率低下，突显了需要适应性学习率策略的必要性。除了理论见解之外，我们还探讨了LoTRA在通过微调KANs高效解决各种偏微分方程（PDEs）中的应用。此外，我们提出了Slim KANs，将KAN参数张量的固有低张量秩特性整合其中，以减少模型大小并保持卓越性能。实验结果验证了所提出的适应性学习率选择策略的有效性，并展示了LoTRA在KANs解决PDEs中的迁移学习中的有效性。进一步评估Slim KANs在函数表示和图像分类任务中的性能表明LoTRA的灵活性以及通过低张量秩分解减少参数数量的潜力。

发布时间: 2/17/2025

查看原文

MedMimic：基于医生灵感的多模态融合早期诊断不明原因发热

作者: Minrui Chen, Yi Zhou, Huidong Jiang, Yuhan Zhu, Guanjie Zou, Minqi Chen, Rong Tian, Hiroto Saigo

arXiv:2502.04794v2 宣告类型: replace-cross 摘要：无法解释的发热（FUO）仍然是一个诊断难题。MedMimic 是一个受到现实世界诊断过程启发的多模态框架。它使用预训练模型如 DINOv2、Vision Transformer 和 ResNet-18，将高维的18F-FDG PET/CT 影像转换为低维且语义上有意义的特征。然后，一个可学习的自注意力融合网络将这些影像特征与临床数据结合进行分类。使用2017年至2023年期间四川大学华西医院的416例FUO患者病例，多模态融合分类网络MFCN在七个任务上的宏AUROC分数范围为0.8654到0.9291，优于传统的机器学习方法和单一模态的深度学习方法。消融研究和五折交叉验证进一步验证了其有效性。通过结合预训练大型模型和深度学习的优势，MedMimic 提供了一种有前景的疾病分类解决方案。

发布时间: 2/17/2025

查看原文

基于提示的大型语言模型深度剪枝

作者: Juyun Wee, Minjae Park, Jaeho Lee

arXiv:2502.04348v2 宣告类型: replace-cross 摘要：深度剪枝旨在通过简单地移除几个较不重要的变压器块，从而减少大型语言模型的推理成本，而无需任何硬件特定的复杂性。然而，我们的实证研究发现，变压器块的重要性可能高度依赖于不同的任务——对某个任务至关重要的块可以在不影响另一个任务的准确性的前提下被移除。基于这一观察，我们开发了一种动态深度剪枝算法，称为 PuDDing（Prompt-routed Dynamic Depth Pruning），该算法根据输入提示来决定从模型中省略哪些块。PuDDing 通过训练一个轻量级路由器来预测在一组选项中最佳的省略集，而这些选项集也是通过数据驱动的方式构建的。在常识推理基准测试上的实证结果表明，PuDDing 有效地加速了推理语言模型，并在任务相关性能上优于静态深度剪枝baseline。

发布时间: 2/17/2025

查看原文

DiTAR：扩散变换器自回归建模用于语音生成

作者: Dongya Jia, Zhuo Chen, Jiawei Chen, Chenpeng Du, Jian Wu, Jian Cong, Xiaobin Zhuang, Chumin Li, Zhen Wei, Yuping Wang, Yuxuan Wang

arXiv:2502.03930v2 通知类型: 替换-交叉摘要：最近有几项研究尝试通过结合扩散模型和自回归模型来自回归生成连续语音表示，而无需使用离散语音标记，但它们往往面临计算负担过重或结果不佳的挑战。本文我们提出了一种基于补丁的自回归框架——DiTAR（Diffusion Transformer Autoregressive Modeling），该框架将语言模型与扩散变压器结合。这种方法显著增强了自回归模型在连续标记上的有效性，并降低了计算需求。DiTAR 采用分而治之的策略生成补丁，语言模型处理聚合的补丁嵌入，扩散变压器随后基于语言模型的输出生成下一个补丁。在推理方面，我们提出将温度定义为在反向扩散 ODE 中引入噪声的时间点，以平衡多样性和确定性。此外，我们在广泛的扩展分析中证明了 DiTAR 的卓越扩展性。在零样本语音生成中，DiTAR 实现了在稳健性、说话者相似性和自然度方面的最佳性能。

发布时间: 2/17/2025

查看原文

Syntriever: 用大语言模型生成的合成数据训练检索器的方法

作者: Minsang Kim, Seungjun Baek

arXiv:2502.03824v3 公告类型: replace-cross 摘要: 大型语言模型（LLMs）已在许多AI应用中促进了进步。最近，有人尝试将LLMs的知识提炼到信息检索系统中。这些提炼方法大多使用LLMs的输出概率，而最新的黑盒LLMs中不可用。我们提出了Syntriever，这是一种使用来自黑盒LLMs的合成数据训练检索器的训练框架。Syntriever包括两个阶段。首先，在提炼阶段，我们使用思维链合成为给定查询合成相关和可能不相关的段落以及增强查询。然后，LLMs被要求自验证合成数据以检查是否存在幻觉，之后使用一种设计的损失进行训练，该损失用于聚类相关段落的嵌入。其次，在对齐阶段，我们将检索器与LLMs的偏好对齐。我们提出了一种称为部分Plackett-Luce排名的偏好建模方法，通过正则化防止模型在提炼阶段训练后过度偏离。实验表明，Syntriever在不同领域基准数据集的nDCG@$K$上实现了最先进的性能。代码可在 \href{https://github.com/kmswin1/Syntriever}{https://github.com/kmswin1/Syntriever} 获取。

发布时间: 2/17/2025

查看原文

PRISM：一种在 noisy 示范下具有鲁棒性的基于技能的元强化学习框架

作者: Sanghyeon Lee, Sangjun Bae, Yisak Park, Seungyul Han

arXiv:2502.03752v2 类型: replace-cross 摘要：元强化学习（Meta-RL）促进了对未见过任务的快速适应，但在长期环境中面临挑战。基于技能的方法通过将状态-动作序列分解为可重用的技能并采用层次决策来应对这一挑战。然而，这些方法对嘈杂的离线演示数据非常敏感，导致技能学习不稳定并降低了性能。为了解决这个问题，我们提出了一种名为优先精炼基于技能的元强化学习（PRISM）的稳健框架，该框架通过在嘈杂数据附近进行探索来生成在线轨迹，并将这些轨迹与离线数据结合。通过优先筛选，PRISM 提取高质量数据以有效学习任务相关的技能。通过解决噪声的影响，我们的方法确保技能学习的稳定性，即使在嘈杂和次优数据的情况下也能在长期任务中实现优异的性能。

发布时间: 2/17/2025

查看原文

跨域视觉观测条件下不变领域特征的每帧提取用于 imitation 学习

作者: Minung Kim, Kawon Lee, Jungmo Kim, Sungho Choi, Seungyul Han

arXiv:2502.02867v2 宣告类型: replace-cross 摘要：模仿学习（IL）使代理能够模仿专家行为而无需奖励信号，但在高维、嘈杂和不完整视觉观察的跨域场景中面临着挑战。为了应对这一挑战，我们提出了域不变逐帧特征提取用于模仿学习（DIFF-IL），这是一种新颖的IL方法，可以从单独的帧中提取域不变特征，并将这些特征适应成序列，以隔离和复制专家行为。我们还引入了一种逐帧时间标注技术，通过时间步长分割专家行为，并根据时间上下文分配奖励，从而增强任务性能。在多种视觉环境中的实验表明，DIFF-IL在处理复杂视觉任务方面具有有效性。

发布时间: 2/17/2025

查看原文