arXiv 论文列表

作者: Shuai Wang, Ivona Najdenkoska, Hongyi Zhu, Stevan Rudinac, Monika Kackovic, Nachoem Wijnberg, Marcel Worring

arXiv:2505.06020v1 通知类型: 新颖摘要: 理解视觉艺术需要跨多个视角——文化、历史和风格——的推理，而不仅仅是对象识别。虽然最近的多模态大型语言模型（MLLMs）在通用图像描述上表现良好，但它们往往无法捕捉到fine art所需要的细腻解读。我们提出了ArtRAG，一种新颖的无需训练的框架，结合结构化知识与检索增强生成（RAG）来进行多视角艺术作品解释。ArtRAG 从领域特定的文本源自动构建一个艺术上下文知识图谱（ACKG），将艺术家、运动、主题和历史事件组织成一个丰富且可解释的图结构。在推理时，多层次结构化的检索器选择语义上和拓扑上相关的子图来引导生成。这使MLLMs能够生成上下文相关、文化意识的艺术描述。在SemArt和Artpedia数据集上的实验表明，ArtRAG 在多个重訓基线中表现更优。进一步的人类评估还证实，ArtRAG 生成的解释是连贯的、有洞察力的，并富含文化内涵。

发布时间: 5/12/2025

查看原文

伪布尔 d-DNNF 编译用于表达性特征模型构造

作者: Chico Sundermann, Stefan Vill, Elias Kuiter, Sebastian Krieter, Thomas Th\"um, Matthias Tichy

arXiv:2505.05976v1 宣告类型: 新摘要: 可配置系统通常由相互依赖的可重用组件组成。为了指定这些依赖关系，通常使用功能模型。由于在实践中功能模型往往非常复杂，因此通常采用自动化推理方法来分析这些依赖关系。目前，将功能模型转换为合取范式（CNF）已成为一种事实上的标准做法，这使得可以利用现成的工具，例如SAT或#SAT求解器。然而，现代功能建模方言中常包含不适合转换为CNF的构造，如基数约束。这种推理引擎的输入与可用的功能建模方言之间的不匹配限制了更具表现力的构造的应用。在本文中，我们缩短了表达能力强的构造与可扩展自动化推理之间的差距。我们的贡献主要有两点：首先，我们提供了一种伪布尔编码方法，相对于布尔编码，该方法可以更简洁地表示常用的构造。其次，我们提出了一种将伪布尔公式编译为布尔d-DNNF的新方法。通过编译的d-DNNF，我们可以利用功能建模中已经广泛使用的高效分析方法。我们的实证评估表明，在针对表达性强的功能模型的输入时，我们的建议相对于使用CNF输入的方法显著提高了表现。对于代表不同类型功能模型和功能建模构造的每一个已考虑的数据集，相比于转换为CNF，功能模型可以显著更快地转换为伪布尔公式。总体而言，使用我们的伪布尔方法可以从具有目标表现力约束的功能模型中更加快速地推导出d-DNNF。此外，对于仅包含基本构造的功能模型，我们的方法也具有竞争力。

发布时间: 5/12/2025

查看原文

将抽象论辩与机器学习相结合以高效分析低级过程事件流

作者: Bettina Fazzinga, Sergio Flesca, Filippo Furfaro, Luigi Pontieri, Francesco Scala

arXiv:2505.05880v1 公告类型: 新摘要: 监控和分析过程痕迹对于现代企业和组织来说是一项关键任务。在存在过程痕迹事件与参考业务活动之间差距的情况下，这就引出了一种解释问题，即把每个正在进行的痕迹中的事件转化为相应的业务活动实例中的步骤。基于一种将解释问题框架化为抽象论辩框架(AA)中的接受问题的方法，我们可以优雅地分析可能的事件解释（可能以聚合形式呈现），同时为那些与先前过程知识相冲突的解释提供解释。由于在事件到活动映射高度不确定（或简单地未明确规定）的情况下，基于推理的方法可能会导致低效的结果和高计算成本，可以考虑发现一个序列标注模型，该模型被训练以在上下文感知的方式下建议高度可能的候选事件解释。然而，以最优方式训练这样一个模型可能需要使用大量人工标注的示例痕迹。考虑到迅速开发绿色AI解决方案的需求，这些解决方案有助于环境和社会的持续发展（具有降低劳动/计算成本和碳足迹），我们提出了一种数据和计算效率高的神经符号方法来解决这个问题，其中基于AA的推理者对示例驱动的序列标签器返回的候选解释进行了精炼。这使我们能够利用先验知识来弥补示例数据的稀缺性，这一点由实验结果得到了证实；显然，这种特性在数据标注和模型优化成本受到严格限制的情况下特别有用。

发布时间: 5/12/2025

查看原文

APOLLO: 自动化大语言模型和精简协作以进行高级形式推理

作者: Azim Ospanov, Roozbeh Yousefzadeh

arXiv:2505.05758v1 宣告类型: 新摘要: 形式推理和自动定理证明是机器学习的一个具有挑战性的子领域，在该领域中，机器使用如Lean这样的形式语言来证明数学定理。形式验证系统几乎可以瞬时检查一个形式证明是否正确，但用大规模语言模型（LLMs）生成完全正确的形式证明仍然是一项艰巨的任务。文献中通常的方法是多次（多达数千次）提示LLM，直到其中一个生成的证明通过验证系统。在这项工作中，我们提出了APOLLO（Automated PrOof repair via LLM and Lean cOllaboration），一个模块化、模型无关的管道，结合了Lean编译器的长处和LLM的推理能力，以在较低的采样预算下获得更好的证明生成结果。Apollo指导了一个完全自动化的流程，在该流程中，LLM生成定理证明，一组代理分析证明，修正语法错误，使用Lean识别证明中的错误，隔离失败的子引理，利用自动化求解器，并在每个剩余目标上较低的top-K预算下调用一个LLM。修复的子证明重新组合并重新验证，迭代直到用户控制的上限次数。在miniF2F基准测试中，我们在7B参数模型中建立了新的最佳准确率75.0%，同时保持采样预算低于一千。此外，Apollo将Goedel-Prover-SFT的最佳准确率从65.6%提高到25,600次采样减少到几百次采样。通用模型（o3-mini, o4-mini）从3-7%的准确率跃升至超过40%。我们的结果表明，受编译器指导的LLM输出的靶向修复在效率和正确性方面带来了巨大的增益，表明了一种可扩展的自动定理证明的一般范式。

发布时间: 5/12/2025

查看原文

为数据高效离线强化学习预训练共享Q网络

作者: Jongchan Park, Mingyu Park, Donghwan Lee

arXiv:2505.05701v1 宣告类型: 新摘要: 离线强化学习（RL）的目标是从静态数据集中学习策略，而无需进一步与环境互动。收集足够大的离线RL数据集是令人筋疲力尽的，因为这需要与环境进行大量的互动，当与环境的互动受到限制时，情况变得尤为复杂。因此，如何在使用最少的静态数据集的情况下使代理学习最佳策略，成为离线RL中的一个关键问题，类似于在线RL中的样本高效性问题。在本文中，我们提出了一种简单且有效的即插即用预训练方法，以增强离线RL中的数据效率。具体而言，我们引入了一种共享的Q网络结构，该结构输出下一个状态的预测和Q值。我们通过一个监督回归任务预训练共享的Q网络，该任务预测下一个状态，并使用不同的离线RL方法训练共享的Q网络。通过广泛的实验，我们实验证明，我们的方法可以增强在D4RL、Robomimic和V-D4RL基准上现有的流行离线RL方法的性能。此外，我们展示了我们的方法在D4RL和ExoRL基准上显著提升了不同数据质量和数据分布下的数据高效离线RL。值得一提的是，即使只使用数据集的10%，我们的方法也优于标准算法，即使是在完整的数据集上。

发布时间: 5/12/2025

查看原文

少样本知识图嵌入的提示元学习

作者: Han Wu, Jie Yin

arXiv:2505.05684v1 通告类型: 新摘要: 少量样本知识图谱完成 (KGC) 由于其在现实场景中的实际应用而获得了显著的关注，尤其是在有限可用数据的情况下，新的知识经常出现。尽管大多数现有的少量样本 KGC 方法主要集中在利用关系信息上，但知识图谱中固有的丰富语义仍然被很大程度忽视。为了解决这一差距，我们提出了一种新的提示元学习 (PromptMeta) 框架，该框架无缝地将元语义与关系信息集成到少量样本 KGC 中。PromptMeta 包含两个关键创新：(1) 一个元语义提示池，用于捕获和汇总高级别元语义，从而实现有效的知识转移和对稀有和新出现的关系的适应。(2) 一个可学习融合提示，能够在元语义信息与不同少量样本任务的特定关系信息之间动态结合。这两个组件在元学习框架中与模型参数共同优化。在两个基准数据集上的广泛实验表明了我们方法的有效性。

发布时间: 5/12/2025

查看原文

利用大型语言模型进行酶促反应预测与表征

作者: Lorenzo Di Fruscia, Jana Marie Weber

arXiv:2505.05616v1 通告类型: 新增摘要: 预测酶促反应对于生物催化、代谢工程和药物发现等应用至关重要，但这一任务依然复杂且资源密集。大型语言模型（LLMs）最近在各种科学领域展示了显著的成功，例如通过它们能够泛化知识、处理复杂结构以及利用上下文学习策略的能力。在这项研究中，我们系统地评估了LLMs，尤其是Llama-3.1家族（8B和70B）在三个核心生化任务中的能力：酶委分类号预测、正向合成和逆合成。我们比较了单任务学习和多任务学习策略，并采用LoRA适配器进行参数高效的微调。此外，我们评估了在不同数据集规模下的性能，以探索它们在数据量有限环境下的适应性。我们的结果显示，微调后的LLMs能够捕捉生化知识，多任务学习通过利用共享的酶促信息增强了正向和逆合成预测。我们还识别出了一些关键限制，例如在层次化的EC分类方案中的挑战，这凸现出在基于LLMs的生化建模中需要进一步改进的领域。

发布时间: 5/12/2025

查看原文

scDrugMap: 评估大型基础模型在药物响应预测中的性能

作者: Qing Wang, Yining Pan, Minghao Zhou, Zijia Tang, Yanfei Wang, Guangyu Wang, Qianqian Song

arXiv:2505.05612v1 声明类型: 新摘要：药物耐药性是癌症治疗中的一大挑战。单细胞测序提供了细胞异质性的洞见，但将大规模基础模型应用于预测单细胞数据中的药物反应仍处于未被充分探索的阶段。为解决这一问题，我们开发了scDrugMap，这是一种集成框架，具备Python命令行界面和基于Web的服务器，用于药物响应预测。scDrugMap评估了多种基础模型，包括八种单细胞模型和两种大型语言模型，使用了一个包含超过326,000个细胞的主数据集和18,800个细胞的验证集，覆盖了36个数据集以及多种组织和癌症类型。我们分别在合并数据和跨数据评估场景下，使用分层冻结和Low-Rank Adaptation (LoRA) 微调策略对模型性能进行了基准测试。在合并数据场景中，scFoundation表现出最佳性能，分别在分层冻结和微调时的平均F1得分为0.971和0.947，优于性能最差的模型超过50%。在跨数据设置中，UCE在微调后表现出色（平均F1: 0.774），而scGPT在零样本学习中表现出色（平均F1: 0.858）。总体而言，scDrugMap为单细胞数据中的药物响应预测提供了第一个大规模基准测试，并作为用户友好、灵活的平台，促进了药物发现和转化研究的进展。

发布时间: 5/12/2025

查看原文

HiBayES：AI评估统计的层次贝叶斯建模框架

作者: Lennart Luettgau, Harry Coppock, Magda Dubois, Christopher Summerfield, Cozmin Ududec

arXiv:2505.05602v1 公告类型: 新摘要：随着大型语言模型（LLMs）和其他AI系统的不断发展，从固有的随机输出中稳健地估计其能力，同时系统地量化这些估计中的不确定性变得越来越重要。此外，先进的AI评估往往具有嵌套的分层结构，表现出高度的复杂性，并且在测试最先进的人工智能系统时成本较高。为了解决这些挑战，我们引入了HiBayES，这是一种适用于AI评估统计的通用分层贝叶斯建模框架。HiBayES 支持在经典问题-回答基准和高级代理评估中的稳健推断，尤其是在低数据情景（例如，每项评估少于20个数据点）中。基于广义线性模型（GLMs）、贝叶斯数据分析和形式模型比较，HiBayES 提供了稳健的不确定性量化和参数估计。本文提供了HiBayES的全面介绍，包括示例说明、与常规统计方法的比较以及实施多层次贝叶斯GLMs的实用指导。此外，我们还提供了一个HiBayES软件包 [4]（Beta版本），以实现开箱即用。

发布时间: 5/12/2025

查看原文

通过测量确保安全：AI 安全评估方法的系统文献综述

作者: Markov Grey, Charbel-Rapha\"el Segerie

arXiv:2505.05541v1 宣布类型: 新摘要：随着前沿AI系统向变革性能力迈进，我们需要在度量和评估这些系统方面进行并行变革，以确保安全并指导治理。尽管基准一直是估计模型能力的主要方法，但它们往往无法建立真实上限或预测部署行为。本文综述了AI安全评估的迅速演变领域，提出了围绕三个维度的系统分类：我们测量的属性，我们如何测量它们，以及这些测量如何集成到框架中。我们展示了评估超越基准的方法，通过测量模型在极限下可以做什么（能力）、默认表现出的行为倾向（倾向），以及即使面临颠覆性对抗AI，我们的安全措施是否仍然有效（控制）来进行评估。这些属性通过行为技术（如支撑结构、红队演练和监督微调），以及内部技术（如表征分析和基于机制的可解释性）进行测量。我们对一些安全关键的能力进行了更深入的解释，如网络安全利用、欺骗、自主复制和情境意识，以及令人担忧的倾向，如权力追求和 scheming。本文综述了这些评估方法如何集成到治理框架中，将结果转化为具体的开发决策。我们还指出了安全评估的挑战 - 证明不存在能力、模型的潜在保守性，以及“安全漂白”的激励 - 同时指出了有希望的研究方向。通过综合分散的资源，本文综述旨在为理解AI安全评估提供一个中心参考点。

发布时间: 5/12/2025

查看原文