arXiv 论文列表

作者: Ajay Sivakumar, Shalini, Vasantha Raj, Sebastian Sylvester

arXiv:2504.02489v1 宣布类型: 新摘要: 本文介绍了一种自我学习代理，该代理将LLaMA 3.2与渐进神经网络（PNN）结合，用于对话AI和代码生成的持续学习。该框架动态收集数据，使用少量样本微调任务，并利用元学习实现快速适应。LoRA优化了微调过程，而弹性权重巩固（EWC）提高了知识留存。实验结果表明，这种方法在适应能力和内存稳定性方面有所提升，将其定位为通往通用人工智能（AGI）的可扩展步骤。

发布时间: 4/4/2025

查看原文

我们需要在科学发现的AI中改进数据整理和归属

作者: Mara Graziani, Antonio Foncubierta, Dimitrios Christofidellis, Irina Espejo-Morales, Malina Molnar, Marvin Alberts, Matteo Manica, Jannis Born

arXiv:2504.02486v1 公告类型: 新摘要: 随着人类生成数据和合成数据之间的互动演变，科学发现中数据的完整性和模型的稳定性面临着新的挑战。在本文中，我们探讨了合成数据在科学研究中相对于真实实验数据的作用。我们的分析表明，开放访问平台上近四分之三的实验数据集的采用率相对较低，这为通过自动化方法增强其可发现性和可利用性提供了新的机会。此外，我们观察到区分合成数据和真实实验数据的难度逐渐增加。我们建议通过增加对真实实验数据水印化的关注，补充现有的自动化合成数据检测工作，从而加强数据可追溯性和完整性。我们的估算表明，即使每年对生成的真实世界数据的一半进行水印化，也有助于保持模型的稳健性，同时促进合成和人类生成内容的平衡集成。

发布时间: 4/4/2025

查看原文

BOOST: 基于策略驱动的推理程序的-bootstrap化程序指导事实核查

作者: Qisheng Hu, Quanyu Long, Wenya Wang

arXiv:2504.02467v1 宣告类型: 新摘要: 程序引导的推理在通过将声明分解为函数调用并执行推理程序来进行复杂声明事实核查方面展现了潜力。然而，以往的工作主要依赖于带有临时演示的少样本上下文学习（ICL），这限制了程序的多样性，并需要大量的领域知识进行手动设计。从本质上讲，有效的推理程序生成的基本原理仍然未被充分探索，这使得构建有效的演示变得具有挑战性。为了解决这一问题，我们提出了BOOST，一种基于自助原理的少样本推理程序生成框架。BOOST 显式地将声明分解和信息收集策略作为程序生成的结构指导，以策略驱动和数据为中心的方式迭代优化自助演示，而不需人工干预。这使得从零样本到少样本的战略性程序引导学习变得无缝过渡，增强了可解释性和有效性。实验结果表明，BOOST 在零样本和少样本设置下均优于以往的少样本基线方法，用于复杂声明验证。

发布时间: 4/4/2025

查看原文

人工智能如何产生知识：受亚里士多德后分析篇启发的探究

作者: Guus Eelink, Kilian R\"uckschlo{\ss}, Felix Weitk\"amper

arXiv:2504.02430v1 宣布类型: 新摘要：贝叶斯网络和因果模型提供了处理外部干预和反事实问题的框架，使可以执行超越单独概率分布所能处理的任务。尽管这些形式化方法常常非正式地描述为捕捉因果知识，但在预测外部干预效果所需的知识类型方面缺乏正式理论。本文介绍了因果系统理论框架，以澄清人工智能领域中“知识是什么”与“知识为何”的区别。通过对现有的人工智能技术进行因果系统解释，它探讨了相应的知识类型。此外，本文argue预测外部干预的效果只能依靠“知识为何”，从而对执行此类任务所需的必要知识提供了更精确的理解。

发布时间: 4/4/2025

查看原文

Narrative Studio：使用LLM和蒙特卡洛树搜索的视觉叙事探索

作者: Parsa Ghaffari, Chris Hokamp

arXiv:2504.02426v1 声明类型: 新增摘要：交互式叙事需要计划和探索多种“如果”的情景。现代大型语言模型（LLM）是创意和探索有用的工具，但现有的基于聊天的用户界面限制用户只能遵循单一的线性流程。为了解决这一限制，我们提出了一种名为Narrative Studio的新颖的浏览器内叙述探索环境——该环境具有树状界面，允许从故事中用户定义的点进行分支探索。每条分支通过迭代的LLM推理延伸，该推理由系统定义和用户定义的提示引导。此外，我们还使用蒙特卡洛树搜索（MCTS）根据用户指定的标准自动扩展有希望的叙述路径，从而实现更具多样性和稳健性的故事发展。我们还允许用户通过将生成的文本与代表故事中角色和环境的实体图进行关联，来增强叙述的连贯性。

发布时间: 4/4/2025

查看原文

工程化人工智能：框架、挑战与未来方向

作者: Jay Lee, Hanqi Su, Dai-Yan Ji, Takanobu Minami

arXiv:2504.02269v1 公告类型: 新增摘要：在过去十年中，人工智能（AI）和机器学习（ML）在工程领域的应用获得了显著 popularity，并在数据驱动的背景下展示了其潜力。然而，工程问题的复杂性和多样性经常需要开发领域特定的AI方法，这在开发过程中通常受到系统方法、可扩展性和稳健性的限制。为了弥补这一差距，本文介绍了“ABCDE”作为工程AI的关键要素，并提出了一种统一的、系统化的工程AI生态系统框架，包括八个基本层次，以及属性、目标和应用，以指导为特定工程需求开发和部署AI解决方案。此外，还分析了关键挑战，并提出了九个未来研究方向。通过提供一种全面的观点，本文旨在推进AI的战略实施，促进下一代工程AI解决方案的发展。

发布时间: 4/4/2025

查看原文

VEGAS: 向owards 可视化解释和grounded 基于现实的人工社会智能

作者: Hao Li, Hao Fei, Zechao Hu, Zhengwei Yang, Zheng Wang

arXiv:2504.02227v1 社交智能查询(Social-IQ)作为评估模型社交智能水平的主要多模态基准。虽然当前解决方案在多项选择题(MCQ)准确率上取得了令人印象深刻的成就，但越来越多的证据显示，它们很大程度上或完全依赖于语言模态，忽视了视觉上下文。此外，封闭设定进一步阻碍了探索选择背后推理路径的正确性的能力。为了解决这些局限性，我们提出了可视觉解释和基于地面的合成社交智能(VEGAS)模型。作为生成型多模态模型，VEGAS利用开放式回答提供可解释的响应，从而增强推理路径的清晰度和评估。为实现基于视觉的回答，我们提出了一种新的采样策略，为模型提供更相关的视觉帧。然后，通过通用指令微调(GIFT)增强模型对这些帧的解释能力，旨在：i) 学习多模态-语言转换以掌握基本的情感社会特质，ii) 建立多模态联合推理能力。大量实验，包括模态消融、开放式评估和监督型MCQ评估，一致表明，VEGAS有效地利用视觉信息进行推理，产生正确且可信的答案。我们预计这项工作将为Social-IQ提供新的视角，并推动类似人类的社交AI的发展。

发布时间: 4/4/2025

查看原文

更多未必更好：多模型合成偏好数据在DPO安全对齐中的坑fall

作者: Yifan Wang, Runjin Chen, Bolian Li, David Cho, Yihe Deng, Ruqi Zhang, Tianlong Chen, Zhangyang Wang, Ananth Grama, Junyuan Hong

arXiv:2504.02193v1 宣布类型: 新摘要: 在后训练阶段，将大语言模型（LLMs）与人类价值观对齐已成为一个越来越关键的步骤。直接偏好优化（DPO）作为一种简单而有效的替代方法，已经出现，作为从人类反馈中进行强化学习（RLHF）的一种替代方法。合成偏好数据因其低成本和高品质，能够通过单模型或跨模型生成偏好数据实现有效的对齐。我们的研究揭示了与DPO对齐相关的一个引人注目的、特定于安全性的现象：尽管多模型生成的数据通过提供多样化响应，在一般任务（ARC、Hellaswag、MMLU、TruthfulQA、Winogrande）上提高了性能，但也倾向于在训练过程中促进奖励劫持。这可能导致当模型遇到脱缰提示时，具有较高的攻击成功率（ASR）。特别当使用更强的模型如GPT-4o或同一系列中的更大模型生成选定响应，并与目标模型自动生成的拒绝响应配对时，这一问题尤为明显，导致安全性结果显著下降。此外，就安全性而言，仅使用自动生成的响应（单模型生成）对选定和拒绝的配对表现显著优于包含强模型响应的数据配置，无论这些响应是直接用作选定数据还是多模型响应池的一部分。我们证明，多模型偏好数据在选定和拒绝响应之间具有较高的线性可分性，允许模型通过利用表面线索而不是内化稳健的安全约束来进行操作。我们在来自Llama、Mistral和Qwen家族的模型上进行的实验一致验证了这些发现。

发布时间: 4/4/2025

查看原文

大型语言模型推理中的扩展性研究综述

作者: Zihan Chen, Song Wang, Zhen Tan, Xingbo Fu, Zhenyu Lei, Peng Wang, Huan Liu, Cong Shen, Jundong Li

arXiv:2504.02181v1 宣布类型: 新论文摘要：大型语言模型（LLMs）的快速发展极大地增强了它们的推理能力，这得益于各种策略，如多agent协作。然而，与通过扩展数据量和模型规模实现的性能提升不同，LLMs推理的扩展更为复杂，甚至可能对推理性能产生负面影响，从而引发新的模型对齐和稳健性挑战。在这篇综述中，我们对LLMs推理的扩展进行了全面的检查，将其分类为多个维度，并分析了不同扩展策略在多大程度上提高了推理能力。我们首先探讨了输入规模的扩展，这使得LLMs能够处理和利用更广泛的上下文以改进推理。接下来，我们分析了推理步骤的扩展，这有助于多步推理和逻辑一致性。然后，我们研究了推理轮次的扩展，其中迭代交互可以改进推理结果。此外，我们讨论了通过迭代模型改进实现的训练增强推理，重点探讨了优化方法。最后，我们回顾了跨领域的扩展应用，并概述了进一步推进LLMs推理的未来方向。通过综合这些不同的视角，这篇综述旨在提供关于如何基本增强LLMs推理能力的见解，并进一步指导下一代AI系统的开发。

发布时间: 4/4/2025

查看原文

OmniCellTOSG：首个结合LLM和GNN建模的细胞文本-组学信号图数据集

作者: Heming Zhang, Tim Xu, Dekang Cao, Shunning Liang, Lars Schimmelpfennig, Levi Kaster, Di Huang, Carlos Cruchaga, Guangfu Li, Michael Province, Yixin Chen, Philip Payne, Fuhai Li

arXiv:2504.02148v1 宣告类型: 新摘要: 受多种蛋白质丰度和相互作用调控的复杂细胞信号系统在不同器官中生成多种细胞类型。这些系统受到年龄、性别、饮食、环境暴露和疾病等多种因素的影响而演化，因此在涉及数万种基因和蛋白质的情况下，解码这些信号网络具有挑战性。最近，数百亿条单细胞组学数据为理解不同细胞亚群和条件下这些信号网络提供了坚实的基础。受到大规模基础模型（例如大型语言模型和大型视觉模型）在大规模数据集上预训练成功的启发，我们引入了 OmniCellTOSG，这是第一个细胞文本-组学信号图（TOSG）数据集。每个 TOSG 表示个体或元细胞的信号网络，并带有器官、疾病、性别、年龄和细胞亚型等信息的标签。OmniCellTOSG 提供了两个关键贡献。首先，它引入了一种新的图模型，将生物学功能、细胞位置、信号通路、相关疾病和药物等可读注释与定量的基因和蛋白质丰度数据整合在一起，使图推理能够解码细胞信号。这需要新的结合大型语言模型和图神经网络的联合模型。其次，该数据集基于大约1.2亿个来自多种组织和条件（健康和患病）的单细胞RNA测序数据构建，并完全兼容 PyTorch。这为开发创新的细胞信号模型铺平了道路，这些模型可以彻底改变生命科学、医疗保健和精准医学领域。OmniCellTOSG 数据集持续扩展，并将定期更新。数据集和代码可在 https://github.com/FuhaiLiAiLab/OmniCellTOSG 获取。

发布时间: 4/4/2025

查看原文