arXiv:2503.22931v2 代理类型:替换
摘要:在这篇论文中,我们提出了一种新颖的因子代理架构,旨在克服传统单一代理系统在代理型人工智能中的局限性。我们的方法将代理分解为两个专门的组件:(1)一个大型语言模型(LLM),作为高级规划者和上下文学习者,它可以利用用户提示中动态可用的信息;(2)一个较小的语言模型,作为工具格式和输出的记忆者。这种解耦解决了统一设计中存在的常见问题,包括不正确的、缺失的和虚构的API字段,以及在动态环境中不最优的规划。实证评估表明,我们的因子架构在规划准确性和容错性方面有显著改进,同时阐明了上下文学习与静态记忆之间的固有权衡。这些发现表明,因子方法是开发更强大、更具适应性的代理型人工智能系统的有前途的途径。
arXiv:2503.15558v2 通知类型: 替换
摘要:物理AI系统需要在物理世界中感知、理解和执行复杂动作。本文中,我们提出了Cosmos-Reason1模型,该模型可以在长链推理过程中通过自然语言生成适当的体态决策(例如,下一步动作)。我们首先定义了物理AI推理的关键能力,重点关注物理常识和体态推理。为了表示物理常识,我们使用了一个分层本体,捕获了关于空间、时间和物理的基本知识。在体态推理方面,我们依赖于一个二维本体,可以在不同物理体态之间进行泛化。基于这些能力,我们开发了两种多模态大型语言模型,Cosmos-Reason1-8B 和 Cosmos-Reason1-56B。我们分四个阶段整理数据并训练模型:视觉预训练、一般监督微调(SFT)、物理AI微调和物理AI强化学习(RL)作为后处理。为评估我们的模型,我们根据我们的本体构建了全面的基准测试,用于物理常识和体态推理。评估结果显示,物理AI微调和强化学习带来了显著改进。为了促进物理AI的发展,我们将按照 NVIDIA 开放模型许可证,在 https://github.com/nvidia-cosmos/cosmos-reason1 公开我们的代码和预训练模型。
arXiv:2503.04530v2 宣布类型: 修订
摘要: 大型语言模型在推理方面表现出色,但经常依赖于链式思考提示,限制了其在需要更细致拓扑结构的任务中的性能。我们提出了SOLAR(大规模架构优化以推理),这是一个框架,能够动态优化链式思考(CoT)、树式思考(ToT)和图式思考(GoT)拓扑结构,以提高准确性和效率。我们的拓扑注释生成(TAG)系统自动化了数据集的创建、标注和难度分割,从而在训练后和测试时间性能方面表现出更强的效果。我们还提出了一种基于课程学习的拓扑扩展方法(Topological Scaling),该方法适应性地将训练后和推理扩展结合到每个任务中。在MATH和GSM8K上,SOLAR带来了显著的提升:拓扑调整提高了5%的准确性,拓扑激励提高了9%的准确性,混合扩展提高了10.02%的准确性,同时将响应长度减少了超过5%,降低了推理延迟。为了进一步提高效率,我们引入了一种多任务拓扑奖励模型(M-TRM),该模型能够在单次通过中选择出最佳的推理拓扑和最终答案,从而消除多个单一任务的TRMs。值得注意的是,M-TRM还超越了所有单一任务的TRMs,提高了10%的准确性,并提高了9%的相关性。总体而言,SOLAR确立了可扩展、高精度的大规模语言模型推理的新基准,并引入了一个完全自动化的动态拓扑竞优机制。
arXiv:2502.13820v2 宣布类型: 修改
摘要: 生成测试案例和奖励建模等合成验证技术是提高大型语言模型(LLM)编码能力的常见方法,超越了预定义的测试。此外,代码验证最近通过强化学习作为提高LLM推理能力的关键组成部分而取得了巨大成功。在本文中,我们提出了一种方法,可以将现有的编码基准转换为评分和排序数据集,以评估合成验证器的有效性。我们还提出了多种指标,以使用提出的基准衡量合成验证器的不同方面。通过采用所提出的方法,我们发布了四个新的基准(HE-R、HE-R+、MBPP-R和MBPP-R+),并使用标准、基于推理和基于奖励的LLM分析了合成验证方法。我们的实验表明,推理可以显著提高测试案例生成,并且增加测试案例的数量可以提高验证准确性。
arXiv:2409.16376v2 公告类型:替换
摘要:生成型人工智能(GenAI)可以重塑教育和学习。尽管像ChatGPT这样的大型语言模型(LLMs)在当前的教育研究中占据主导地位,但诸如文本转语音和文本转图像等多模态能力则较少被探索。本研究利用主题建模来映射教育领域中多模态和生成型人工智能的研究格局。通过使用Dimensions进行广泛文献搜索,共获得4175篇文章。采用主题建模方法,提取出了38个可解释的主题,并将其组织成14个主题领域。研究结果表明,在教育环境中主要关注文本到文本模型,而其他模态则被忽视,未能充分利用多模态方法的广泛潜力。结果表明存在研究空白,强调跨不同人工智能模态和教育水平给予更多平衡关注的重要性。总之,这项研究概述了当前教育领域生成型人工智能的趋势,强调了未来多模态技术探索的机遇,以充分利用人工智能在教育中的变革潜力。
arXiv:2408.11313v2 安全对齐类型: 更改
摘要:尽管进行了先前的安全对齐努力,主流的大语言模型(LLM)在遭受监狱破解攻击时仍然可以生成有害和不道德的内容。现有的监狱破解方法大致分为两类:基于模板的方法和基于优化的方法。前者需要大量的人工努力和领域知识,而后者,以贪婪坐标梯度(GCG)为例,该方法旨在通过标记级优化最大化有害的LLM输出,也遇到了几个限制:需要白盒访问、需要预先构建的肯定短语,以及效率较低。在本文中,我们提出了ECLIPSE,一种新型且高效的黑盒监狱破解方法,利用可优化的后缀。受到LLMs强大生成能力和优化能力的启发,我们使用任务提示将监狱破解目标转化为自然语言指令。这引导LLM生成恶意查询的对抗后缀。特别是,有害性评分器提供了持续反馈,使LLM能够进行自我反思和迭代优化,以自主且高效地生成有效后缀。实验结果表明,ECLIPSE在三个开源LLM和GPT-3.5-Turbo上的平均攻击成功率(ASR)达到了0.92,显著高于GCG 2.4倍。此外,ECLIPSE在ASR方面与基于模板的方法不相上下,但在攻击效率方面更胜一筹,将平均攻击开销减少了83%。
arXiv:2407.20143v4 宣告类型: 替换
摘要: 在大型基础模型(LFMs)的开发过程中,为了在各种故障或GPU资源和并行配置变化时恢复训练,检查点机制(用于保存训练状态)至关重要。此外,保存的检查点会被分配到评估任务或在不同的训练阶段之间传输(例如,从预训练到后训练)。所有这些场景都需要将分布式检查点从一种并行模式转换为另一种模式。在生产环境中,不同的LFMs会根据模型大小和训练规模,使用不同的框架和存储后端进行训练。因此,需要高性能的检查点系统,以便在整个LFM开发生命周期中高效地管理检查点。我们引入了ByteCheckpoint,这是一种用于大规模LFM训练的工业级检查点系统。ByteCheckpoint特点包括:一种与并行模式无关的检查点表示,使得加载时的检查点重新分配更加高效;通用的检查点保存/加载工作流,可以适应多种训练框架并支持不同的存储后端;端到端优化,以确保高I/O效率和可扩展性;一系列监控工具,便于大规模性能分析和瓶颈检测。与现有的开源检查点系统[52, 58]相比,ByteCheckpoint显著减少了运行时检查点停滞时间,实现了平均54.20倍的减少。在保存和加载时间方面,ByteCheckpoint分别实现了高达9.96倍和8.80倍的改进。
arXiv:2407.09025v2 通知类型: 更新
摘要:电子表格因其广泛的二维网格、灵活的布局和多样的格式选项而与众不同,这对大型语言模型(LLMs)构成了重大挑战。为应对这一挑战,我们引入了SpreadsheetLLM,这是一种创新的编码方法,旨在释放和优化LLMs在电子表格上的强大理解和推理能力。最初,我们提出了一种基本的序列化方法,结合了单元格地址、值和格式。然而,这种方法受限于LLMs的标记约束,使其在大多数应用场景中不太实用。为应对这一挑战,我们开发了SheetCompressor,这是一种高效的编码框架,能够有效地将电子表格压缩以供LLMs使用。它由三个模块组成:基于结构锚点的压缩、逆索引翻译和数据格式感知聚合。它在电子表格表格检测任务中显著提高了性能,在GPT4的上下文学习环境中,相比基本方法提高了25.6%。此外,使用SheetCompressor微调的LLM具有25倍的平均压缩比,并实现了最先进的78.9%的F1分数,优于现有最佳模型12.3%。最后,我们提出了电子表格链,用于电子表格理解的下游任务,并在新的全面的电子表格问答任务中进行了验证。我们系统地利用电子表格固有的布局和结构,证明了SpreadsheetLLM在各种电子表格任务中都具有很高的有效性。
arXiv:2406.14977v2 宣告类型: 替换
摘要:脑转录组学提供了有关大脑如何协调其功能和过程的分子机制的见解。然而,目前用于预测阿尔茨海默病(AD)的多模态方法主要依赖于成像数据,并且有时依赖于遗传数据,往往忽视了大脑的转录组基础。此外,尽管努力在不同模态之间整合互补信息,大多数研究都忽略了不同模态之间的信息差异。在这里,我们提出了一种名为 TMM 的可信多视图多模态图注意力框架,用于 AD 诊断,利用广泛的脑区转录组学和成像数据。首先,我们从转录组学和多模态影像组学数据中构建特定视图的脑区域共功能网络(RRIs),以从生物分子和成像两个视角整合交互信息。接下来,我们对每个 RRI 网络应用图注意力(GAT)处理以生成图嵌入,并利用跨模态注意力将转录组学衍生的嵌入与成像衍生的嵌入融合。最后,我们设计了一种新的真-假-谐振化的类概率(TFCP)策略来评估并自适应调整每个模态在 AD 诊断中的预测置信度。我们使用包含脑区转录组学数据的 AHBA 数据库和包含三种成像模态(AV45-PET,FDG-PET 和 VBM-MRI)的 ADNI 数据库评估了 TMM。结果表明,我们的方法在识别 AD、EMCI 和 LMCI 方面优于当前最佳方法。代码和数据可在 https://github.com/Yaolab-fantastic/TMM 获取。
arXiv:2406.12146v2 宣告类型: 替换
摘要: 传统的优化编译器在适应现代软件系统的日益复杂性方面发挥了重要作用。当前架构中高效并行编程的需求需要强大的优化技术。大型语言模型(LLMs)的出现引发了关于这些AI方法是否有可能彻底改变代码优化方法的有趣问题。本文旨在回答编译器社区的一个核心问题:“AI驱动的模型能否彻底改变我们处理代码优化的方式?”
为了回答这个问题,我们对三种经典优化编译器和两个最近的大型语言模型进行了比较分析,评估它们分别在优化代码以实现最大效率方面的能力和局限性。此外,我们引入了一组具有挑战性的优化模式基准套件和一种自动机制,用于评估生成的代码的性能和正确性。我们使用了三种不同的提示策略来评估LLMs的性能,分别是简单指令(IP)、详细指令提示(DIP)和思维链(CoT)。
一个关键发现是,虽然LLMs有可能超越当前的优化编译器,但在大代码规模下经常生成错误代码,这需要自动验证方法。此外,在LLMs提示中包含编译器策略极大地提升了其整体性能。我们跨三个基准套件的评估显示,CodeLlama-70B是表现最佳的LLM,能够实现高达1.75倍的速度提升。此外,CETUS在当前的优化编译器中表现最佳,达到最大速度提升1.67倍。我们还发现,三种提示策略之间存在显著差异。