LLM2D

arXiv 论文列表

作者: Cong Lu, Shengran Hu, Jeff Clune
arXiv:2502.07577v2 类别:交叉学科 摘要:基础模型已成为通用助手,通过在大规模网络数据上进行训练,在众多领域展示出多种能力。在任何新模型中精确地描述其整个能力谱和潜在风险的部分仍然是一个挑战。现有的评估方法通常需要大量的人力,设计更复杂、更具挑战性的任务越来越困难。我们提出了自动能力发现(ACD),这是一个框架,将一个基础模型指定为科学家,系统地为被试模型(可能是自身)提出开放性任务。通过结合前沿模型和开放性领域的想法,ACD 自动系统地揭示了被试模型的惊讶能力和失败。我们在一系列基础模型(包括GPT、Claude和Llama系列)中展示了ACD,表明它自动揭示了成千上万的能力,这些能力对于任何单一团队来说都是难以发现的。我们进一步通过广泛的人员调查验证了我们方法的自动化评分方法,发现模型生成的评估与人工评估之间具有高度的一致性。借助基础模型既能创造任务又能自我评估的能力,ACD 是实现可扩展的、自动化的新型AI系统评估的重要一步。所有代码和评估日志在 https://github.com/conglu1997/ACD 开放源代码。
发布时间: 2/12/2025
查看原文
作者: Sixiao Zheng, Zimian Peng, Yanpeng Zhou, Yi Zhu, Hang Xu, Xiangru Huang, Yanwei Fu
arXiv:2502.07531v2 宣告类型: 交叉 摘要:最近的图像到视频生成方法在控制一个或两个视觉元素(如相机运动轨迹或物体运动)方面取得了成功。然而,由于数据和网络效果的限制,这些方法无法同时控制多个视觉元素。本文中,我们提出了一种名为VidCRAFT3的新框架,这种框架能够同时控制相机运动、物体运动和光照方向。为了更好地分离每个视觉元素的控制,我们提出了空间三重注意变换器,该变换器以对称的方式整合了光照方向、文本和图像。由于大多数现实世界的视频数据集缺乏光照注释,我们构建了一个高质量的合成视频数据集,即VideoLightingDirection (VLD) 数据集。这个数据集包含光照方向注释和多样外观的物体,使VidCRAFT3能够有效地处理强烈的透射和反射效应。此外,我们提出了一个三阶段训练策略,该策略消除了同时需要标注了多个视觉元素(相机运动、物体运动和光照方向)的训练数据的需求。基准数据集上的实验结果证明了VidCRAFT3在生成高质量视频内容方面的有效性,在控制粒度和视觉一致性方面超越了现有的最先进的方法。所有代码和数据都将公开。
发布时间: 2/12/2025
查看原文
作者: Atharva Mehta, Shivam Chauhan, Amirbek Djanibekov, Atharva Kulkarni, Gus Xia, Monojit Choudhury
arXiv:2502.07328v2 类别: 交叉学科 摘要:音乐-语言模型的出现极大地提升了AI系统的自动音乐生成能力,但它们在涵盖世界音乐流派和文化方面也受到了限制。我们对音乐生成的数据库和研究论文进行了研究,并量化了流派的偏差和不足。我们发现,现有音乐数据集中只有5.7%的时间来自非西方流派,这自然会导致模型在不同流派上的表现差异。然后我们调查了参数高效微调(PEFT)技术在缓解这一偏差方面的有效性。针对两种未充分代表的非西方音乐传统——印度传统古典音乐和土耳其 makam 音乐,我们使用两种流行模型——MusicGen 和 Mustango 的实验突显了跨流派通过小数据集适应音乐的潜力及其非平凡性,暗示了设计用于跨文化转移学习的更公平的基础音乐-语言模型的必要性。
发布时间: 2/12/2025
查看原文
作者: Junlong Li, Daya Guo, Dejian Yang, Runxin Xu, Yu Wu, Junxian He
arXiv:2502.07316v2 宣告类型:交叉 摘要:推理是大型语言模型的基本能力。尽管先前的研究主要集中在增强如数学或代码生成等狭窄技能上,但由于训练数据稀疏且分散,提高在许多其他推理任务上的表现仍然具有挑战性。为了解决这一问题,我们提出了CodeI/O,这是一种新颖的方法,通过将原始代码转换为代码输入-输出预测格式,系统地浓缩嵌入在上下文相关代码中的多种推理模式。通过训练模型以自然语言作为链式思考(CoT)推理的方式来预测给定代码和测试案例的输入/输出,我们向它们暴露了通用的推理基础,如逻辑流程规划、状态空间搜索、决策树遍历和模块化分解,同时将结构化推理与代码特定的语法解耦,并保持程序的严谨性。实验结果表明,CodeI/O 在符号、科学、逻辑、数学与数值及常识性推理任务中均带来了持续的改进。通过匹配现有的ground-truth输出或使用预测输入重新执行代码,我们可以验证每个预测,并通过多轮修订进一步增强CoTs,从而生成CodeI/O++ 并实现更高的性能。我们的数据和模型可在 https://github.com/hkust-nlp/CodeIO 获取。
发布时间: 2/12/2025
查看原文
作者: Sayem Mohammad Imtiaz, Astha Singh, Fraol Batole, Hridesh Rajan
arXiv:2502.07072v2 宣告类型: cross 摘要:有关大型语言模型(LLMs)的惊人成就的消息每天都有,同样每天也有关于它们挑战的消息。LLMs 以其数据集中的偏见而闻名,导致诸如毒性等问题。尽管已经采用了领域适应性培训来减轻这些问题,但这些技术经常在修复过程中不分青红皂白地处理所有模型参数,导致修复质量差和模型灵活性降低。在本文中,我们提出了一种新颖的基于动态切片和意图感知的LLM修复策略IRepair。这种方法选择性地对模型中最易出错的部分进行修复。具体而言,我们提出动态切片模型的最敏感层,需要立即关注,将修复努力集中于这些区域。该方法通过改变较小部分模型,能够更有效地进行修复,同时可能对模型整体性能的影响较小。我们利用毒性缓解设置对GPT2和GPT-Neo家族的三个模型(参数范围从800M到1.6B)进行了评估。结果显示,IRepair的错误修复效果比最近的基线直接偏好优化提高了43.6%,同时对总体性能的干扰减少了46%。我们的实证分析还发现,错误在模型的较小部分中更为集中,前20%的层的错误密度比剩余的80%高773%。这突显了选择性修复的必要性。此外,我们展示了动态选择方法对于分散在模型中的错误至关重要,确保了修复的稳健性和效率。
发布时间: 2/12/2025
查看原文
作者: Leonardo Berti, Bardh Prenkaj, Paola Velardi
arXiv:2502.07071v2 宣布类型: 交叉 摘要: 金融市场是具有高统计噪音、非线性和不断演化的复杂系统。因此,对其进行建模极其困难。我们致力于生成具有实际意义且响应迅速的限价订单簿(LOB)市场模拟,这对于校准和测试交易策略、执行市场影响实验以及生成合成市场数据至关重要。以往的工作在生成的模拟中缺乏现实性、实用性和响应性。为了弥合这一差距,我们提出了一种新颖的基于变压器的去噪扩散概率引擎用于LOB模拟(TRADES)。TRADES基于变压器架构生成具有市场状态条件的现实订单流,能够捕捉高频市场数据的时空特征。文献中缺乏评估生成市场模拟模型的定量指标。为了解决这一问题,我们采用预测得分作为MAE度量,通过在合成数据上训练股票价格预测模型并在真实数据上进行测试来适应该度量。我们针对两只股票将TRADES与先前工作进行比较,在预测得分上分别取得3.27倍和3.47倍的改进,证明我们生成了对金融下游任务有用的合成市场数据。我们评估了TRADES的市场仿真现实性和响应性,显示其有效地学习了条件数据分布,并成功地对实验代理进行了反应,为交易策略和市场影响实验的校准和评估提供了可能。我们开发了DeepMarket,这是首个使用深度学习进行市场模拟的开源Python框架。我们的仓库包括由TRADES生成的合成LOB数据集。我们已在github.com/LeonardoBerti00/DeepMarket发布了代码。
发布时间: 2/12/2025
查看原文
arXiv:2502.06914v2 宣传类型: 交叉 摘要: 酶催化的蛋白质裂解对于许多生物功能至关重要。准确预测裂解位点可以促进药物开发、酶设计以及对生物机制更深入的理解。然而,大多数现有模型仅适用于单一酶,忽视了酶之间的共享知识,并且无法泛化到新型酶。因此,我们介绍了一种统一的蛋白质裂解位点预测器——UniZyme,该预测器可以在多种酶之间泛化。为了增强蛋白质裂解位点预测的酶编码,UniZyme 结合了蛋白质水解酶的活性位点知识以及一种新型的生物化学导向模型架构。广泛的实验表明,UniZyme 在多种蛋白质水解酶(包括未见过的酶)中准确预测裂解位点方面表现出高度的准确性。代码可在 https://anonymous.4open.science/r/UniZyme-4A67 获取。
发布时间: 2/12/2025
查看原文
arXiv:2502.06832v2 类型:交叉 摘要:专家混合(MoE)在利用专门的专家网络处理复杂机器学习任务方面表现出显著的成功。然而,它们对对抗攻击的高度敏感性为在鲁棒性应用中部署带来了关键性的挑战。本文探讨了如何在保持高自然准确性的基础上将鲁棒性融入MoE。我们首先分析了MoE组件的脆弱性,发现专家网络比路由器更为容易受到对抗攻击的影响。基于这一见解,我们提出了一种针对鲁棒性的训练技术,该技术集成了一个新的损失函数,以增强MoE的对抗鲁棒性,仅需要额外强化一个专家,而不会影响训练和推理效率。在此基础上,我们提出了一种双模策略,该策略使用平滑参数线性结合一个标准的MoE模型和我们强化的MoE模型。这种方法允许对鲁棒性和准确性的折衷控制。我们还通过为单个MoE和双模模型推导出验证鲁棒性边界来提供了理论基础。为探讨鲁棒性和准确性的极限,我们提出了一种新的联合训练策略JTDMoE用于双模模型。这种联合训练不仅增强了鲁棒性,也超越了单独模型所能达到的准确性。使用ResNet18和 Vision Transformer (ViT) 架构在CIFAR-10和TinyImageNet数据集上的实验结果证明了我们提出方法的有效性。
发布时间: 2/12/2025
查看原文
作者: Loris Gaven, Thomas Carta, Cl\'ement Romac, C\'edric Colas, Sylvain Lamprier, Olivier Sigaud, Pierre-Yves Oudeyer
arXiv:2502.07709v2 公告类型: 新 摘要: 开放式学习代理必须高效地在广阔的可能性空间中优先考虑目标,聚焦于那些能够最大化学习进步(LP)的目标。当通过在线强化学习对高维和不断变化的目标空间进行训练的LLM代理实现这种自足探索时,LP预测的关键挑战之一是建模自身的 competence,这是一种元认知监测。传统方法要么需要大量的采样,要么依赖于脆弱的专家定义的目标分组。我们引入了MAGELLAN,这是一种元认知框架,使LLM代理能够在线学习预测自身的 competence 和 LP。通过捕捉目标之间的语义关系,MAGELLAN 使得LP估计变得高效,并通过泛化动态适应不断变化的目标空间。在一个交互式学习环境中,我们展示了MAGELLAN如何提高LP预测效率和目标优先级,成为唯一一种使代理能够彻底掌握一个庞大且不断变化的目标空间的方法。这些结果表明,通过为LLM代理添加一种为LP预测提供元认知能力,可以有效地扩展课程学习到开放的目标空间。
发布时间: 2/12/2025
查看原文
作者: Shihao Xia, Mengting He, Shuai Shao, Tingting Yu, Yiying Zhang, Linhai Song
arXiv:2502.07644v2 宣布类型: 新 摘要: 为了治理在以太坊上运行的智能合约,已经开发出了多种以太坊请求评论(ERC)标准,每种标准都有一套规则来指导智能合约的行为。违反ERC规则可能会导致严重的安全问题和经济损失,凸显了验证智能合约遵循ERC规则的重要性。当前验证这些规则的方法是手动审计每个单独的合约、使用专家开发的程序分析工具或使用大型语言模型(LLMs),所有这些方法都远不能有效识别ERC规则的违规行为。本文介绍了SymGPT,这是一种将大型语言模型(LLMs)的自然语言理解与形式化的符号执行保证相结合的工具,用于自动验证智能合约是否符合ERC规则。为了开发SymGPT,我们对三个广泛使用的ERC标准中的132条ERC规则进行了实证研究,检查了它们的内容、安全影响和自然语言描述。基于这些研究,我们设计SymGPT,首先指示LLM将ERC规则翻译成定义好的EBNF语法。然后,我们从正式化的规则中综合约束来表示可能发生违规的情况,并使用符号执行来检测这些情况。我们的评估显示,SymGPT在4000个真实世界的合约中发现了5783条ERC规则的违规行为,其中包括1375条带有明确攻击路径以盗取金融资产的违规行为,证明了其有效性。此外,SymGPT在与六种自动化技术和安全专家审计服务的比较中表现出色,进一步凸显了它在当前智能合约分析方法上的优越性。
发布时间: 2/12/2025
查看原文