arXiv:2502.13165v1 通报类型: cross
摘要:随着自动化交易在金融市场中的日益普及,算法型投资策略也越来越突出。虽然大型语言模型(LLMs)和基于代理的模型在实时市场分析和交易决策方面显示出了巨大的潜力,但当面对急剧下跌或频繁波动时,它们仍会遭受高达20%的损失,这限制了它们的实际应用。因此,探索一个更为稳健和有弹性的框架变得至关重要。本文介绍了一种创新的多代理系统HedgeAgents,旨在通过“对冲”策略增强系统的稳健性。在这个均衡系统中,已经定制了一系列对冲代理,其中HedgeAgents由一个中央基金管理者和多个专长于各种金融资产类别的对冲专家组成。这些代理利用LLMs的认知能力进行决策并通过三种类型的会议进行协调。得益于LLMs强大的理解能力,我们的HedgeAgents在三年期间实现了70%的年化回报和400%的总回报。此外,我们高兴地观察到,HedgeAgents甚至可以制定出与人类专家相媲美的投资经验(https://hedgeagents.github.io/)。
arXiv:2502.13164v1 通告类型: cross
摘要: 在本文中,我们介绍了MASQRAD(多代理战略查询解决与诊断工具),这是一种基于演员-评论家模型的变革性查询解决框架,利用了多个生成式AI代理。MASQRAD能够将不精确或模糊的用户提问转换为精确和可操作的请求。该框架为这些集中查询生成相关可视化和响应,并为用户提供全面的分析和洞察解释。MASQRAD解决了现有解决方案在快而精确的数据解释需求领域中的常见缺陷,例如它们无法成功地应用AI生成可操作的见解,以及用户询问的固有模糊性带来的挑战。MASQRAD作为一个复杂的多代理系统,但对用户“伪装”为单一的AI实体,从而降低错误并增强数据交互。这种方法使用了三种主要的AI代理:行动生成式AI、评论生成式AI和专家分析生成式AI。每个代理都对创建、增强和评估数据交互至关重要。行动AI生成Python脚本来在运营约束下从大数据集中生成数据可视化,评论AI通过多代理辩论严格完善这些脚本。最后,专家分析AI对结果进行上下文化,以辅助决策。在处理与自然语言可视化相关的任务时,MASQRAD的准确率为87%,从而为自动化数据解释建立了新的基准,并展示了具有潜在革命性影响的重要进展。
arXiv:2502.13162v1 声明类型: cross
摘要: 大型语言模型(LLMs)在各个领域取得了显著的成功,但仍然容易受到敌对的逃逸攻击。现有的提示防御策略,包括参数修改和参数自由方法,面对适应性、可解释性和定制性的局限性,限制了它们对不断演变的威胁的有效性。为了解决这些挑战,我们提出了ShieldLearner,这是一种新的范式,模仿人类在防御中的学习方式。通过不断的尝试和错误,它自主地将攻击特征提炼成模式图集,并将防御策略合成到元分析框架中,从而实现系统的、可解释的威胁检测。此外,我们引入了适应性对抗增强,以生成成功保护的提示的对抗变体,从而在无需重新训练模型的情况下实现持续自我改进。除了标准基准之外,我们还通过从Wildjailbreak数据集中精心挑选隐蔽性强的恶意提示,创建了一个更难的测试集,强调更隐蔽的恶意意图。实验结果表明,ShieldLearner在传统和更难的测试集上,相对于现有基线实现了显著更高的防御成功率,同时还需要较低的计算开销,使其成为一个在实际应用中实用且高效的对抗防御解决方案。
arXiv:2502.13161v1 交叉公告类型
摘要:本文描述了诺蒙恩实验室指导人工智能设计的一些原则。这些原则既来自自然界,也来自我们代表和理解它的方法。该领域研究和开发的目标应该是设计能够增强我们对世界理解并提高我们在其中行为能力的人工智能,而不取代我们。在前两个部分中,我们探讨了我们方法的核心动机:解决基础问题。我们认为,解决基础问题的关键在于设计与我们所居住的世界紧密相连的模型,而非仅仅局限于词汇模型。能够显著增强我们对人类世界理解的机器超级智能必须以我们的方式表示这个世界,并能够生成新的知识,建立在我们已知的基础上。换句话说,它必须适当基础化,并且明确设计用于理性、经验性的研究,模仿科学方法。这一设计原则的主要涵义是,智能体必须能够自主地进行因果物理学发现。我们讨论了这一方法的实际意义,特别是其在现实3D世界建模和多模态、多维时间序列分析中的应用案例。
arXiv:2502.13160v1 社会模拟类型: 多代理系统
摘要:大型语言模型被用于使用多代理系统模拟人类社会。目前大多数社会模拟研究侧重于固定环境中的互动行为,忽视了信息不透明性、关系变异性和信息传播多样性。在本文中,我们研究了由信息内容和分布机制定义的12个不对称开放环境中的信息传播动态。我们首先提出了一般框架来捕捉信息传播的特征。然后,我们设计了一种动态注意力机制,帮助代理将注意力分配到不同的信息上,解决了基于LLM的注意力机制的局限性。代理们从一个五代理组开始响应外部信息刺激,增加群体规模并形成信息圈,同时发展关系并分享信息。此外,我们观察到了信息茧房的出现、信息空白的演变以及社会资本的积累,这些都与心理学、社会学和传播学理论密切相关。
arXiv:2502.09720v1 交叉公告类型:交叉
摘要:后训练量化(PTQ)已成为高效部署大规模语言模型(LLMs)的关键技术。本文提出了一种名为NestQuant的新颖PTQ方案,该方案基于自相似嵌套格。近期的工作已经从理论上证明,这种量化器在低精度矩阵乘法中是信息论上最优的。我们基于Gosset格实现了一个实用的低复杂度版本的NestQuant,使其成为任何矩阵乘法步骤(例如,在自我注意、MLP等中)的即插即用量化器。例如,NestQuant将Llama-3-8B的权重、KV缓存和激活量化为4位,实现Wikitext-2上的困惑度为6.6。这与未量化模型(困惑度为6.14)相比,相对于Meta的SpinQuant(困惑度为7.3),困惑度差距减少了55%以上。在各种LLM评估基准上的比较也显示,量化引入的性能下降有所减少。
arXiv:2502.13953v1
Announce Type: 新闻
摘要: 我们设计了一个算法来生成客观实例化支持共现驱动推理的图的命题集合。然后,我们评估了大型语言模型(LLMs)从自然语言中表达的命题进行简单转换后重建共现图的能力,结果令人鼓舞。将共现驱动推理与神经模型的一致性评估结合,可能有助于机器认知领域的前沿技术。
arXiv:2502.13943v1 宣布类型: 新
摘要: 当前训练过程奖励模型(PRMs)的方法通常使用基于规则的技术将响应分解为多个推理步骤,例如使用预定义的占位符标记或设置推理步骤的长度为固定大小。这些方法忽视了特定单词通常不标志着文本中的真实决策点这一事实。为解决这个问题,我们提出了一种称为AdaptiveStep的方法,该方法根据模型预测下一个单词的信心程度来划分推理步骤。这种划分方法在每个步骤中提供了更多的决策信息,从而增强了下游任务,如奖励模型的学习。此外,我们的方法不需要手动标注。我们通过在数学推理和代码生成任务中使用AdaptiveStep训练的PRMs的实验证明了其有效性。实验结果表明,该PRM在Best-of-N性能上达到了最先进的水平,超越了基于标记级值引导解码的贪婪搜索策略,并且与现有的开源PRMs相比,构建成本降低了超过30%。此外,我们还对PRM的性能、迁移能力和泛化能力进行了详细分析和案例研究。
arXiv:2502.13834v1 通知类型: 新
摘要: 大型语言模型(LLMs)可以通过在一个证明系统内生成证明步骤(即,策略)来正式证明数学定理。然而,可能的策略空间庞大而复杂,而可用于形式证明的训练数据有限,这为基于LLM的策略生成带来了重大挑战。为了解决这一问题,我们提出了一种神经符号策略生成器,将LLM学习到的数学直觉与符号方法编码的领域特定见解相结合。这种整合的关键方面在于识别哪些部分的数学推理最适合LLM,哪些最适合符号方法。尽管神经符号整合的基本理念适用于各种数学问题,但在本文中,我们专门关注奥林匹克不等式(图1)。我们分析了人类是如何解决这些问题的,并将这些技术提炼为两种类型的策略:(1)缩放,由符号方法处理;(2)重写,由LLM处理。此外,我们将符号工具与LLM结合使用,以修剪和排名证明目标,从而提高高效的证明搜索效率。我们在来自多个数学竞赛的161个具有挑战性的不等式上评估了我们的框架,实现了最先进的性能,并明显优于现有的基于LLM和符号的方法,而无需额外的训练数据。
arXiv:2502.13820v1 通知类型: 新
摘要: 代码验证最近在训练大规模推理模型方面取得了巨大的成功,这些模型用于编程。通过自动生成测试用例和奖励模型等合成技术提供了超越预定义测试的方法来增强代码能力。基于这些进展,我们提出了一种新的基准测试,旨在系统地评估合成验证方法对评估解决方案正确性的影响。我们引入了HE-R,HE-R+,MBPP-R和MBPP-R+,将现有的编程基准转换为评分和排名数据集,以评估合成验证器的有效性。使用这些基准测试,我们分析了标准、推理驱动和奖励驱动的大语言模型中合成验证方法的效果。我们的结果显示,近期的推理模型显著提高了测试用例的生成,并且扩展测试用例提高了验证准确性。