arXiv:2502.11433v3 公告类型:替换
摘要:大型语言模型(LLMs)在多模态金融数据上进行微调后,在各种金融任务中展现了令人印象深刻的推理能力。然而,它们在互动金融市场中的多步、目标导向场景(如交易)中常常表现出色,需要复杂的代理方法来提高决策制定。为了解决这个问题,我们提出了FLAG-Trader,这是一种统一的架构,将语言处理(通过LLMs)与梯度驱动的强化学习(RL)策略优化结合起来,在这种架构中,部分微调的LLM作为策略网络工作,利用预训练的知识并在财务领域通过参数高效的微调进行适应。通过由交易奖励驱动的策略梯度优化,我们的框架不仅提高了LLM在交易中的表现,还提高了其他财务领域任务的结果。我们提供了大量的实证证据来验证这些改进。
arXiv:2502.08820v3 公告类型:替换
摘要:具有API调用能力的大语言模型(LLMs)构建了有效语言代理(LA),同时也在传统任务导向对话(TOD)范式上带来了革命性变化。然而,目前的方法面临着一个关键困境:TOD系统通常仅在有限的目标API集上进行训练,当与新的服务接口时需要新数据来保持其质量,而在多轮对话中保持用户意图方面,LA并没有得到训练。由于有效的对话代理既需要稳健的多轮管理能力,也需要高级的功能调用能力,我们在三个流行的基准测试上评估了这些技能,即MultiWOZ 2.4(TOD)、BFCL V3(LA)和API-Bank(LA),分析表明,在一个领域表现出色的方法往往在另一个领域表现欠佳。为了弥合这一差距,我们引入了CoALM(Conversational Agentic Language Model),一种结合了对话和代理能力的统一方法。我们构建了CoALM-IT,这是一个精心设计的多任务数据集,将多轮ReAct推理和复杂API使用交织在一起。使用CoALM-IT,我们训练了三个模型CoALM 8B、CoALM 70B和CoALM 405B,这些模型在所有的三个基准测试上都超过了顶级的领域特定模型,包括GPT-4o。这表明,一个单一模型方法适用于TOD和LA,为对话代理设定了新的标准。
arXiv:2502.06656v3 公告类型: 修订
摘要:最近强大的人工智能系统的发展突显了在人工智能行业中需要可靠的风险管理框架的重要性。尽管公司已经开始实施安全框架,但当前的方法往往缺乏其他高风险行业所具有的系统严谨性。本文提出了一种全面的人工智能风险管理框架,通过将成熟的风险管理原则与新兴的人工智能特定实践相结合,为前沿人工智能的发展填补了这一空白。该框架包括四个关键组成部分:(1) 风险识别(通过文献综述、开放式红队测试和风险建模),(2) 使用定量指标和明确定义的阈值进行风险分析和评估,(3) 通过缓解措施如控制、部署控制和保证流程来处理风险,以及(4) 风险治理,建立清晰的组织结构和问责制。借鉴成熟行业如航空或核能的最佳实践,同时考虑到人工智能的独特挑战,该框架为人工智能开发者提供了实施稳健风险管理的可操作指南。论文详细说明了在人工智能系统生命周期——从规划到部署——的每个阶段,各组成部分应该如何实施,并强调在最终训练运行之前进行风险管理工作的重要性,以最大限度地减少与它相关的负担。
arXiv:2502.12908v2 交叉类型:公告
摘要:图神经网络(GNNs)是处理图结构数据的强大深度学习模型,在各种领域中取得了显著的成功。最近,数据库(DB)社区越来越认识到GNNs的潜力,推动了通过基于GNN的方法改进数据库系统的研究。尽管取得了显著进展,但仍然缺乏对GNNs如何改进DB系统的全面回顾和理解。因此,本文旨在通过提供关于GNNs在DB系统中结构化和深入的综述来填补这一空白。具体而言,我们提出了一种新的分类法,将现有方法分为两类关键类别:(1)关系数据库,包括性能预测、查询优化和文本到SQL的任务,以及(2)图数据库,解决高效图查询处理和图相似性计算等挑战。我们系统地审查了每个类别中的关键方法,强调它们的贡献和实际意义。最后,我们建议将GNNs整合到数据库系统中的有希望的发展方向。
arXiv:2502.12825v2 交叉通知类型:综合
摘要:当遇到来自新大规模语言模型(LLM)日益频繁的性能改进或成本降低时,使用LLM的应用开发者必须决定是否利用这些改进或继续使用较旧但经过验证的模型。低感知转换摩擦可能会导致忽视转换可能会引起的更微妙行为变化的决策。我们的实验利用了一个流行的博弈论行为经济学模型中的信任模型,展示了OpenAI和DeepSeek模型在信任行为上的显著差异。我们强调了o1-mini和o3-mini模型在解决利润最大化和风险寻求与信任未来回报之间的矛盾时,其经济信任行为的崩溃,并将其与DeepSeek更为复杂且盈利的信任行为进行了对比,后者源自于能够整合更深层次的概念,如前瞻性规划和心智理论。随着LLM成为高风险商业系统的基础,我们的结果强调了依赖于定义过于狭窄的LLM性能基准的危险,并建议任何组织的人工智能战略中都应包含对它们隐藏的薄弱环节进行仔细分析的内容。
arXiv:2502.12737v2 说明类型: cross
摘要: 知识库问答(KBQA)旨在利用大型知识库中存储的丰富人类知识来用自然语言回答用户问题。由于当前的KBQA方法在测试时难以处理未见过的知识库元素,我们引入了SG-KBQA:一种新的模型,通过将模式上下文注入实体检索和逻辑形式生成来解决这个问题。该模型利用模式上下文提供的更丰富的知识库结构语义和意识来增强泛化能力。我们展示了SG-KBQA在多种测试设置下表现出强大的泛化能力,在两个常用基准数据集上优于最先进的模型。我们的源代码可在https://github.com/gaosx2000/SG_KBQA 获取。
arXiv:2502.12633v2 公告类型:交叉
摘要:大规模语言模型(LLMs)在各种智能教育系统中被越来越多地使用,模拟人类导师以促进有效的机器-人机交互。然而,先前的研究往往忽视了识别和适应个别学习者特征的重要性。这种适应性在提高学生参与度和学习效率方面至关重要,尤其是对于数学教学,不同的学习风格需要个性化的策略来促进理解和热情。在本文中,我们提出了一种针对数学教学的**P**ersonal**A**lized **C**onversational **T**utoring **E**ngine(PACE)方法。PACE根据Felder和Silverman的学习风格模型模拟学生的学习风格,并与每个学生的人格特征保持一致。这样,我们的PACE能够有效评估学生的个性,从而开发出与他们的独特学习风格相契合的教学策略。为了进一步增强学生的理解,PACE采用苏格拉底教学方法提供即时反馈并鼓励深入思考。通过构建个性化教学数据并训练模型,PACE展示了识别和适应每个学生独特需求的能力,显著改善了整体学习体验和成果。此外,我们建立了多方面评估标准并进行了广泛分析,以评估个性化教学的表现。实验结果表明,与现有方法相比,我们的模型在个性化教育体验和激励学生方面具有优越性。
arXiv:2502.12581v2 宣称类型: cross
摘要: 可靠地标注数据通常需要多名人类工作者的注释。然而,人类远非完美。因此,通常的做法是汇总多名标注者收集的标签,以获得对真实标签的更自信的估计。在众多的聚合方法中,简单的广为人知的多数投票(MV)方法选择得票数最多的类别标签。尽管其重要性不言而喻,但MV标签聚合的最佳性尚未得到充分研究。我们在工作中通过分析MV在何种条件下能够达到标签估计误差的理论最优下界来填补这一空白。我们的结果捕捉了在给定类别分布的情况下,MV能够最优恢复标签所能容忍的注释噪声限度。这种最优性证书为标签聚合的模型选择提供了更加原则性的方法,而不再依赖于包含更高专家、黄金标签等方法,这些方法虽然代价高昂但在时间和金钱上同样受到人类不确定性的影响。在合成数据和真实数据上的实验结果与我们的理论发现一致。
arXiv:2502.12568v2 宣传类型:交叉
摘要:与人类一样,大规模语言模型(LLMs)在一次生成高质量长文本时难以遵守严格的要求。这一挑战并不令人惊讶,因为在《认知写作理论》中,成功的人类写作被认为是一个复杂的认知过程,涉及迭代规划、翻译、审阅和监控。受到这些认知原则的启发,我们希望通过CogWriter这一新型无需训练的框架来赋予LLMs类似于人类的认知写作能力,将受约束的长文本生成转化为一种系统性的认知写作范式。我们的框架包含两个关键模块:(1)一个计划代理,它执行层次化的规划来分解任务,以及(2)多个并行执行这些计划的生成代理。系统通过持续的监控和审阅机制来保持质量,这些机制会评估输出是否符合指定的要求,并触发必要的修改。CogWriter在LongGenBench这一复杂受约束长文本生成基准上的表现非常出色。即使使用Qwen-2.5-14B作为其基础模型,CogWriter在复杂指令完成准确性上也超过了GPT-4o 22%,同时可靠地生成了超过10,000字的文章。我们希望这一受到认知科学启发的方法能为LLMs写作的进步提供一种范式:\href{https://github.com/KaiyangWan/CogWriter}{CogWriter}。
arXiv:2502.12537v2 临时公告类型: 交叉
摘要: 本文研究了在金融深度强化学习(DRL)模型中使用二维卷积神经网络(CNNs)优化时间窗口的问题。我们引入了一种新颖的方法,将时间领域视为超参数,并探讨了其在各种数据集和特征排列下对模型性能的影响。我们为CNN策略引入了一个新的超参数,提议将这个时间领域视为这些模型的超参数。通过迭代扩展呈现给CNN策略观察的时间窗口,我们研究了时间领域的意义。这个迭代过程包括逐步将观察期从两周增加到十二周,允许我们考察不同时间窗口对模型性能的影响。时间窗口的扩展在两种设置中实现。在一种设置中,我们将数据集中的特征重新排列,按公司分组,使得模型能够在其观察窗口和CNN核中获得对全部公司数据的完整视角。在第二种设置中,我们不按公司对特征进行分组,而是按类别排列特征。我们的研究表明,在不进行按公司分组的特征重新排列的情况下,较短的时间窗口最为有效。然而,一旦引入特征重新排列,模型将使用较长的时间窗口并获得更好的性能。为了验证我们的发现的一致性,我们在包含道琼斯指数中同一三十家公司的两个具有不同特征的数据集上重复了我们的实验,并持续观察到了上述模式。结果是,该交易模型显著优于由Mirae Asset公司确立的Global X Guru等全球金融服务公司。