arXiv 论文列表

FLAG-Trader：基于梯度强化学习的LLM-Agent金融交易系统

作者: Guojun Xiong, Zhiyang Deng, Keyi Wang, Yupeng Cao, Haohang Li, Yangyang Yu, Xueqing Peng, Mingquan Lin, Kaleb E Smith, Xiao-Yang Liu, Jimin Huang, Sophia Ananiadou, Qianqian Xie

arXiv:2502.11433v2 通知类型: 新摘要：在多模态金融数据上微调的大规模语言模型（LLMs）在各种金融任务中展现了令人印象深刻的推理能力。然而，它们在交互金融市场中的多步、目标导向场景（如交易）中常常难以应对，这时需要复杂的代理方法来改进决策。为了解决这个问题，我们提出了一种名为 \textsc{FLAG-Trader} 的统一架构，该架构将语言处理（通过LLMs）与基于梯度的强化学习（RL）策略优化相结合，在这种架构中，部分微调的LLM充当策略网络，利用预训练的知识并通过对金融领域的参数高效微调适应该领域。通过由交易奖励驱动的策略梯度优化，我们的框架不仅增强了LLM在交易中的性能，还提高了其他金融领域任务的结果。我们提供了广泛的实验证据来验证这些增强效果。

发布时间: 2/18/2025

查看原文

深度全是你需要的吗？关于LLMs中迭代推理的探索

作者: Zongqian Wu, Tianyu Li, Baoduo Xu, Jiaying Yang, Mengmeng Zhan, Xiaofeng Zhu, Lei Feng

arXiv:2502.10858v2 类型: 新闻摘要: 深度迭代链式思维（CoT）推理使大语言模型能够通过逐步激活相关先验知识来应对复杂任务。然而，它面临确保持续改进和确定停止标准的挑战。在这篇论文中，我们探讨了初始推理路径是否能够激活直接解决给定问题的相关知识，从而绕过迭代精炼的需要。我们的实验表明，增加初始推理路径的多样性可以实现相当或更优的性能，这一概念我们称之为“广度推理”。然而，现有的广度推理方法，如自我一致性，提供的多样性有限。为了解决这一局限，我们提出了一种简单而有效的方法，通过结合上下文探索和减少采样随机性来增强推理广度。广泛的实验表明，我们的方法显著优于深度迭代推理。我们的代码可以在 https://github.com/zongqianwu/breadth 提供。

发布时间: 2/18/2025

查看原文

动态链式思考：朝着自适应深层推理的步骤

作者: Libo Wang

arXiv:2502.10428v2 提示类型: 新摘要: 为减少由于长链推理(CoT)中的计算冗余和延迟奖励分配导致的计算资源成本和消耗，本文提出了一种带有自适应推理时间和步骤的动态链推理(D-CoT)。研究人员通过结合基于GPT的Python仿真器和Python 3.13 IDLE进行模拟实验，模拟了D-CoT的集成方式。同时，研究人员使用DeepSeek R1作为对照组，测试并对比了D-CoT仿真器在处理MIT开放课程的线性代数考试题目时的表现。实验结果显示，D-CoT在推理时间、CoT长度（推理步骤）和token计数三个指标上优于DeepSeek R1，实现了计算资源消耗的显著减少。此外，该研究在动态深度推理优化方面具有潜在价值，可作为未来动态深度推理框架的参考。

发布时间: 2/18/2025

查看原文

人与大语言模型共进化：来自学术写作的证据

作者: Mingmeng Geng, Roberto Trotta

arXiv:2502.09606v2 通告类型: 替换-交叉摘要：通过对arXiv论文摘要的统计分析，我们发现，在ChatGPT指出这些词汇在早期2024年被过度使用后不久，一些被ChatGPT标记为过度使用的词汇，如“delve”的频率显著下降。相反，ChatGPT偏好使用的某些词汇，例如“significant”的频率则持续增加。这些现象表明，一些学术论文的作者可能已调整了他们对大型语言模型（LLMs）的使用方式，例如，通过选择模型输出或对生成的内容进行修改。因此，人类与LLMs的合作与共进化为在现实场景中检测机器生成的文本带来了额外挑战。通过考察词汇频率来估算LLMs对学术写作的影响仍然是可行的，应该更多地关注那些已经被频繁使用的词汇，包括因LLMs的不喜欢而减少了使用的词汇。

发布时间: 2/18/2025

查看原文

AttentionSmithy：一种模块化框架，用于快速的变压器开发和自定义

作者: Caleb Cranney, Jesse G. Meyer

arXiv:2502.09503v2 通知类型: replace-cross 摘要：Transformer架构已经彻底改变了人工智能应用，但它们对于缺乏底层实现专业知识的领域专家来说仍然难以定制。我们引入了AttentionSmithy，这是一种模块化的软件包，通过将关键组件分解为可重用的构建块——注意力模块、前馈网络、规范化层和位置编码，简化了Transformer的创新过程。用户可以快速原型设计和评估Transformer变体而无需大量的编码工作。我们的框架支持四种位置编码策略，并且集成了神经架构搜索，以便自动设计。通过资源限制下的重复原始Transformer和通过结合位置编码优化翻译性能，我们验证了AttentionSmithy的有效性。此外，我们展示了其在基因特定建模方面的适应能力，实现了超过95%的细胞类型分类准确性。这些案例研究突显了AttentionSmithy通过消除框架实现障碍加速跨学科研究的潜力。

发布时间: 2/18/2025

查看原文

S$^2$-扩散：从实例级到类别级技能在机器人操作中的泛化

作者: Quantao Yang, Michael C. Welle, Danica Kragic, Olov Andersson

arXiv:2502.09389v2 宣告类型: replace-cross 摘要: 最近在技能学习方面的进展通过使机器人能够从实际数量的演示中学习复杂的操作任务，推动了机器人操作达到新的高度。然而，这些技能往往局限于训练数据中展示的具体动作、对象和环境实例，并且难以将这些技能转移到同一类别的其他实例上。在本文中，我们提出了一种开放词汇量的空间语义扩散策略（S$^2$-Diffusion），使技能能够从实例级别训练数据推广到类别级别，从而使同一类别的不同实例之间能够转移技能。我们展示了功能方面的技能可以通过可提示的语义模块结合空间表示来捕获。我们进一步提出利用深度估计网络，使得只需使用一个RGB相机即可。我们的方法在各种机器人操作任务上进行了评估和比较，既在仿真环境中进行，也在真实世界中进行。我们的结果表明，S$^2$-Diffusion对于类别无关因素的变化是不变的，并且能够在同一类别中的其他实例上实现令人满意的性能，即使没有针对特定实例进行训练。所有真实世界实验的完整视频可以在附录材料中找到。

发布时间: 2/18/2025

查看原文

通过模型合并将语言特定的大规模语言模型在一天内适配到一个推理模型——一种开源食谱

作者: Kunat Pipatanakul, Pittawat Taveekitworachai, Potsawee Manakul, Kasima Tharnpipitchai

arXiv:2502.09056v2 通告类型: 交叉替换摘要：本文探讨了旨在将如DeepSeek R1等先进推理能力纳入语言特定的大语言模型（LLMs）中的数据选择和模型合并方法，特别关注泰语LLM。我们的目标是在增强语言特定LLMs的推理能力的同时，保持它们的目标语言能力。DeepSeek R1在推理方面表现出色，但主要惠及资源丰富语言如英语和汉语。然而，由于以英语为中心的训练数据和模型优化占据主导地位，低资源语言仍未能得到充分服务，这限制了这些语言在性能上的表现。这种限制导致了不可靠的语言转换，并减少了在低资源语言任务上的有效性。同时，地方性和区域性LLM倡议试图通过开发专注于提高地方语言准确性的语言特定LLM来填补这一缺口。我们证明，在仅有公开可用的数据集和120美元的计算预算的情况下，有可能增强语言特定LLMs的推理能力，使其与DeepSeek R1的水平相当，同时不牺牲其在目标语言任务上的表现。

发布时间: 2/18/2025

查看原文

数据为中心的AI综述：从强化学习和生成AI视角的表数据学习

作者: Wangyang Ying, Cong Wei, Nanxu Gong, Xinyuan Wang, Haoyue Bai, Arun Vignesh Malarkkan, Sixun Dong, Dongjie Wang, Denghui Zhang, Yanjie Fu

arXiv:2502.08828v2 通知类型: replace-cross 摘要：表格数据是生物信息学、医疗保健和营销等领域中最广泛使用的数据格式之一。随着人工智能朝着以数据为中心的视角发展，提高数据质量对于增强表格数据驱动应用中的模型性能至关重要。本综述重点关注数据驱动的表格数据优化，特别是探索强化学习（RL）和生成方法作为特征选择和特征生成的基本技术，以改进数据空间。特征选择旨在识别并保留最有信息性的属性，而特征生成则构建新的特征以更好地捕捉复杂的数据模式。我们系统地回顾了现有的生成方法在表格数据工程中的应用，分析了它们的最新进展、实际应用及其各自的优势和局限性。本综述强调了基于RL和生成技术如何促进特征工程的自动化和智能化。最后，我们总结了现有的挑战，并讨论了未来的研究方向，旨在为该领域的持续创新提供见解。

发布时间: 2/18/2025

查看原文

聚类并预测潜在.patch，以提高掩蔽图像建模

作者: Timoth\'ee Darcet, Federico Baldassarre, Maxime Oquab, Julien Mairal, Piotr Bojanowski

arXiv:2502.08769v2 Announce Type: replace-cross 摘要：掩码图像建模（MIM）提供了一种自监督表征学习的有希望的方法，然而现有的MIM模型仍然落后于当前最先进的模型。在本文中，我们系统地分析了目标表示、损失函数和架构，引入了CAPI——一种新的纯MIM框架，依赖于潜在聚类的预测。我们的方法利用了一种基于聚类的损失，这种损失在训练中很稳定，并且具有前景的扩展性。我们的ViT-L主干和CAPI在ImageNet上达到了83.8%的准确率，在ADE20K上达到了32.1%的mIoU，仅使用简单的线性探针，显著优于之前的MIM方法，并接近当前最先进的模型DINOv2的表现。我们释放了所有我们的代码和模型。

发布时间: 2/18/2025

查看原文

可扩展的离散扩散采样器：组合优化与统计物理

作者: Sebastian Sanokowski, Wilhelm Berghammer, Martin Ennemoser, Haoyu Peter Wang, Sepp Hochreiter, Sebastian Lehner

arXiv:2502.08696v2 采样类型: 改替交叉摘要：从离散域中的复杂未正规分布中学习采样成为了统计物理学、变分推断和组合优化等领域内的一个有前途的研究方向。近期的工作表明，在这个领域中扩散模型展现出潜在的应用价值。然而，现有的方法在内存扩展方面存在限制，因此无法实现足够的扩散步骤，因为它们需要在整个生成过程中进行反向传播。为克服这些限制，我们引入了两种新的离散扩散采样器的训练方法，一种基于策略梯度定理，另一种利用自规范化神经重要性采样（SN-NIS）。这些方法实现了内存高效的训练，并在无监督组合优化中取得了最先进的成果。此外，许多科学应用还需要无偏采样的能力。我们引入了SN-NIS和神经马尔可夫链蒙特卡罗方法的适应性改进，首次使离散扩散模型能够应用于这一问题。我们在Ising模型基准上验证了我们的方法，并发现它们优于流行的自回归方法。我们的研究为扩散模型在离散域中广泛科学应用的发展开辟了新的途径，而这些应用此前只限于精确似然模型。

发布时间: 2/18/2025

查看原文