arXiv 论文列表

生成式AI 再启航：测试时缩放驱动认知工程

作者: Shijie Xia, Yiwei Qin, Xuefeng Li, Yan Ma, Run-Ze Fan, Steffi Chern, Haoyang Zou, Fan Zhou, Xiangkun Hu, Jiahe Jin, Yanheng He, Yixin Ye, Yixiu Liu, Pengfei Liu

arXiv:2504.13828v2 通告类型: 替换-交叉摘要：第一代大型语言模型 - 可能称为生成型AI的"第一幕"（2020-2023年） - 通过大规模参数和数据缩放取得了令人瞩目的成功，但在知识延迟、浅层推理和限制性的认知过程方面也表现出根本性的局限性。在这段时间里，提示工程成为我们与AI的主要交互界面，通过自然语言实现对话级别的沟通。我们现在目睹了"第二幕"（2024年至今）的出现，其中模型从潜空间的知识检索系统过渡到通过测试时缩放技术构建思维的引擎。这一新的范式通过基于语言的思想与AI建立了心灵层面的连接。在本文中，我们澄清了认知工程的概念基础，并解释了为什么这一刻对它的开发至关重要。我们通过全面的教学和优化的实现系统地拆解了这些先进的方法，为认知工程的普及化作出了贡献，并让每一位实践者参与到AI的第二幕中来。我们提供了一个定期更新的关于测试时缩放的论文集合，该集合可以在GitHub Repository中获取：https://github.com/GAIR-NLP/cognition-engineering

发布时间: 4/22/2025

查看原文

深度学习模型与金融数据类型相遇

作者: Kasymkhan Khubiev, Mikhail Semenov

arXiv:2504.13521v2 通知类型: 替换-交叉摘要：算法交易依赖于从多种金融数据来源中提取有意义的信号，包括K线图、挂单和撤单的订单统计、成交-volume数据、限价订单簿以及新闻流。虽然深度学习在处理非结构化数据方面取得了极其显著的成功，并在自然语言处理方面取得了重大进展，但在处理结构化的金融数据方面仍然面临挑战。本研究探讨了将深度学习模型与金融数据模态结合的方法，旨在提高交易策略和投资组合优化中的预测性能。我们提出了一种新的方法，通过开发嵌入技术将限价订单簿分析融入算法交易，并在基于图像的表示中将限价订单簿的连续快照作为不同的输入通道。我们处理限价订单簿数据的方法在高频交易算法中达到了最先进的性能，强调了深度学习在金融应用中的有效性。

发布时间: 4/22/2025

查看原文

LangCoop: 语言协作驾驶

作者: Xiangbo Gao, Yuheng Wu, Rujia Wang, Chenxi Liu, Yang Zhou, Zhengzhong Tu

arXiv:2504.13406v2 通告类型: 替换-交叉摘要：多agent协作在通过使多个连接agent之间实现信息共享来增强自主驾驶系统的安全、可靠性和移动性方面具有巨大的潜力。然而，现有的多agent通信方法受到现有通信媒介限制的影响，包括高带宽需求、agent异构性和信息丢失。为了应对这些挑战，我们引入了LangCoop，这是一种利用自然语言作为紧凑且富有表现力的中间媒介进行agent之间通信的新范式。LangCoop 有两个关键创新：混合模型模块化推理链（M$^3$CoT），用于结构化的零shot 视觉-语言推理，以及自然语言信息包装（LangPack），用于高效地将信息包装成简短的语言基消息。通过在CARLA模拟中进行的大量实验，我们证明了LangCoop 相比基于图像的通信实现了令人瞩目的96%的通信带宽减少（每条消息少于2KB），同时在闭环评估中保持了竞争力的驾驶性能。我们的项目页面和代码可在 https://xiangbogaobarry.github.io/LangCoop/ 查看。

发布时间: 4/22/2025

查看原文

递归深度逆强化学习

作者: Paul Ghanem, Michael Potter, Owen Howell, Pau Closas, Alireza Ramezani, Deniz Erdogmus, Tales Imbiriba

arXiv:2504.13241v2 宣告类型: 替换-交叉摘要: 从对手表现的行为中推断对手的目标对于网络安全、军事和策略游戏等领域中的反制规划和非合作多智能体系统至关重要。基于最大熵原则的深度逆强化学习(Deep Inverse Reinforcement Learning, DIRL)方法显示出恢复对手目标的潜力，但这些方法通常是离线的，需要使用梯度下降和大规模批次大小进行第一阶更新，这限制了它们在实时场景中的应用。我们提出了一种在线递归深度逆强化学习(Relative Deep Inverse Reinforcement Learning, RDIRL)方法，用于恢复控制对手行为和目标的成本函数。具体而言，我们使用顺序二次牛顿更新（类似于扩展卡尔曼滤波器（EKF））来最小化标准引导成本学习（Guided Cost Learning, GCL）目标的上界，从而得到一个收敛速度快的学习算法。实验表明，RDIRL 能够在标准和对抗基准任务中恢复专家代理的成本函数和奖励函数。在基准任务上的实验显示，我们提出的方法在性能上优于几种领先的逆强化学习算法。

发布时间: 4/22/2025

查看原文

大型语言模型的顺序蒙特卡罗语法和语义控制

作者: Jo\~ao Loula, Benjamin LeBrun, Li Du, Ben Lipkin, Clemente Pasti, Gabriel Grand, Tianyu Liu, Yahya Emara, Marjorie Freedman, Jason Eisner, Ryan Cotterell, Vikash Mansinghka, Alexander K. Lew, Tim Vieira, Timothy J. O'Donnell

arXiv:2504.13139v2 宣布类型: 替换-交叉摘要：许多语言模型（LM）应用需要生成符合句法或语义约束的文本。施加这些约束可以自然地被视为概率约束，但从由此产生的分布中进行精确生成——这与LM的基本分布可能大相径庭——通常是不可行的。在本文中，我们基于序贯蒙特卡洛（SMC）开发了一种受控LM生成架构。我们的SMC框架允许我们在推理时灵活地结合领域和特定问题的约束，并在生成过程中根据新信息高效地重新分配计算资源。通过对四个具有挑战性的领域——数据科学中的Python代码生成、文本到SQL、目标推断和分子合成——进行多种替代方案和消融研究，我们证明，在少量额外开销的情况下，我们的方法使小型开源语言模型能够在性能上超过8倍更大的模型，甚至比闭源的微调模型更好。为了支持概率视角，我们展示了这些性能提升是由对后验分布更好的近似所驱动的。我们的系统基于Lew等人（2023）的框架，并与其语言模型的概率编程语言集成，为用户提供了一种简单且可编程的方法来将SMC应用于广泛的受控生成问题中。

发布时间: 4/22/2025

查看原文

多国价值对齐benchmarking大型语言模型

作者: Weijie Shi, Chengyi Ju, Chengzhong Liu, Jiaming Ji, Jipeng Zhang, Ruiyuan Zhang, Jia Zhu, Jiajie Xu, Yaodong Yang, Sirui Han, Yike Guo

arXiv:2504.12911v2 宣告类型：替换交叉摘要：大型语言模型（LLMs）是否持有与您国家价值观相冲突的立场？有时确实如此！然而，现有的工作主要集中在道德审查上，未能捕捉到国家价值观的多样性，这涵盖了更广泛的政策、法律和道德考虑。此外，当前依赖于手动设计问卷的频谱测试基准也不容易扩展。为应对这些限制，我们引入了NaVAB，这是一个全面的基准，用于评估LLMs与五个主要国家的价值观：中国、美国、英国、法国和德国的契合度。NaVAB 实施了一个国家价值观提取管道，以高效地构建价值评估数据集。具体来说，我们提出了一个带有指令标记的建模程序来处理原始数据源，一个筛选过程来过滤价值相关主题，以及一个带有冲突减少机制的生成过程来过滤非冲突的价值。我们在不同国家的各种LLMs上进行了广泛的实验，结果提供了在识别失配情景方面的一些见解。此外，我们展示了NaVAB可以与对齐技术结合起来，通过将LLMs的价值与目标国家对齐来有效减少价值关切。

发布时间: 4/22/2025

查看原文

跨环境协作使零样本多智能体协调成为可能

作者: Kunal Jha, Wilka Carvalho, Yancheng Liang, Simon S. Du, Max Kleiman-Weiner, Natasha Jaques

arXiv:2504.12714v2 宣告类型: replace-cross 摘要：零样本协调（ZSC），即在合作任务中适应新伙伴的能力，是人类兼容AI的关键组成部分。尽管先前的工作关注于训练代理在单一任务上进行合作，但这些专门化的模型不能泛化到新任务，即使这些新任务与原有任务高度相似。在这里，我们研究了在单个伙伴的环境分布下利用强化学习来学习通用的协作技能，这些技能支持在许多新问题上与许多新伙伴进行ZSC。我们引入了两个基于Jax的流程生成器，生成了数十亿个可解决的协调挑战。我们开发了一种新的范式，称为跨环境合作（CEC），并证明它可以与真人协作时在定量和定性上优于竞争基准。我们的发现表明，在许多独特的场景中学习协作促使代理发展出通用规范，这些规范对于与不同伙伴合作证明是有效的。我们的研究成果共同表明了一条新的途径，用于设计能够在无需人类数据的情况下与人类交互的通用协作代理。

发布时间: 4/22/2025

查看原文

2025年NTIRE挑战赛：双焦距图像日间和夜间雨滴去除的方法与结果

作者: Xin Li, Yeying Jin, Xin Jin, Zongwei Wu, Bingchen Li, Yufei Wang, Wenhan Yang, Yu Li, Zhibo Chen, Bihan Wen, Robby T. Tan, Radu Timofte, Qiyu Rong, Hongyuan Jing, Mengmeng Zhang, Jinglong Li, Xiangyu Lu, Yi Ren, Yuting Liu, Meng Zhang, Xiang Chen, Qiyuan Guan, Jiangxin Dong, Jinshan Pan, Conglin Gou, Qirui Yang, Fangpu Zhang, Yunlong Lin, Sixiang Chen, Guoxi Huang, Ruirui Lin, Yan Zhang, Jingyu Yang, Huanjing Yue, Jiyuan Chen, Qiaosi Yi, Hongjun Wang, Chenxi Xie, Shuai Li, Yuhui Wu, Kaiyi Ma, Jiakui Hu, Juncheng Li, Liwen Pan, Guangwei Gao, Wenjie Li, Zhenyu Jin, Heng Guo, Zhanyu Ma, Yubo Wang, Jinghua Wang, Wangzhi Xing, Anjusree Karnavar, Diqi Chen, Mohammad Aminul Islam, Hao Yang, Ruikun Zhang, Liyuan Pan, Qianhao Luo, XinCao, Han Zhou, Yan Min, Wei Dong, Jun Chen, Taoyi Wu, Weijia Dou, Yu Wang, Shengjie Zhao, Yongcheng Huang, Xingyu Han, Anyan Huang, Hongtao Wu, Hong Wang, Yefeng Zheng, Abhijeet Kumar, Aman Kumar, Marcos V. Conde, Paula Garrido, Daniel Feijoo, Juan C. Benito, Guanglu Dong, Xin Lin, Siyuan Liu, Tianheng Zheng, Jiayu Zhong, Shouyi Wang, Xiangtai Li, Lanqing Guo, Lu Qi, Chao Ren, Shuaibo Wang, Shilong Zhang, Wanyu Zhou, Yunze Wu, Qinzhong Tan, Jieyuan Pei, Zhuoxuan Li, Jiayu Wang, Haoyu Bian, Haoran Sun, Subhajit Paul, Ni Tang, Junhao Huang, Zihan Cheng, Hongyun Zhu, Yuehan Wu, Kaixin Deng, Hang Ouyang, Tianxin Xiao, Fan Yang, Zhizun Luo, Zeyu Xiao, Zhuoyuan Li, Nguyen Pham Hoang Le, An Dinh Thien, Son T. Luu, Kiet Van Nguyen, Ronghua Xu, Xianmin Tian, Weijian Zhou, Jiacheng Zhang, Yuqian Chen, Yihang Duan, Yujie Wu, Suresh Raikwar, Arsh Garg, Kritika, Jianhua Zheng, Xiaoshan Ma, Ruolin Zhao, Yongyu Yang, Yongsheng Liang, Guiming Huang, Qiang Li, Hongbin Zhang, Xiangyu Zheng, A. N. Rajagopalan

arXiv:2504.12711v2 宣布类型: 交叉替换摘要：本文回顾了2025年NTIRE日间与夜间雨滴去除挑战赛（Dual-Focused Images）。此次挑战收到了一系列令人印象深刻的方法，这些方法是基于我们收集的实际雨滴清晰度数据集开发和评估的。与现有的脱雨数据集不同，我们的雨滴清晰度数据集在退化类型和内容上更具多样性和挑战性，包括日间雨滴聚焦、日间背景聚焦、夜间雨滴聚焦和夜间背景聚焦的退化。该数据集分为三个子集用于竞赛：用于训练的图像有14,139张、用于验证的图像有240张、用于测试的图像有731张。此次挑战的主要目标是建立一个新的强大基准，用于在不同光照和焦距条件下去除雨滴的任务。共有361个参赛者参加了此次竞赛，其中32支队伍提交了有效的解决方案和最终测试阶段的相关材料。这些提交在雨滴清晰度数据集上取得了目前最先进的性能（SOTA）。该项目可以在 https://lixinustc.github.io/CVPR-NTIRE2025-RainDrop-Competition.github.io/ 找到。

发布时间: 4/22/2025

查看原文

匿名公开公告

作者: Thomas {\AA}gotnes, Rustam Galimullin, Ken Satoh, Satoshi Tojo

arXiv:2504.12546v2 宣布类型: replace-cross 摘要：我们在公共公告逻辑的传统背景下正式化匿名公共公告的概念。这样的公告可以被视为介于“外部”的公共公告（即宣布$\phi$）和某个代理发出的公共公告（即宣布$K_a\phi$）之间：我们获取的信息超过了仅仅是$\phi$的内容，但不一定明确知道是谁发出的。即使这种公告看似匿名，根据代理的背景知识，它也可能泄露发言人的身份：如果我在留言板上发布了一些内容，即使我不署名，信息也可能泄露我是谁。此外，与俄罗斯卡片谜题类似，如果假设发言人的意图是保持匿名，这样做实际上可能泄露更多信息。在本文中，我们首先研究在不做关于意图假设的情况下的情形，在这种情况下，包含匿名公共公告操作符的逻辑可以归约为认识逻辑。然后我们研究在假设共同知识表明意图保持匿名的情况下，这种情况既更复杂也更有趣：以多种方式，它归结为一种“安全”公告的概念（再次类比俄罗斯卡片谜题）。主要结果包括对关键逻辑语言的形式表达能力和公理完全性的形式结果。

发布时间: 4/22/2025

查看原文

在文本属性图中结合结构和语义信号的BiGTex方法

作者: Azadeh Beiranvand, Seyed Mehdi Vahidipour

arXiv:2504.12474v2 Announce Type: replace-cross 摘要：文本标注图（TAGs）在表示学习中提出了独特的挑战，因为它们要求模型同时捕捉节点相关文本的语义丰富性和图结构的依赖关系。虽然图神经网络（GNNs）在建模拓扑信息方面表现出色，但它们缺乏处理非结构化文本的能力。相反，大型语言模型（LLMs）在文本理解方面非常熟练，但通常对图结构一无所知。在本文中，我们提出了一种新颖的架构BiGTex（双向图文本），它通过堆叠图-文本融合单元紧密地将GNNs和LLMs集成在一起。每个单元允许文本和结构表示之间的相互注意，从而使信息可以在两个方向上流动，文本影响结构，结构指导文本解释。所提出架构通过参数高效微调（LoRA）进行训练，保持LLMs冻结，同时适应任务特定信号。在五个基准数据集上的广泛实验表明，BiGTex在节点分类上取得了最先进的性能，并且在链接预测方面能够有效泛化。进一步的消融研究还强调了软提示和双向注意在模型成功中的重要性。

发布时间: 4/22/2025

查看原文