LLM2D

arXiv 论文列表

作者: Alexandra Khirianova, Ekaterina Solodneva, Andrey Pudovikov, Sergey Osokin, Egor Samosvat, Yuriy Dorn, Alexander Ledovsky, Yana Zenkova
arXiv:2505.08485v1 宣告类型: 新颖 摘要: 在众多数字市场中,在线广告拍卖中的投标策略优化是一项关键挑战。实时自动出价算法的发展、评估和改进面临的主要障碍之一是缺乏全面的数据集和标准化基准。 为了应对这一不足,我们提出了一种涵盖两种最常见的拍卖格式的拍卖基准。我们在新型数据集上实现了一系列稳健的基线,解决实时竞价(RTB)领域最突出的问题领域:预算 pacing 统一性和每点击成本(CPC)约束优化。该基准为研究人员和从业者提供了一个用户友好且直观的框架,用于开发和改进创新的自动出价算法,从而推动程序化广告领域的进展。有关实现和额外资源,请访问以下存储库(https://github.com/avito-tech/bat-autobidding-benchmark, https://doi.org/10.5281/zenodo.14794182)。
发布时间: 5/14/2025
查看原文
作者: Shuai Xu, Sijia Cui, Yanna Wang, Bo Xu, Qi Wang
arXiv:2505.08459v1 对手类型: 新 摘要: 在对抗领域中,有效地建模和利用对手一直是长期存在的挑战。经过大量文本数据训练的大语言模型(LLMs)最近在通用任务中表现出色,为对手建模带来了新的研究方向。一些研究主要侧重于直接利用LLMs根据包含对手描述的详细提示上下文生成决策,而这些方法局限于LLMs具备充足领域专业知识的场景。为了解决这个问题,我们引入了一种两阶段策略增强规划(SAP)框架,显著增强了基于LLM的代理的对手利用能力,利用了一个关键组件,策略评估网络(SEN)。具体来说,在离线阶段,我们构建了一个明确的策略空间,随后收集策略-结果对数据以训练SEN网络。在在线阶段,SAP动态识别对手的策略,并通过在充分训练的SEN中搜索最佳响应策略贪婪地利用它们,最终通过精心设计的提示将策略转化为行动方案。实验结果显示,SAP表现出色的应用能力,不仅能够有效地对抗之前遇到的对手策略,还能有效应对全新的未知策略。在MicroRTS环境中,SAP相对于基线方法实现了85.35%的性能提升,并且与基于最新规则的AI的竞争性相匹配,达到了强化学习方法对最先进的(SOTA)规则基础AI的竞争力。
发布时间: 5/14/2025
查看原文
作者: Lotfi Kobrosly, Marc-Emmanuel Coupvent des Graviers, Christophe Guettier, Tristan Cazenave
arXiv:2505.08451v1 宣布类型: 新闻 摘要: 可调度柔性车间调度问题(FJSSP)是一个NP难的组合优化问题,特别是在制造领域有着多种应用领域。目标是高效地在不同的机器上调度多种操作。这些操作被组织成作业,同一作业的操作需要被顺序调度。此前已经测试过多种方法来解决这个问题,如约束求解、禁忌搜索、遗传算法或蒙特卡罗树搜索(MCTS)。我们提出了一种基于广义嵌套展开策略适应的新算法,该算法旨在解决FJSSP问题。我们报告了令人鼓舞的实验结果,因为我们的算法在某些方面优于基于MCTS的方法,尽管在大规模实例上的周转时间仍然远远超过已知的上界。
发布时间: 5/14/2025
查看原文
作者: Yuhan Zhu, Haojie Liu, Jian Wang, Bing Li, Zikang Yin, Yefei Liao
arXiv:2505.08446v1 宣布类型: 新 摘要:基于大型模型的AI代理的崛起激发了对多代理系统(MAS)的兴趣,因为它们在决策、协作和适应性方面的能力。虽然模型上下文协议(MCP)通过统一协议解决了工具调用和数据交换的挑战,但它缺乏针对代理级协作的组织支持。为弥补这一差距,我们提出了基于代理网络的服务代理模型(AaaS-AN),这是一种基于角色-目标-过程-服务(RGPS)标准的服务导向范式。AaaS-AN通过两个核心组件统一了整个代理生命周期,包括构建、集成、互操作性和网络化协作:(1) 动态代理网络,该网络将代理及其组建模为基于任务和角色依赖性在网络中自我组织的顶点;(2) 服务导向的代理,集成了服务发现、注册和服务互操作性协议。这些组件由服务调度器协调,利用执行图来实现分布式协调、上下文跟踪和运行时任务管理。我们在数学推理和应用级代码生成任务上验证了AaaS-AN,性能超出最先进的基线。值得注意的是,我们基于AaaS-AN构建了一个MAS,包含代理组、机器人流程自动化(RPA)工作流和MCP服务器,实现了超过100个代理服务。我们还发布了一个包含10,000个长期代理工作流的数据集,以促进MAS中长链协作的未来研究。
发布时间: 5/14/2025
查看原文
作者: Sara Montese, Victor Gimenez-Abalos, Atia Cort\'es, Ulises Cort\'es, Sergio Alvarez-Napagao
arXiv:2505.08404v1 宣布类型: 新 摘要: 通过提高道路安全、减少人类驾驶错误并促进环境可持续性,自动驾驶领域在过去几十年中取得了迅速进步。随着人工智能尤其是深度学习的进步,自动驾驶车辆的性能有了显著提升。然而,基于准确但复杂的AI模型的决策透明度不足,已经造成了社会信任和监管接受方面的障碍,从而引发了可解释性的需求。我们提出了一种后置的、模型无关的解决方案,以提供城市环境中的自动驾驶车辆行为的道义解释。基于意图感知政策图,我们的方法能够在全局和局部视角下从nuScenes数据集中提取可解释且可靠的行为解释。我们展示了这些解释的潜力,以评估车辆是否在可接受的法律边界内运行,并识别自动驾驶数据集和模型中的潜在漏洞。
发布时间: 5/14/2025
查看原文
arXiv:2505.08364v1 公布类型: 新作 摘要: 尽管在数学推理等领域取得了显著进展,大型语言模型仍面临在一致解决复杂问题方面的重要挑战。受到关键的人类学习策略的启发,我们提出了两种新策略来增强大型语言模型解决这些复杂问题的能力。首先,自适应难度课程学习(ADCL)是一种新颖的课程学习策略,通过定期重新评估即将到来的数据批次中的难度,解决模型在训练过程中问题难度感知动态变化的现象(即模型对问题难度的感知在训练过程中会动态变化),以保持与模型不断演化的能 力的对齐。其次,专家引导的自我重述(EGSR)是一种新颖的强化学习策略,它通过在模型自身的概念框架内指导模型重述专家解决方案,而不是依赖直接模仿,来弥合模仿学习和纯粹探索之间的差距,从而促进更深入的理解和知识吸收。在AIME24和AIME25等具有挑战性的数学推理基准上使用Qwen2.5-7B作为基模型进行的广泛实验表明,这些受人类启发的策略可以协同和显著地增强性能。值得注意的是,将它们结合使用在AIME24基准上将标准Zero-RL基线的性能提高了10%,而在AIME25基准上提高了16.6%。
发布时间: 5/14/2025
查看原文
arXiv:2505.08361v1 Announce Type: 新 摘要:强化学习(RL)的一般化仍然是一个重大挑战,尤其是在代理遇到具有未见过的动力学的新环境时。从人类组合性推理中汲取灵感——其中已知组件被重新配置以应对新情况——我们引入了组合因果组件的世模框架(WM3C)。这一新颖框架通过学习和利用组合性因果组件来增强RL的一般化能力。与以往侧重于不变表示学习或元学习的方法不同,WM3C识别并利用组合元素之间的因果动力学,从而便于对新任务进行稳健的适应。我们的方法将语言作为组合方式来分解潜在空间,并在温和的假设下提供了独特识别的理论保证。我们的实际实现使用了带互信息约束和自适应稀疏正则化的掩码自编码器来捕获高级语义信息并有效地分离转换动力学。实验在数值仿真和实际的机器人操作任务上表明,WM3C在识别潜在过程、提高策略学习能力和应对未见过的任务方面显著优于现有方法。
发布时间: 5/14/2025
查看原文
作者: Ruichu Cai, Xi Chen, Jie Qiao, Zijian Li, Yuequn Liu, Wei Chen, Keli Zhang, Jiale Zheng
arXiv:2505.08343v1 声明类型: 新 摘要: 在异常情况下进行决策是一个关键过程,涉及评估当前状态并确定最优行动以以可接受的成本将系统恢复到正常状态。然而,在此类情景中,现有的决策框架高度依赖于强化学习或根本原因分析,导致它们经常忽视行动的成本或未能充分纳入因果机制。通过放松现有的因果决策框架以解决必要的因果关系,我们提出了一种通过反事实推理最小成本因果决策(MiCCD)框架来应对上述挑战。重点在于识别大量混合异常数据存在情况下反事实推理过程的可识别性,以及在连续决策空间中找到最优的干预状态。具体来说,它根据因果图制定了一个代数模型,使用异常模式聚类标签作为监督信号。这使得能够近似变量间的结构性因果模型,并为识别反事实推理奠定了基础。在因果结构近似之后,我们基于反事实估计建立了优化模型。进一步采用序列最小平方编程(SLSQP)算法,在考虑成本的情况下优化干预策略。在合成和真实数据集上的实验评估表明,MiCCD 在多个指标(包括 F1 分数、成本效率和排名质量 nDCG@k 值)上优于传统方法,从而验证了其有效性和广泛的适用性。
发布时间: 5/14/2025
查看原文
作者: Erpai Luo, Jinmeng Jia, Yifan Xiong, Xiangyu Li, Xiaobo Guo, Baoqi Yu, Lei Wei, Xuegong Zhang
arXiv:2505.08341v1 宣告类型: 新 摘要:大型语言模型和多智能体系统的兴起激发了对能够自主从事生物研究的AI科学家的兴趣。然而,现有的基准要么专注于无数据的推理,要么专注于带有预定义统计答案的数据分析,缺乏现实且数据驱动的评估环境。在这里,我们介绍了生物AI科学家基准(BaisBench),该基准旨在评估AI科学家通过数据分析和与外部知识推理生成生物发现的能力。BaisBench 包含两个任务:在31个专家标注的单细胞数据集上的细胞类型注释,以及通过回答198道选择题进行科学发现,这些问题是从41项最近的单细胞研究的生物洞察中衍生出来的。对最先进的AI科学家和LLM代理进行的系统实验表明,尽管这些模型前景良好,但它们在两个任务上的表现仍然远远落后于人类专家。我们希望BaisBench能够填补这一空白,并作为推动和评估用于科学研究的AI模型的基础。该基准可以在以下链接找到:https://github.com/EperLuo/BaisBench。
发布时间: 5/14/2025
查看原文
作者: Justin K Miller, Wenjia Tang
arXiv:2505.08253v1 新型通知类型:新 摘要:随着生成型AI越来越多地嵌入日常工作流程中,评估其性能的方式也应反映真实世界的应用而非抽象的智力概念变得尤为重要。与许多现有的侧重一般智力评估的标准不同,我们的方法专注于实际应用价值,评估模型如何在日常任务中支持用户。尽管目前的标准侧重于代码生成或事实回忆,但用户依赖AI进行的活动范围要广泛得多,包括写作辅助、总结、引文格式化、风格反馈等。在本文中,我们分析大规模调查数据和使用日志,以确定六种核心能力,代表人们如何常用大型语言模型(LLMs):总结、技术辅助、工作审查、数据结构化、生成和信息检索。然后,我们评估现有标准在这些能力上的覆盖面,揭示了在覆盖范围、效率测量和可解释性方面存在显著不足。基于这一分析,我们使用以人为中心的标准来识别现有标准在哪些方面未能准确反映实际应用,这种应用是基于五个实用标准:连贯性、准确性、清晰度、相关性和效率。对于六种能力中的四种,我们确定了与实际任务最匹配的标准,并使用它们来比较领先的模型。我们发现,Google Gemini 在这些注重实用性的指标上优于其他模型,包括OpenAI的GPT、xAI的Grok、Meta的LLaMA、Anthropic的Claude、DeepSeek以及来自阿里巴巴的Qwen。
发布时间: 5/14/2025
查看原文