arXiv:2404.05272v2 公告类型: 替换
摘要: 我们考虑一个卖方拥有一组数据集 $D$,并将其训练成具有不同准确度的模型在市场出售的情况。由于数据的可重复利用性,该数据集可以被重复使用来训练不同准确度的模型,而训练成本与销售量无关。这两个特性导致了数据交易市场与传统交易市场之间的根本差异。将不同模型引入市场不可避免地会产生竞争。但由于这些模型的准确度不同,传统的寡头垄断游戏不适用。我们考虑了一种广义的霍特尔定律,其中模型的准确度被抽象为距离。买家根据准确度和价格之间的权衡来选择购买模型,而卖家则根据市场需求来确定其定价策略。我们提出了两种定价策略:静态定价策略和动态定价策略,并着重讨论了静态定价策略。我们基于各种市场条件提出了静态定价机制,并提供了一个示例。最后,我们证明了我们的定价策略在信息不完全博弈的背景下依然具有 robust 性。
arXiv:2404.02039v2 宣告类型: 修改
摘要: 游戏代理的发展在推进接近人工通用智能方面起着关键作用。大语言模型(LLMs)的进步提供了一个前所未有的机会,以赋予游戏代理在复杂计算机游戏环境中进行类人决策的能力。本文从整体视角提供了基于大语言模型的游戏代理的全面综述。首先,我们介绍了基于大语言模型的游戏代理的概念架构,围绕三个核心功能组件:记忆、推理和输入/输出。其次,我们调查了文献中记录的代表性基于大语言模型的游戏代理,涵盖六类游戏的方法和适应敏捷性,包括冒险、交流、竞争、合作、模拟和制作与探索游戏。最后,我们概述了这一新兴领域未来研究和发展方向。一个相关论文的精选列表持续维护并可访问:https://github.com/git-disl/awesome-LLM-game-agent-papers。
arXiv:2311.12202v2 宣告类型: 替换
摘要:在大量人类生成的内容上进行训练后,AI生成的图像合成能够创建出与训练数据视觉外观语义一致的图像。我们展示,当这些生成AI模型在其自己的创作上重新训练时,即使是少量的数据,它们也会生成高度失真的图像。我们还展示了这种失真不仅限于重新训练所使用的文本提示,一旦受到影响,即使仅在真实图像上重新训练,模型也难以完全恢复。
arXiv:2008.01188v4 公告类型:替换
摘要:本文提出了几种通过强化学习学习游戏状态评估函数的技术。首先是树启动的泛化(树学习)的扩展:它适应了无需基于非线性函数的知识的强化学习环境。通过这种方法,在强化学习过程中不会丢失任何信息。其次是对最小最大算法进行修改,使其深度无界,将最佳行动序列延伸至终端状态。这种修改后的搜索旨在在学习过程中使用。第三是用强化学习启发式算法替换经典的游戏收益(+1 / -1)。我们研究了一些特定的强化学习启发式算法,如:快速胜利和缓慢失败;得分;移动性或存在感。第四是新的动作选择分布。进行的实验表明,这些技术提高了游戏水平。最后,我们将这些不同的技术应用于设计 Hex 游戏(大小为 11 和 13)的程序玩家,并通过自我对弈学习超越 Mohex 3HNN 的水平。
arXiv:2503.24381v1 交叉公告类型: cross
摘要: 我们引入了UniOcc,这是一个针对占用预测(即基于历史信息预测未来占用率)和从摄像头图像中预测当前帧占用率的全面统一基准。UniOcc统一了来自多个真实世界数据集(如nuScenes、Waymo)和高保真驾驶模拟器(如CARLA、OpenCOOD)的数据,提供了2D/3D占用率标签以及每体素流标注,支持协作自动驾驶。在评估方面,不同于现有的依赖于次优伪标签的评估方法,UniOcc融入了新的评估指标,这些指标不依赖于真实占用率标签,从而能够对占用率质量的额外方面进行稳健评估。通过对最先进的模型进行广泛的实验,我们表明,大规模、多样化的训练数据和显式的流信息显著提高了占用率预测和预报性能。
arXiv:2503.24379v1 Announce Type: cross
摘要:为了解决当前视频生成社区中准确理解用户意图的瓶颈,我们提出了Any2Caption,这是一种在任何条件下均可控制的视频生成新型框架。关键思想是将各种条件解释步骤与视频合成步骤分离。通过利用现代多模态大型语言模型(MLLMs),Any2Caption 将多种输入——文本、图像、视频以及如区域、运动和相机姿态等专业提示——解释为稠密且结构化的字幕,为骨干视频生成器提供更好的指导。我们还引入了Any2CapIns,这是一个大规模数据集,包含337,000个实例和407,000个条件,用于任何条件到字幕指令调优。全面的评估表明,我们的系统在各种方面均能显著提高现有视频生成模型的可控性和视频质量。项目页面:https://sqwu.top/Any2Cap/
arXiv:2503.24377v1 Announce Type: cross
摘要:近期大规模语言模型(LLMs)的进步显著增强了其执行复杂推理任务的能力,从快速和直观的思考(System 1)转向缓慢而深入的推理(System 2)。虽然System 2推理提高了任务准确性,但由于其缓慢思考的特性及其低效或不必要的推理行为,往往会带来巨大的计算成本。相比之下,System 1推理计算效率高,但会导致次优性能。因此,平衡性能(收益)和计算成本(预算)之间的权衡至关重要,从而产生了推理经济的概念。在这篇综述中,我们提供了对LLMs在训练后和测试时推断阶段推理经济的全面分析,包括i)推理低效的原因,ii)不同推理模式的行为分析,以及iii)实现推理经济的潜在解决方案。通过提供可操作的见解并突出显示开放挑战,我们旨在阐明提高LLMs推理经济性的策略,从而成为推进该领域研究的宝贵资源。我们还提供了一个公共仓库,以持续跟踪这一快速发展的领域的发展。
arXiv:2503.24376v1 宣告类型:交叉
摘要:近期在Chain of Thought(CoT)生成方面的进展显著提升了大型语言模型(LLMs)的推理能力,强化学习(RL)作为有效的后训练方法逐渐崭露头角。多模态大型语言模型(MLLMs)继承了这种推理能力,但在需要感知和逻辑推理相结合的任务中仍相对未被探索。为解决这一问题,我们引入了SEED-Bench-R1,这是一个旨在系统评估MLLMs感知理解后训练方法的基准测试。它包含了复杂的实际视频和复杂的日常规划任务,并以多项选择题的形式呈现,需要复杂的感知和推理能力。SEED-Bench-R1 通过三级层次评估泛化能力:分布内、跨环境和跨环境任务场景,并提供了一个带有易于验证的参考答案的大规模培训数据集。以Qwen2-VL-Instruct-7B为基模型,我们将RL与监督微调(SFT)进行比较,显示了RL在数据效率和内外分布任务上的优越性能,甚至在长视频基准测试(LongVideoBench)等一般视频理解基准测试中优于SFT。我们的详细分析表明,RL提升了视觉感知但经常产生不那么逻辑连贯的推理链。我们指出了关键限制,如不一致的推理和忽视的视觉线索,并建议在基本模型推理、奖励建模以及噪声信号下的RL稳健性方面的未来改进。
arXiv:2503.24370v1 类别:cross
摘要:增强推理的大语言模型(LLMs)在生成最终答案之前显式地生成中间推理步骤,有助于模型在复杂问题解决中表现出色。在本文中,我们证明了这种新兴的生成框架为更精细地控制模型行为提供了独特的机会。我们提出了一种名为Thinking Intervention的新颖范式,通过战略性地插入或修订特定的思考令牌,以明确指导LLMs的内部推理过程。我们在多个任务上进行了全面评估,包括IFEval上的指令执行、SEP上的指令层级结构以及XSTest和SORRY-Bench上的安全对齐。我们的结果表明,Thinking Intervention在指令执行场景中显著优于基准提示方法,实现了高达6.7%的准确率提升,关于指令层级结构的推理改善了15.4%,并且在使用开源DeepSeek R1模型时,不安全提示的拒绝率提高了40.0%。总体而言,我们的工作为控制推理LLMs开辟了一条有前景的新研究途径。
arXiv:2503.24365v1 交叉公告类型
摘要:随着神经网络在关键系统中的主导地位,可解释的机器 intelligence (XAI) 在促进信任和检测不透明模型潜在不当行为方面发挥着至关重要的作用。LIME(局部可解释通用解释)是其中最 prominent 的模型通用方法之一,通过在特定实例周围近似黑盒模型的行为来生成解释。尽管它受到广泛欢迎,但 LIME 在准确度、稳定性和在特定领域问题的应用方面仍面临挑战。为了解决这些问题,已经提出了诸多适应性和增强方法,但由于不断增长的发展数量,这可能会让人感到困惑,增加了导航 LIME 相关研究的难度。据我们所知,这是首次全面探索和收集 LIME 基础概念及其已知限制的研究。我们将各种增强方法分类并进行比较,基于中间步骤和关键问题提供了一个结构化的分类体系。我们的分析提供了 LIME 进展的全面概述,指导未来研究,并帮助实践者识别合适的方案。此外,我们提供了一个不断更新的交互式网站(https://patrick-knab.github.io/which-lime-to-trust/),提供了一个简洁且易于访问的概览,介绍此次研究。