arXiv:2504.07856v2 宣告类型: 替换
摘要: 将大型语言模型与人类偏好对齐对于其安全部署至关重要。虽然直接偏好优化 (DPO) 提供了一种基于人类反馈的强化学习的有效替代方案,但传统的 DPO 方法仍受限于它们对单一偏好对的依赖。最近的一些工作,如 Curriculum-DPO,通过基于两两可分辨性 (PD) 的一维难度课程整合了多个偏好对,但忽视了输入提示本身的复杂性。为了解决这一问题,我们提出了 2D-Curri-DPO,这是一种利用二维课程框架的新颖方法,该框架同时建模提示复杂性 (PC) 和两两可分辨性 (PD)。该框架引入了双重难度度量来量化提示语义复杂性和响应偏好清晰度,定义了一个课程策略空间,其中包含多个可选策略以适应任务,以及通过引入基于 KL 散度的自适应机制来动态更新参考模型,以增强训练稳定性。全面的实验表明,2D-Curri-DPO 在多个基准测试中(包括 MT-Bench、Vicuna Bench 和 WizardLM)显著优于标准 DPO 和先前的课程方法。我们的方法在具有挑战性的测试集,如 UltraFeedback 上达到了最先进的性能。消除研究验证了 2D 结构和自适应机制的利益,而分析提供了策略选择的指导。这些发现表明,有效的对齐需要同时建模提示复杂性和两两可分辨性,确立了自适应、多维课程学习作为一种强大且可解释的新范式,用于基于偏好的语言模型优化。
arXiv:2503.21138v3 评价类型: 替换
摘要:为了降低模型实验评估的成本,我们提出了一种预测和决策模型的计算评价理论:构建评价模型以加速评价过程。我们证明了给定评价模型的通用误差和通用因果效应误差的上界。我们还证明了所提出的评价模型在评估指标下估计因果效应的效率和一致性。为了学习评价模型,我们提出了一种元学习器来处理异质评价对象空间问题。与现有评价方法相比,在包括个体药物、科学模拟、社会实验、商业活动和量子交易在内的12个场景中,我们的(条件)评价模型减少了24.1%-99.0%的评估误差。评估时间相比实验或模拟减少了3到7个数量级。
arXiv:2503.07450v3 公告类型: 更新
摘要:变压器架构的引入是自然语言处理(NLP)领域的转折点。基于变压器架构的模型,如双向编码器表示(BERT)和生成预训练变换器(GPT),在软件开发和教育等各种应用中获得了广泛应用。大型语言模型(LLM)如ChatGPT和Bard对公众的可用性展示了这些模型巨大的潜力,并鼓励将在软件开发等领域整合这些模型以用于代码生成、调试和文档生成等任务。在这项研究中,收集了11位专家关于使用LLM进行软件开发的经验,并进行了分析,以从中得出可以指导成功的且负责任的整合的见解。专家们的总体意见是积极的,他们指出了诸如提高生产率和减少编码时间等优势。同时,还提到了一些潜在的风险和挑战,如过度依赖的风险和伦理考量。
arXiv:2503.06163v2 宣告类型: 替换
摘要: 随着基于文本条件的视频生成模型(VGMs)的迅速发展,生成的视频质量有了显著提高,这些模型更接近于成为“世界模拟器”,使得在现实世界水平上生成视频变得更加可行和成本效益更高。然而,生成的视频往往包含事实错误,并且缺乏对基本物理定律的理解。虽然一些之前的研究通过手工分析在有限的领域中突显了这个问题,但至今尚未建立全面的解决方法,主要原因是缺乏一个通用的自动方法来建模和评估这些模型在各种场景中的因果推理。为了解决这一差距,我们提出了 VACT:一个**自动**的框架,用于在现实世界场景中建模、评估和测量 VGMs 的因果理解。通过结合因果分析技术和精心设计的大语言模型助手,我们的系统可以在无需人工注释的情况下评估模型在各种场景下的因果行为,这提供了强大的泛化能力和可扩展性。此外,我们引入了多层次的因果评估指标,以详细分析 VGMs 的因果性能。作为演示,我们使用我们的框架对几种流行的 VGMs 进行基准测试,揭示了其因果推理能力。我们的工作为基础系统地解决 VGMs 中的因果理解缺陷奠定了基础,并有助于提高其可靠性和现实世界的适用性。
arXiv:2502.06235v2 通告类型: 替换
摘要: 我们展示了如何将信念变化(扩展、修订、收缩)的 AGM 框架扩展到所谓的欲望-无关框架中,该框架基于接受和拒绝选项的抽象概念以及事件的抽象概念。这种抽象水平允许我们同时处理经典和量子概率理论。
arXiv:2412.10442v2 宣告类型: 替换
摘要:信息的交流自古以来就伴随着永恒的保密挑战。从暗影中的低语到历史上边缘神秘的笔记,人类一直寻找将思想传达给少数人而不被他人察觉的方法。隐秘通信的挑战在各种形式的隐写术中得到了解决。然而,该领域面临着一个根本的悖论:随着隐藏艺术的发展,揭露科学也在进步,导致了一个持续进化的互动过程。本研究旨在扩展被认为是可行的隐写术介质的边界。我们探索了一种隐写术范式,其中隐藏信息通过多个代理与环境交互的事件传达。每个代理作为编码器,学习一种策略将隐藏信息隐藏在看似无害目标的行动中。与此同时,作为解码器的观察者,学习将行为模式与相应代理关联起来,尽管这些行为模式是动态变化的,从而揭露隐藏的信息。代理之间的互动由多代理强化学习框架管理,并受到观察者的反馈影响。这种框架包含了博弈论中的困境,其中代理面临在合作创建可区分的行为模式还是背叛追求个人最优但可能重叠的事件行动之间的抉择。作为概念验证,我们通过迷宫游戏示例化了行动隐写术,在迷宫导航任务中,隐藏的信息被隐藏在前往目的地的行为中,并系统地在模拟的被动和主动对手中验证隐写系统的失真、容量、保密性和鲁棒性。
arXiv:2410.02253v2 通知类型: 更新
摘要: 近年来,由于其避免错误积累的优点,端到端的自动驾驶架构受到了越来越多的关注。目前大多数端到端的自动驾驶方法都是基于模仿学习(IL),可以快速通过模仿专家行为推导出驾驶策略。然而,IL 往往难以处理训练数据集之外的场景,特别是在高动态和互动密集型交通环境中。相比之下,基于强化学习(RL)的驾驶模型可以通过与环境交互来优化驾驶决策,从而提高适应性和鲁棒性。
为结合 IL 和 RL 的优点,我们提出了 RAMBLE,一种基于端到端世界模型的 RL 方法,用于驾驶决策。RAMBLE 通过不对称变分自编码器从 RGB 图像和 LiDAR 数据中提取环境上下文信息。然后,使用基于Transformer的架构捕获交通参与者动态转换。接下来,应用一个演员-评论家结构的强化学习算法,基于当前状态和动态的潜在特征推导出驾驶策略。为了加速策略收敛并确保训练稳定,我们引入了一种训练方案,该方案使用 IL 初始化策略网络,并采用 KL 损失和软更新机制,从 IL 平滑过渡到 RL。
RAMBLE 在 CARLA Leaderboard 1.0 的路线完成率上取得了最先进的性能,并在 CARLA Leaderboard 2.0 上完成了所有 38 个场景,证明了其在处理复杂和动态交通场景方面的有效性。论文被接受后,该模型将在 https://github.com/SCP-CN-001/ramble 开源,以支持自动驾驶领域的进一步研究和开发。
arXiv:2405.19456v2 宣告类型:替换
摘要:基于LLM的代理最近在自动化复杂任务方面展现了强大的潜力,但准确预测初创公司成功仍然是一项具有挑战性的任务,缺乏基准和定制框架。为了解决这些问题,我们提出了初创公司成功预测框架(Startup Success Forecasting Framework),这是一个通过多代理协作模型模拟风险投资分析师推理的自主系统。该框架将传统的机器学习方法,如随机森林和神经网络,整合到一个由三个相互连接的模块组成的检索增强生成框架中:预测模块、分析模块和外部知识模块。我们评估了该框架,并得出了三个主要发现。首先,通过利用创始人细分,由L5创始人领导的初创公司比由L1创始人领导的初创公司成功几率高3.79倍。其次,基线大规模语言模型在预测初创公司成功方面始终保持高估,并且在现实类比例不平衡的情况下难以应对,主要原因是过度依赖创始人的声明。第三,我们的框架显着提高了预测准确性,相对于GPT 4o mini,相对改进率为108.3%,相对于GPT 4o,相对改进率为30.8%。这些结果展示了结合区分性机器学习的多代理方法在缓解基于大型语言模型的预测方法限制方面的价值。
arXiv:2404.17716v2 通知类型: 替换
摘要:航空运输操作需要及时分配各种货物,其中许多货物是时效性强且价值高的。然而,这些操作必须应对突发的天气和设备故障中断,要求立即重新调度。Airlift挑战竞赛通过一个模拟器寻求可能的解决方案,该模拟器提供了航空运输问题的简化抽象。该模拟器使用OpenAI gym接口,允许参赛者创建用于规划代理行动的算法。算法使用远程评估器根据不断增加难度的场景进行评分。该竞赛的第二轮从2023年11月到2024年4月进行。本文介绍了此次竞赛、仿真环境以及结果。为了将通用规划技术应用于该问题,本文还介绍了用于Pickup and Delivery Problem的时序PDDL领域模型,这是Airlift挑战的核心模型之一。
arXiv:2404.11988v3 宣告类型: 替换
摘要:数字鸿沟指的是社会和经济群体之间在使用数字工具方面的差异。这种鸿沟可以在个人和地理空间两个层面加强边缘化,因为新技术的早期采用会累积持久的经济优势。新兴生成型人工智能(AI)工具是否也受到这些社会和空间鸿沟的影响?我们利用大规模的搜索查询数据库,表征美国居民在ChatGPT发布前六个月对其这一新型生成型AI工具的认知。我们发现,在沿海大都市区域,ChatGPT的搜索量异常高,而在美国南部、阿巴拉契亚地区和中西部则出现了冷点。在全国范围内,搜索量最高的县份,其受教育程度和经济优势的比例较高,同时,在技术和服务行业的工作岗位比例也较高,相较于其他县份或全国平均水平。完全调整后的分层模型中,与种族/ ethnicity和城乡差异的相关性有所减弱,但教育成为最强正向预测因子,与生成型AI的意识相关。如果没有干预,早期的采纳差异有可能加强现有的空间和社会经济鸿沟。