arXiv 论文列表

作者: Mingyu Chen, Aldo Pacchiano, Xuezhou Zhang

在这项工作中，我们研究了**无状态强化学习**问题，其中算法在与环境交互之前没有状态信息。具体来说，用 ${S}^\Pi := \{ s|\max_{\pi\in \Pi}q^{P, \pi}(s)>0 \}$ 表示可达状态集，我们设计了一种算法，该算法不需要关于状态空间 $S$ 的任何信息，同时具有与 ${S}$ 完全无关的遗憾，仅取决于 ${S}^\Pi$。我们认为这是朝着**无参数强化学习**迈出的具体第一步，其目标是设计不需要超参数调整的强化学习算法。

发布时间: 9/30/2024

查看原文

基于多智能体强化学习的物料搬运系统动态调度

作者: Xian Yeow Lee, Haiyan Wang, Daisuke Katsumata, Takaharu Matsui, Chetan Gupta

本文提出了一种基于多智能体强化学习 (MARL) 的方法来学习动态调度策略，这对于优化跨不同行业的物料搬运系统的吞吐量至关重要。为了对我们的方法进行基准测试，我们开发了一个物料搬运环境，该环境反映了实际系统的复杂性，例如不同位置的各种活动、物理约束和固有的不确定性。为了增强学习过程中的探索，我们提出了一种方法，将领域知识以现有动态调度启发式算法的形式整合进来。我们的实验结果表明，我们的方法在中位数吞吐量方面可以比启发式算法高出 7.4%。此外，我们分析了不同架构对 MARL 性能的影响，当训练具有不同功能的多个智能体时。我们还证明，通过使用第一代 MARL 智能体作为启发式算法来训练第二代 MARL 智能体，可以进一步提高 MARL 智能体的性能。这项工作证明了应用 MARL 来学习有效动态调度策略的潜力，这些策略可以部署在现实世界系统中以改善业务成果。

发布时间: 9/30/2024

查看原文

Easy2Hard-Bench：用于分析大型语言模型性能和泛化能力的标准化难度标签

作者: Mucong Ding, Chenghao Deng, Jocelyn Choo, Zichu Wu, Aakriti Agrawal, Avi Schwarzschild, Tianyi Zhou, Tom Goldstein, John Langford, Anima Anandkumar, Furong Huang

虽然从简单到困难的任务泛化对于评估语言模型（LLM）至关重要，但对于各种复杂程度的广泛问题，包含细粒度难度标注的数据集仍然空白。为了解决这一限制，我们推出了 Easy2Hard-Bench，这是一个格式一致的 6 个基准数据集集合，涵盖了数学和编程问题、象棋谜题和推理问题等各个领域。这些数据集中的每个问题都标注了数值难度评分。为了系统地评估问题的难度，我们收集了大量人类在现实世界中或 LLM 在知名排行榜上尝试每个问题的性能数据。利用丰富的性能数据，我们应用了成熟的难度排名系统，例如项目反应理论 (IRT) 和 Glicko-2 模型，以统一地为问题分配数值难度评分。此外，Easy2Hard-Bench 中的数据集与之前的集合相比，具有更高的挑战性问题比例。通过对六种最先进的 LLM 进行广泛的实验，我们对它们的性能和泛化能力在不同难度水平上的表现进行了全面分析，旨在激励未来 LLM 泛化方面的研究。数据集可在 https://huggingface.co/datasets/furonghuang-lab/Easy2Hard-Bench 获取。

发布时间: 9/30/2024

查看原文

源无关域适应的主动对抗对齐

作者: Chrisantus Eze, Christopher Crick

无监督领域自适应 (UDA) 旨在将知识从带标签的源域转移到无标签的目标域。最近的工作集中在无源 UDA 上，其中只有目标数据可用。这具有挑战性，因为模型依赖于噪声伪标签，并且难以应对分布变化。我们提出了主动对抗对齐 (A3)，这是一种新颖的框架，它结合了自监督学习、对抗训练和主动学习，用于鲁棒的无源 UDA。A3 使用获取函数积极地采样信息丰富且多样化的数据进行训练。它通过对抗性损失和一致性正则化来适应模型，在没有源数据访问的情况下对齐分布。A3 通过其主动学习和对抗学习的协同集成来推进无源 UDA，以实现有效的域对齐和降噪。

发布时间: 9/30/2024

查看原文

维克里反馈：基于人类反馈的强化学习中成本效益的数据构建

作者: Guoxi Zhang, Jiuding Duan

本文关注强化学习从人类反馈（RLHF）的成本效益问题。RLHF 利用大型语言模型（LLM）输出的人类偏好数据集，将人类期望灌输到 LLM 中。虽然偏好标注存在货币化成本，但迄今为止，偏好数据集的经济效用尚未得到考虑。加剧这种情况的是，鉴于偏好数据集中存在复杂的非传递或循环关系，现有的用于微调 LLM 的算法仍然远未能够捕捉到全面的偏好。这在生产环境中引发了严重的成本效益问题，因为偏好数据会随着时间的推移而累积。在本文中，我们将 LLM 的微调视为一个货币化经济，并引入了一种拍卖机制来提高偏好数据收集的美元效率。我们证明，引入拍卖机制可以在保持令人满意的模型性能的同时，在增强 RLHF 的成本效益方面发挥重要作用。实验结果表明，我们提出的基于拍卖的协议通过集中关注高质量反馈，在微调 LLM 方面具有成本效益。

发布时间: 9/30/2024

查看原文

SciDFM：一种基于专家混合的大型语言模型，用于科学领域

作者: Liangtai Sun, Danyu Luo, Da Ma, Zihan Zhao, Baocai Chen, Zhennan Shen, Su Zhu, Lu Chen, Xin Chen, Kai Yu

近年来，利用大型语言模型 (LLM) 来辅助科学发现的兴趣激增。然而，大多数 LLM 仅关注一般科学，缺乏领域特定知识，例如化学分子和氨基酸序列。为了弥合这些差距，我们引入了 SciDFM，这是一种专家混合 LLM，它从头开始训练，能够进行大学水平的科学推理并理解分子和氨基酸序列。我们收集了一个大型训练语料库，其中包含来自不同学科的众多科学论文和书籍，以及来自领域特定数据库的数据。我们进一步对预训练模型进行微调，以改进其在下游基准上的性能。从实验结果来看，SciDFM 在 SciEval 和 SciQ 等通用科学基准上取得了优异的性能，并且在同等规模的模型中，它在领域特定基准上达到了最先进的性能。我们进一步分析了专家层，并表明专家选择的結果会随不同学科的数据而异。为了惠及更广泛的研究界，我们在 https://huggingface.co/OpenDFM/SciDFM-MoE-A5.6B-v1.0 开源了 SciDFM。

发布时间: 9/30/2024

查看原文

BoT-Drive：基于POMDP的自动驾驶分层行为与轨迹规划

作者: Xuanjin Jin, Chendong Zeng, Shengfa Zhu, Chunxiao Liu, Panpan Cai

动态道路环境中的不确定性对自动驾驶的行为和轨迹规划提出了重大挑战。本文介绍了 BoT-Drive，这是一种规划算法，它在部分可观测马尔可夫决策过程 (POMDP) 框架内解决了行为和轨迹层面的不确定性。BoT-Drive 采用驾驶员模型来描述未知的行为意图，并利用其模型参数来推断隐藏的驾驶风格。通过将驾驶员模型也视为自动驾驶车辆的决策行为，BoT-Drive 有效地解决了 POMDP 中固有的指数级复杂性。为了提高安全性和鲁棒性，规划器进一步应用重要性采样来细化以计划的高级行为为条件的驾驶轨迹。在真实世界数据上的评估表明，BoT-Drive 在常规和复杂的城市驾驶场景中始终优于现有的规划方法和基于学习的方法，展示了驾驶安全性和可靠性的显著改进。

发布时间: 9/30/2024

查看原文

GenesisTex2：稳定、一致且高质量的文本到纹理生成

作者: Jiawei Lu, Yingpeng Zhang, Zengjun Zhao, He Wang, Kun Zhou, Tianjia Shao

大规模文本引导图像扩散模型在文本到图像 (T2I) 生成方面取得了惊人的成果。然而，由于 2D 图像和 3D 表面纹理之间的领域差异，将这些模型应用于合成 3D 几何体的纹理仍然具有挑战性。早期的工作使用投影和修复方法设法保留了生成的多样性，但往往会导致明显的伪影和风格不一致。虽然最近的方法试图解决这些不一致问题，但它们往往会引入其他问题，例如模糊、过度饱和或过度平滑。为了克服这些挑战，我们提出了一种利用预训练扩散模型的新型文本到纹理合成框架。我们首先在自注意力层中引入局部注意力重新加权机制，以引导模型集中于不同视图的跨空间相关补丁，从而增强局部细节，同时保持跨视图一致性。此外，我们提出了一种新颖的潜在空间合并管道，它进一步确保了不同视角之间的一致性，而不会牺牲太多多样性。我们的方法在纹理一致性和视觉质量方面明显优于现有的最先进技术，同时提供比蒸馏方法快得多的结果。重要的是，我们的框架不需要额外的训练或微调，使其高度适应公共平台上提供的各种模型。

发布时间: 9/30/2024

查看原文

基于上下文感知提示调优的大语言模型代码漏洞修复

作者: Arshiya Khan, Guannan Liu, Xing Gao

大型语言模型 (LLM) 在检测和修复脆弱代码方面面临着重大挑战，尤其是在处理涉及多个方面的漏洞时，例如变量、代码流和代码结构。在本研究中，我们使用 GitHub Copilot 作为 LLM，重点关注缓冲区溢出漏洞。我们的实验表明，Copilot 在处理缓冲区溢出漏洞时存在显著差距，漏洞检测率为 76%，但漏洞修复率仅为 15%。为了解决这个问题，我们提出了上下文感知的提示调整技术，旨在增强 LLM 在修复缓冲区溢出方面的性能。通过注入一系列关于漏洞的领域知识，包括各种安全和代码上下文，我们证明了 Copilot 的成功修复率提高到 63%，比没有领域知识的修复提高了四倍以上。

发布时间: 9/30/2024

查看原文

语音到现实：基于自然语言、3D 生成式 AI 和离散机器人组装的按需生产

作者: Alexander Htet Kyaw, Se Hwan Jeon, Miana Smith, Neil Gershenfeld

我们提出了一种将语音转化为物理对象的系统，该系统结合了 3D 生成式人工智能和机器人组装。该系统利用自然语言输入，使设计和制造更容易获得，使没有 3D 建模或机器人编程专业知识的个人能够创建物理对象。我们建议使用基于格子的体素组件的离散机器人组装来解决在物理生产中使用生成式 AI 输出所面临的挑战，例如设计可变性、制造速度、结构完整性和材料浪费。该系统解释语音以生成 3D 对象，将其离散化为体素组件，计算优化的组装序列，并生成机器人工具路径。结果通过组装各种物体（从椅子到架子）得到证明，这些物体是通过语音提示的，并在 5 分钟内使用 6 轴机器人手臂实现。

发布时间: 9/30/2024

查看原文