LLM2D

arXiv 论文列表

作者: Desik Rengarajan, Nitin Ragothaman, Dileep Kalathil, Srinivas Shakkottai
我们研究了联邦离线强化学习(RL)的问题,在这种情况下,分布式学习代理必须仅使用根据不同的未知行为策略生成的少量预收集数据集来协同学习高质量的控制策略。简单地将标准的离线 RL 方法与标准的联邦学习方法结合起来解决这个问题会导致性能不佳的策略。为了应对这种情况,我们开发了联邦集成引导离线强化学习算法(FEDORA),该算法使用集成学习方法提取了客户端的集体智慧。我们开发了 FEDORA 代码库,以便在联邦学习平台上利用分布式计算资源。我们证明了 FEDORA 在各种复杂的连续控制环境和真实数据集上显著优于其他方法,包括在合并数据池上的离线 RL。最后,我们在移动机器人上展示了 FEDORA 在现实世界中的性能。我们在 \url{https://github.com/DesikRengarajan/FEDORA} 提供了我们的代码和实验视频。
发布时间: 10/7/2024
查看原文
作者: Yaniv Oren, Villiam Vadocz, Matthijs T. J. Spaan, Wendelin B\"ohmer
AlphaZero/MuZero (A/MZ) 系列算法通过将蒙特卡洛树搜索 (MCTS) 与学习模型相结合,在各种具有挑战性的领域取得了显著成功。学习模型引入了认知不确定性,这种不确定性是由有限数据学习造成的,在稀疏奖励环境中对探索很有用。然而,MCTS 并没有考虑这种不确定性的传播。为了解决这个问题,我们引入了认知 MCTS (EMCTS):一种理论上有根据的方法,可以解释搜索中的认知不确定性,并利用搜索进行深度探索。在编写汇编语言 SUBLEQ 代码的具有挑战性的稀疏奖励任务中,与我们的方法配对的 AZ 在样本效率方面明显高于基线 AZ。使用 EMCTS 的搜索解决了常用的硬探索基准 Deep Sea 的变体 - 基线 A/MZ 实际上无法解决 - 比没有使用搜索进行不确定性估计的等效方法快得多,证明了搜索用于认知不确定性估计的显著优势。
发布时间: 10/7/2024
查看原文
作者: Antonio LaTorre, Daniel Molina, Eneko Osaba, Javier Del Ser, Francisco Herrera
生物启发式优化(包括进化计算和群体智能)是一个不断发展的研究领域,每年都会提出许多具有竞争力的生物启发式算法。在这样一个活跃的领域,成功地提出一种新的生物启发式算法并非易事。鉴于该研究领域已经相当成熟,仅仅提出一种具有创新元素的新优化技术已经不再足够。除了新颖性之外,作者报告的结果应该被证明能够在现有技术水平的基础上取得显著进步。不幸的是,并非所有新的提案都能妥善处理这一要求。其中一些提案未能选择合适的基准或参考算法进行比较。在其他情况下,所进行的验证过程没有以原则性的方式定义(甚至根本没有进行)。因此,这些研究中所呈现结果的意义无法得到保证。在本工作中,我们回顾了文献中的一些建议,并提出了方法论指南,以成功地提出新的提案,同时考虑到所有这些问题。我们希望这些指南不仅对作者有用,而且对审稿人和编辑在评估对该领域的新贡献时也有用。
发布时间: 10/7/2024
查看原文
大型语言模型 (LLM) 在文本和视觉领域展现出非凡的能力,但往往会生成违反物理定律的输出,暴露了它们对物理世界的理解缺失。受人类认知的启发,感知是推理的基础,我们探索了利用物联网 (IoT) 传感器数据和相关知识来增强 LLM 的感知能力,以便在物理世界中进行物联网任务推理。在这项工作中,我们系统地研究了 LLM 通过增强感知和知识库来解决现实世界物联网任务的能力,并提出了一个统一框架 IoT-LLM 来增强这种能力。在 IoT-LLM 中,我们针对 LLM 定制了三个步骤:将物联网数据预处理成 LLM 可接受的格式,通过思维链提示和专门的角色定义激活它们的常识性知识,以及通过基于上下文学习的物联网导向检索增强生成来扩展它们的理解。为了评估性能,我们设计了一个新的基准,其中包含五个具有不同数据类型和推理难度的现实世界物联网任务,并提供了六个开源和闭源 LLM 的基准测试结果。实验结果表明,现有的 LLM 存在局限性,它们无法有效地执行这些任务,因为它们只能接收简单的文本输入。我们证明了 IoT-LLM 显著增强了 LLM 的物联网任务推理性能,例如 GPT-4,与之前的方法相比,在各种任务中平均提高了 65%。结果还展示了 LLM 通过提供推理过程来理解物联网数据和数据背后的物理定律的能力。我们工作的局限性旨在为这个新时代的未来研究提供启发。
发布时间: 10/7/2024
查看原文
作者: Wanpeng Zhang, Zilong Xie, Yicheng Feng, Yijiang Li, Xingrun Xing, Sipeng Zheng, Zongqing Lu
多模态大型语言模型在整合视觉和文本信息方面取得了重大进展,但它们通常难以有效地对齐这些模态。我们提出了一种新颖的图像标记器,通过将字节对编码 (BPE) 原理应用于视觉数据来弥合这一差距。与依赖于独立视觉编码器的传统方法不同,我们的方法直接将结构先验信息整合到图像标记中,这与仅文本大型语言模型中使用的成功标记策略相呼应。这种创新方法使 Transformer 模型能够更有效地跨模态学习和推理。通过理论分析和大量实验,我们证明了我们的 BPE 图像标记器显着增强了 MLLM 的多模态理解能力,即使在训练数据有限的情况下也是如此。我们的方法不仅提高了各种基准测试的性能,而且还展现出可观的可扩展性,有可能为更有效和更强大的多模态基础模型铺平道路。
发布时间: 10/7/2024
查看原文
作者: Xingrui Gu, Guanren Qiao, Chuyi Jiang, Tianqing Xia, Hangyu Mao
强化学习在各种环境中遇到了与鲁棒性和可解释性相关的挑战。传统的 Q 学习算法无法有效地做出决策并利用历史学习经验。为了克服这些局限性,我们提出了认知信念驱动的 Q 学习 (CBDQ),它将主观信念建模集成到 Q 学习框架中,通过赋予智能体类似人类的学习和推理能力来提高决策准确性。受认知科学的启发,我们的方法在行动期望上保持了一个主观信念分布,利用基于聚类的主观信念模型,使智能体能够推断与每个决策相关的潜在概率。CBDQ 通过将历史经验与当前上下文信息相结合,有效地缓解了高估现象并优化了决策策略,模仿了人类决策的动态。我们在各种复杂环境中对离散控制基准任务评估了所提出的方法。结果表明,CBDQ 在处理这些环境时表现出更强的适应性、鲁棒性和类似人类的特征,优于其他基线。我们希望这项工作能为研究人员提供一个新的视角来理解和解释 Q 学习。
发布时间: 10/7/2024
查看原文
这项工作提出了一种针对深度层次分类任务的新方法,即根据组织在严格的父子结构中的多个标签对数据进行分类的问题。它包括一个多输出深度神经网络,该网络在每个输出层之前配备了特定的投影运算符。这种称为词典混合深度神经网络 (LH-DNN) 的架构设计是通过结合来自不同且相当遥远的研究领域的工具实现的:词典多目标优化、非标准分析和深度学习。为了评估该方法的有效性,将得到的网络与 B-CNN(一种针对层次分类任务定制的卷积神经网络)在 CIFAR10、CIFAR100(最初和最近在被用于多个现实世界应用之前,它被提出并调整)和 Fashion-MNIST 基准数据集上进行了比较。证据表明,LH-DNN 可以在学习层次关系方面实现相当甚至更好的性能,同时大幅减少学习参数、训练周期和计算时间,而无需使用专门的损失函数来加权值。
发布时间: 10/7/2024
查看原文
作者: Yuqicheng Zhu, Nico Potyka, Mojtaba Nayyeri, Bo Xiong, Yunjie He, Evgeny Kharlamov, Steffen Staab
知识图谱嵌入 (KGE) 模型通常用于预测知识图谱 (KG) 中缺失的链接。然而,多个 KG 嵌入在链接预测方面表现几乎相同,但对未见查询给出相互矛盾的预测。这种现象在文献中被称为“预测多重性”。它对高风险领域中基于 KGE 的应用构成重大风险,但在 KGE 研究中却被忽视。我们在链接预测中定义了预测多重性,引入了评估指标,并在常用的基准数据集上测量了代表性 KGE 方法的预测多重性。我们的实证研究表明,链接预测中存在明显的预测多重性,有 8% 到 39% 的测试查询表现出相互矛盾的预测。我们通过利用社会选择理论中的投票方法来解决这个问题,在我们的实验中,显著地将冲突减少了 66% 到 78%。
发布时间: 10/7/2024
查看原文
作者: Saman Kazemkhani, Aarav Pandya, Daphne Cornelisse, Brennan Shacklett, Eugene Vinitsky
多智能体学习算法在各种游戏中成功地产生了超越人类的规划能力,但在部署的多智能体规划器设计中影响有限。将这些技术应用于多智能体规划的一个关键瓶颈是,它们需要数十亿步的经验。为了实现大规模多智能体规划的研究,我们提出了 GPUDrive,这是一个基于 Madrona 游戏引擎的 GPU 加速多智能体模拟器,它每秒可以生成超过一百万个模拟步骤。观察、奖励和动力学函数直接用 C++ 编写,允许用户定义复杂的异构代理行为,这些行为被降低到高性能 CUDA。我们表明,使用 GPUDrive,我们可以在 Waymo 开放运动数据集中的多个场景中有效地训练强化学习代理,在几分钟内为单个场景生成高效的目标到达代理,并在数小时内使代理能够导航数千个场景。包含预训练代理的代码库可在 \url{https://github.com/Emerge-Lab/gpudrive} 获取。
发布时间: 10/7/2024
查看原文
作者: Walter Laurito (Ho Wan), Sharan Maiya (Ho Wan), Gr\'egoire Dhimo\"ila (Ho Wan), Owen (Ho Wan), Yeung, Kaarel H\"anni
大型语言模型 (LLM) 在众多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...
发布时间: 10/7/2024
查看原文