LLM2D

arXiv 论文列表

作者: In-Chang Baek, Sung-Hyun Kim, Sam Earle, Zehua Jiang, Noh Jin-Ha, Julian Togelius, Kyung-Joong Kim
arXiv:2502.10906v1 奖励类型: 新 摘要: 奖励设计在游戏AI的训练中起着关键作用,需要大量的领域特定知识和人力。近年来,一些研究探讨了使用大型语言模型(LLMs)生成训练游戏代理和控制机器人所需的奖励。在内容生成文献中,已经有早期工作专注于生成强化学习代理生成器的奖励函数。本文介绍了PCGRLLM,这是一种基于之前工作的扩展架构,采用了反馈机制和多种基于推理的提示工程技术。我们使用两种最先进的LLMs在二维环境中对故事到奖励生成任务进行了评估,展示了我们方法的普适性。我们的实验提供了对LLMs在内容生成任务中必不可少的能力的深入评估。结果突显了分别高达415%和40%的重要性能提升,这取决于语言模型的零样本能力。我们的工作展示了在游戏AI开发中减少对人类依赖的潜力,同时支持和增强创造过程。
发布时间: 2/18/2025
查看原文
arXiv:2502.10867v1 公告类型: 新闻 摘要: OpenAI o1 表明,在推断过程中直接应用强化学习整合推理步骤可以显著提高模型的推理能力。这一结果令人兴奋,因为领域正从传统的自回归方法生成答案过渡到通过逐步推理训练来模拟慢思考过程的更加谨慎的方法。强化学习在模型的训练和解码过程中发挥着关键作用。本文中,我们提出了一种全面的推理问题形式化方法,并探讨了基于模型和非基于模型方法的使用,以更好地支持这种慢思考框架。
发布时间: 2/18/2025
查看原文
作者: Zongqian Wu, Tianyu Li, Jiaying Yang, Mengmeng Zhan, Xiaofeng Zhu, Lei Feng
arXiv:2502.10858v1 任务类型:新 摘要:深度迭代的思考链(CoT)推理使大模型能够通过逐步激活相关先验知识来应对复杂任务。然而,它在确保持续改进和确定停止标准方面面临着挑战。在本文中,我们探讨了是否可以在初始推理路径中激活直接有助于解答给定问题的相关知识,从而绕过迭代精化的需要。我们的实验表明,增加初始推理路径的多样性可以实现相当或更优的效果,我们将其称为“宽广推理”。然而,现有的宽广推理方法,如自我一致性,提供的多样性有限。为了解决这一限制,我们提出了一种简单而有效的方法,通过结合上下文探索和减少采样随机性来增强推理的广度。广泛的实验表明,我们的方法显著优于深度迭代推理。我们的代码可在 https://github.com/zongqianwu/breadth 获取。
发布时间: 2/18/2025
查看原文
作者: Dezhi Luo, Yijiang Li, Hokin Deng
arXiv:2502.10742v1 宣告类型: 新 摘要: 尽管在高层次推理方面表现出色,当前的语言模型在真实世界场景中缺乏稳健性,并且在人类直觉上容易理解和解决的基本问题解决任务上表现不佳。本文认为,上述两种挑战源于人类与机器认知发展核心差异。尽管两种系统都依赖于增强的表示能力,但人类缺乏核心知识—基础认知结构,这使语言模型难以发展出稳健且泛化的技能,其中复杂技能在其各自领域内扎根于更简单的技能之中。该文探讨了人类核心知识的经验证据,分析了为什么语言模型无法获得这些核心知识,并认为这一限制并不是固有的架构约束。最后,该文提出了一个可行的方案,通过大规模生成合成训练数据的方法,结合认知原型策略,系统地将核心知识集成到未来的多模态语言模型中。
发布时间: 2/18/2025
查看原文
作者: Quanmin Wei, Penglin Dai, Wei Li, Bingyi Liu, Xiao Wu
arXiv:2502.10705v1 宣布类型: 新 摘要: 多智能体协作感知有望通过交换互补信息来克服单智能体感知的限制,从而大幅提高感知性能。然而,训练一个稳健的协作感知模型需要收集足够的训练数据,覆盖所有可能的协作场景,但由于部署成本不可接受,这在实践中是不可能的。因此,训练好的模型对新的不一致数据分布的交通场景不够稳健,并且从根本上限制了其在实际环境中的应用。此外,现有的方法,如领域适应,通过在训练阶段暴露部署数据来缓解这一问题,但会导致高昂的训练成本,这对于资源受限的智能体是不可行的。在本文中,我们提出了一种基于参数高效微调的轻量级框架 CoPEFT,以在低成本条件下快速适应新部署环境中的训练好的协作感知模型。CoPEFT 开发了一个协作适配器和智能体提示,分别进行宏观和微观级别的适应。具体而言,协作适配器利用训练数据和有限的部署数据中固有的知识,将特征图适配到新的数据分布。智能体提示通过插入关于环境的详细上下文信息,进一步增强了协作适配器。广泛的实验证明,我们的 CoPEFT 在少于 1% 的可训练参数下超过了现有方法,证明了我们提出方法的有效性和效率。
发布时间: 2/18/2025
查看原文
作者: Hamed Rahimi, Mouad Abrini, Mahdi Khoramshahi, Mohamed Chetouani
arXiv:2502.10642v1 宣布类型: 新 摘要:本文探讨了基于视觉语言人口统计数据的用户画像任务中多模态预训练模型的性能。这些模型对于适应社会机器人领域中人类用户的需要和偏好至关重要,从而提供个性化响应并提高交互质量。首先,我们介绍了两个特别构建的数据集,用于表示从用户面部图像推导出的人口统计特征。接着,我们在这些数据集上评估了一个著名的对比多模态预训练模型 CLIP 的性能,包括其原始状态和微调后的状态。初步结果显示,未经微调的情况下,CLIP 在匹配图像和人口统计描述方面表现不佳。尽管微调显著提升了其预测能力,但模型在有效泛化微妙的人口统计特征方面仍然表现出局限性。为解决这个问题,我们提出采用掩码图像建模策略以提高泛化能力并更好地捕捉微妙的人口统计属性。这种方法为增强多模态用户建模仿人的族裔敏感性提供了途径。
发布时间: 2/18/2025
查看原文
作者: Hamed Rahimi, Adil Bahaj, Mouad Abrini, Mahdi Khoramshahi, Mounir Ghogho, Mohamed Chetouani
arXiv:2502.10636v1 通知类型: 新 摘要: 将视觉语言模型集成到机器人系统中构成了使机器以更直观的方式与周围环境互动的一项重要进展。尽管视觉语言模型提供了丰富的跨模态推理能力,但现有方法缺乏针对用户的适应性,往往依赖于通用的交互模式,这些模式未能考虑到个体的行为、上下文或社会情感方面的细微差别。当尝试进行个性化定制时,由于未缓解的用户数据偏见引发的伦理问题有可能导致排斥或不公正的待遇。为了解决这两个挑战,我们提出了User-VLM 360°,这是一个将跨模态用户建模与意识偏见优化相结合的整体框架。我们的方法包括:(1) 用户意识调整,通过视觉语言信号实时适应交互;(2) 通过偏好优化缓解偏见;以及(3) 360°定制的社会情感交互数据集,其中包含人口统计、情绪和关系元数据。在八个基准测试中的评估表明,我们的方法取得了最先进的结果:个性化VQA中F1得分提高了35.3%,面部特征理解中的F1得分提高了47.5%,偏见减少了15%,并且比基线速度快了30倍。消融研究证实了各个组件的有效性,部署在Pepper机器人上验证了其在不同用户中的实时适应能力。我们开源了参数高效3B/10B模型以及一个道德验证框架,以促进负责的适应。
发布时间: 2/18/2025
查看原文
arXiv:2502.10620v1 通知类型: 新 摘要: 近期大型语言模型(LLMs)在各类视觉-语言任务中展现了非凡的 comprehension 能力,取得了显著的突破。然而,LLMs 在生成可靠的医疗诊断报告方面的应用仍处于初步阶段。目前,医疗 LLM 通常采用被动的互动模式,医生根据患者的问题进行回应,很少或未参与医疗图像的分析。相比之下,一些聊天机器人只是根据视觉输入对预定义的问题做出回应,缺乏互动对话或医疗历史的考虑。因此,LLM 生成的患者-聊天机器人交互与实际患者-医生咨询之间存在差距。为了弥合这一差距,我们开发了一个基于 LLM 的对话系统,即主动多轮视觉-语言互动以辅助计算机辅助诊断(ProMRVL-CAD),以生成患者友好的疾病诊断报告。所提出的 ProMRVL-CAD 系统通过将知识图谱集成到推荐系统中,允许主动对话,为患者提供持续可靠的医疗访问。具体来说,我们设计了两个生成器:一种是主动问题生成器(Pro-Q Gen),用于生成引导诊断程序的主动问题;另一种是多视图患者-文本诊断报告生成器(MVP-DR Gen),用于生成高质量的诊断报告。通过对两个公开的真实世界数据集 MIMIC-CXR 和 IU-Xray 的评估,我们的模型在生成医疗报告方面质量更好。此外,我们还创建了一个合成医疗对话数据集,模拟患者与医生之间的主动诊断交互,作为训练 LLM 的宝贵资源。
发布时间: 2/18/2025
查看原文
作者: Salom\'e Lepers, Vincent Thomas, Olivier Buffet
arXiv:2502.10568v1 宣告类型: 新 摘要: 在本文中,我们关注代理人意识到观察者存在的规划问题,同时该观察者处于部分可观测性的情况。代理人需要选择其策略以优化由观察所传递的信息。基于观察者感知的马尔可夫决策过程(OAMDP),我们提出了一个处理此类问题的框架,从而正式化了可读性、明确性和可预测性等属性。将OAMDP扩展到部分可观测性不仅可以处理更现实的问题,还可以允许考虑感兴趣的动态隐藏变量。这些动态目标变量使得例如在可预测性问题或执行过程中目标可能发生变化的情况下进行工作成为可能。我们讨论了PO-OAMDP的理论属性,并通过使用基准问题进行试验,分析了针对专用初始化的POSI的收敛行为,并研究了由此产生的策略。
发布时间: 2/18/2025
查看原文
作者: Kiwon Song, James M. Jennings III, Clintin P. Davis-Stober
arXiv:2502.10554v1 宣布类型: 新 摘要: 基本的选择公理,如偏好传递性,为判断人类决策是否理性,即是否符合效用表示提供了可测试的条件。近期的研究表明,基于人类数据训练的AI系统可能会表现出与人类相似的推理偏差,并且AI系统可以通过AI推荐系统影响人类判断。我们通过一系列设计来评估人类偏好传递性的选择实验,来评估AI响应的合理性。我们考虑了Meta的十个版本的Llama 2和3个LLM模型。我们使用贝叶斯模型选择来评估这些由AI生成的选择是否违反了两个主要的传递性模型。我们发现,Llama 2和3模型通常满足传递性,但在模型出现违反传递性的情况时,仅出现在Chat/Instruct版本的LLM中。我们认为,如偏好传递性之类的合理性公理对于评估和基准测试AI生成响应的质量是很有用的,并为更广泛地理解AI系统中的计算合理性提供了基础。
发布时间: 2/18/2025
查看原文