LLM2D

arXiv 论文列表

arXiv:2502.03752v1 交叉公告类型 摘要:元强化学习(Meta-RL)促进了对未见过的任务的快速适应,但在长时环境中面临挑战。基于技能的方法通过将状态-动作序列分解为可重用的技能并采用分层决策来应对这一挑战。然而,这些方法对有噪声的离线演示非常敏感,导致技能学习不稳定且性能下降。为克服这一问题,我们提出了一种名为技能基于元强化学习优先细化框架(PRISM)的鲁棒框架,该框架结合了在有噪声数据附近进行探索以生成在线轨迹,并将其与离线数据结合。通过优先化,PRISM提取高质量的数据以有效地学习任务相关技能。通过解决噪声的影响,我们的方法确保技能学习的稳定性,并在长时任务中表现出色,即使使用有噪声和次优的数据也是如此。
发布时间: 2/7/2025
查看原文
作者: Yanlei Zhang, Lydia Mezrag, Xingzhi Sun, Charles Xu, Kincaid Macdonald, Dhananjay Bhaskar, Smita Krishnaswamy, Guy Wolf, Bastian Rieck
arXiv:2502.03750v1 识别类型: cross 摘要:单细胞转录组测序(scRNAseq)领域的迅速发展为数据分析带来了挑战,因为其涉及大量数据集。流形学习中的一种常见方法是在假设数据集位于低维流形上的前提下进行。这使得可以通过提取有意义的描述符,如曲率等,来研究点云的几何结构。在本文中,我们将会介绍自适应局部主成分分析(AdaL-PCA),这是一种数据驱动的方法,用于准确估计数据流形上的各种内在曲率概念,特别是曲面上的主曲率。该模型依赖于局部PCA来估算切空间。AdaL-PCA在采样曲面上的评估显示了最先进的结果。将该模型与PHATE嵌入结合应用于单细胞RNA测序数据,使我们能够识别细胞分化中的关键变化。
发布时间: 2/7/2025
查看原文
arXiv:2502.03740v1 类型: cross 摘要: 解纠缠学习是理解并重新利用变分自编码器(VAE)中训练信息的关键问题,有效的归纳偏置已被证明是关键因素之一。然而,这种偏置的实际实施仍然不够明确。在这篇论文中,我们提出了一个新颖的方法,称为多可逆和部分等变变换(MIPE变换),通过1)保证从潜在空间到潜在空间向量变换的可逆性的同时保持输入到潜在空间向量变换的部分等变性,称为可逆和部分等变变换(IPE变换),2)通过可学习的转换将VAE框架下的先验和后验扩展到不受限制的形式,称为指数家族转换(EF转换),以及3)整合多个IPE变换和EF转换及其训练,以提高解纠缠性能。在3D Cars、3D Shapes和dSprites数据集上的实验表明,MIPE变换提高了现有最佳VAE的解纠缠性能。
发布时间: 2/7/2025
查看原文
作者: Jaden Clark, Suvir Mirchandani, Dorsa Sadigh, Suneel Belkhale
arXiv:2502.03729v1 类别: cross 摘要: 端到端的 imitation learning 提供了一种有前景的方法来训练机器人策略。然而,将这些策略泛化到新的环境中仍然是一个重要挑战。尽管大规模的机器人演示数据集展示了引发泛化的潜力,但它们在扩展方面资源密集。相比之下,人类视频数据既丰富又多样化,是一个有吸引力的替代方案。然而,这些人类视频数据缺乏动作标签,使它们在模仿学习中的使用变得复杂。现有的方法尝试提取与动作相关的语义表示(例如,手势),但这些方法生成的策略难以弥合人类和机器人动作之间的体体现象差距。我们提出了一种替代方法:利用人类视频中的语言推理来指导机器人动作,从而训练可泛化的机器人策略。在基于推理的策略架构的最新进展的基础上,我们引入了 Reasoning through Action-free Data (RAD)。RAD 从包含推理和动作标签的机器人演示数据以及仅包含推理标签的无动作数据中学习。机器人数据教会模型将推理映射到低级动作,而无动作数据则增强推理能力。此外,我们将发布一个包含 3,377 个带有推理标注的人类手势示范的新数据集,这些数据集与 Bridge V2 基准兼容,并旨在促进未来基于推理驱动的机器人学习研究。我们的实验表明,RAD 使跨体体现象差距的有效迁移成为可能,使机器人能够在仅观察到无动作数据的情况下完成任务。此外,无动作推理数据的扩展显著提高了策略性能并增强了对新颖任务的泛化。这些结果突显了无动作数据驱动的推理学习在推动可泛化机器人控制方面的潜力。项目页面: https://rad-generalization.github.io
发布时间: 2/7/2025
查看原文
作者: Sharana Dharshikgan Suresh Dass, Hrishav Bakul Barua, Ganesh Krishnasamy, Raveendran Paramesran, Raphael C. -W. Phan
arXiv:2502.03724v1 交叉公告类型 摘要:在黑暗、低光照(欠曝光)或嘈杂视频中进行动作识别是一项具有挑战性的任务,原因是可见度退化,这会妨碍关键的时空细节。本文提出了一种名为MD-BERT的新型多流方法,该方法通过结合互补的预处理技术(如伽马校正和直方图均衡化)以及原始的暗帧来解决这些挑战。我们介绍了动态特征融合(DFF)模块,将现有的注意力融合方法扩展到三流设置,从而捕捉不同亮度和对比度增强下的细粒度和全局上下文信息。然后,通过基于BERT的时间模型处理融合后的时空特征,该模型利用其双向自注意力有效地捕捉跨帧的长范围依赖关系和上下文关系。在ARID V1.0和ARID V1.5黑暗视频数据集上的广泛实验表明,MD-BERT相较于现有方法表现出更优的效果,确立了新的最先进性能。进一步的消融研究还突显了每一流输入的独立贡献,以及所提出的DFF和BERT模块的有效性。该项目的官方网站可在此访问:https://github.com/HrishavBakulBarua/DarkBERT
发布时间: 2/7/2025
查看原文
arXiv:2502.03717v1 类别:cross 摘要:具有表现力的机器人行为对于在社交环境中普及机器人至关重要。近期在学习腿部运动控制器方面的进展使机器人的行为更加动态和多样。然而,确定与不同用户在各种场景中的最佳互动行为仍是一个挑战。当前的方法要么依赖于自然语言输入,这虽然是高效的,但精度较低,要么从人类偏好中学习,尽管精度较高,但样本效率低。本文介绍了一种新颖的方法,该方法结合了预先训练的语言生成模型(LLM)和基于偏好的学习精度。我们的方法称为语言引导的偏好学习(LGPL),使用LLM生成初始行为样本,然后通过基于偏好的反馈进行细化,以学习与人类期望高度一致的行为。我们的核心洞察是,LLM可以引导偏好学习的采样过程,从而显著提高样本效率。我们证明,LGPL仅需四次查询就可以快速学习准确且具有表现力的行为,性能优于纯语言参数化模型和传统偏好学习方法。相关内容网站及视频:https://lgpl-gaits.github.io/
发布时间: 2/7/2025
查看原文
作者: Rui Cai, Chao Wang, Qianyi Cai, Dazhong Shen, Hui Xiong
arXiv:2502.03715v1 交叉公告类型 摘要:基于知识图谱的推荐由于其能够利用丰富的语义关系而引起了显著的关注。然而,构建和维护知识图谱(KGs)是资源密集型的,并且KGs的准确性可能会受到噪声、过时或无关三元组的影响。近年来,大型语言模型(LLMs)的进步为提高KGs的质量和相关性提供了有希望的方法。尽管如此,将LLMs集成到基于KG的系统中仍然面临挑战,例如高效地增强KGs、解决幻觉问题以及开发有效的联合学习方法。在本文中,我们提出了一种基于LLM增强的信任感知知识图谱推荐框架(CKG-LLMA),这是一种结合KGs和LLMs的新型框架,用于推荐任务。该框架包括:(1)基于LLM的子图增强器,用于用高质量信息丰富KGs;(2)信任感知的消息传播机制,用于过滤噪声三元组;(3)双视角对比学习方法,用于整合用户-项目交互数据和KG数据。此外,我们采用一种信任感知的解释生成过程来指导LLMs生成推荐的现实解释。最后,广泛的实验表明CKG-LLMA在多个公开数据集上的有效性。
发布时间: 2/7/2025
查看原文
arXiv:2502.03711v1 Announce Type: 横向 摘要:机构采用大型语言模型(LLMs)的过程中面临的一个关键挑战在于它们生成响应时倾向于产生虚构内容。为解决这一问题,我们提出了一种名为 MultiQ&A 的系统性方法,用于评估 LLM 生成答案的稳健性和一致性。我们展示了 MultiQ&A 能够大规模利用独立的 LLM 代理来众包问题扰动及其相应的答案。我们的实验共分析了 190 万个问题扰动和 230 万个答案。此外,MultiQ&A 显示出,在扰动条件下,如 gpt-3.5-turbo 等集成 LLM 仍保持相对稳健和一致。MultiQ&A 为响应生成空间提供了清晰度,提供了一种有效的方法来检查分歧和变化。因此,我们的系统为机构 LLM 采用提供了潜在框架,能够度量信心、一致性和虚构内容的量化。
发布时间: 2/7/2025
查看原文
作者: Daniel Beaglehole, Adityanarayanan Radhakrishnan, Enric Boix-Adser\`a, Mikhail Belkin
arXiv:2502.03708v1 交叉类型公告: 摘要:一个训练有素的大语言模型(Large Language Model,LLM)包含了大量的人类知识。然而,评估这些知识的范围或准确性是困难的,因为LLM并不总是“知道自己知道什么”,甚至可能会有意误导。在本文中,我们提供了一种一般方法来检测LLM内部激活中的语义概念。此外,我们展示了我们的方法可以轻松地适应以引导LLM产生期望的输出。我们的创新之处在于:(1)我们使用非线性特征学习方法来识别每个层中用于预测概念的重要线性方向;(2)我们在层间聚合特征来构建强大的概念检测器和引导机制。通过在七个基准测试中获得最先进的结果,我们展示了我们方法的威力,用于检测幻觉、危害性、有害内容以及不真实的内容。我们通过引导LLM趋向新的概念,展示了我们方法的普适性,这些新概念据我们所知在文献中未曾被考虑过,包括:语义消歧、人类语言、编程语言、幻觉响应、科学学科、诗歌/莎士比亚式英语,甚至多种概念同时。此外,我们的方法还可以引导具有数值属性的概念,例如产品评论。我们将在https://github.com/dmbeaglehole/neural_controllers 中提供我们的代码(包括我们方法的简单API)。
发布时间: 2/7/2025
查看原文
作者: Bowen Jin, Jinsung Yoon, Zhen Qin, Ziqi Wang, Wei Xiong, Yu Meng, Jiawei Han, Sercan O. Arik
arXiv:2502.03699v1 宣告类型: cross 摘要:大规模语言模型(LLMs)通过推理、编程和通信能力革新了人工智能,推动了各行各业的创新。它们的实际潜力取决于有效的对齐,以确保正确、可信和道德的行为,解决诸如虚假信息、幻觉、偏见和误用等挑战。虽然现有的基于强化学习(RL)的对齐方法异常复杂,但直接优化方法提供了一种更简单的替代方案。在本文中,我们通过借鉴已建立的信息检索(IR)原则,引入了一种新颖的直接优化对齐方法。我们提出了一种系统框架,将LLM对齐和IR方法联系起来,在信息检索的检索-重排序 paradigms 中映射 LLM 生成和奖励模型。在此基础上,我们提出了一种新的对齐方法 LLM 对齐检索偏好优化(LarPO),该方法提高了整体对齐质量。广泛的实验验证了 LarPO 的有效性,分别在 AlpacaEval2 和 MixEval-Hard 上平均提高了 38.9% 和 13.7%。我们通过整合信息检索基础,打开了推进 LLM 对齐的新途径,并为未来研究提供了有希望的方向。
发布时间: 2/7/2025
查看原文