arXiv:2410.03655v2 宣布类型: 替换交叉
摘要:最近分子生成模型的发展证明了其在加速科学研究,尤其是在药物设计中的巨大潜力。然而,这些模型在生成高质量分子时通常会遇到挑战,特别是在条件场景中,必须满足特定的分子性质。在本文中,我们介绍了一种名为GeoRCG的通用框架,该框架通过结合几何表示条件和可证明的理论保证来提升分子生成模型的性能。我们将分子生成过程分解为两个阶段:首先,生成一个有信息量的几何表示;其次,在该表示的条件下生成分子。与直接生成分子相比,第一阶段易于生成的表示在引导第二阶段生成达到高质量分子方面更加目标导向且更为快速。利用EDM和SemlaFlow作为基础生成器,我们在广泛使用的QM9和GEOM-DRUG数据集上的无条件分子生成任务中观察到了显著的质量提升。更值得注意的是,在具有挑战性的条件分子生成任务中,我们的框架在最新方法上的平均性能提高了31%,这突显了基于语义丰富的几何表示条件的优势,超过了之前方法中的单独属性值条件。此外,我们显示,在这种表示引导下,扩散步骤的数量可以减少到最多100步,同时仍能保持与1000步生成质量相当的质量,从而显著加快了生成过程。
arXiv:2410.03380v2 宣传类型: 替换-交叉
摘要:识别对生物系统造成变化的变量,可以在药物靶点发现和细胞工程等方面得到应用。给定观察数据和干预期数据,目标是从观察变量中隔离出被干预的目标变量子集。直接应用因果发现算法面临挑战:数据可能包含数千个变量,而每项干预的样本量可能只有几十个,此外,生物系统并不遵循传统的因果假设。我们提出了一种受因果关系启发的方法来解决这一实际问题。首先,我们从观察数据和干预期数据中推断出有噪声的因果图。然后,我们学习将这些图之间的差异以及其他统计特征映射到被干预的变量集合上。这两个模块在一个监督框架中联合训练,用于模拟和真实数据,这些数据反映了生物干预的本质。该方法在七个单细胞转录组学数据集上对扰动建模基准测试中表现始终超过基线。我们还展示了该方法在预测各种合成数据中的软干预和硬干预目标时相对于当前因果发现方法显著的改进。
arXiv:2410.02205v3 宣布类型:替换交叉
摘要:大语言模型(LLMs)预期具备可预测性和可靠性,以支持可靠的决策系统。然而,当前的LLMs在判断上经常表现出不一致。在本文中,我们考察逻辑偏好一致性作为构建更可靠的LLM系统的基础要求,以确保稳定和一致的决策过程,同时最小化不规则或矛盾的输出。为了量化逻辑偏好一致性,我们提出了一种基于三个基本属性的通用评估框架:传递性、可交换性和否定不变性。通过在多种多样的LLMs中进行广泛的实验,我们证明这些属性是判断稳健性的强指标。此外,我们引入了一种数据细化和增强技术REPAIR,该技术在保持与人类偏好一致性的前提下提高逻辑一致性。最后,我们证明提高一致性能够提升LLM驱动的基于逻辑的算法的性能,从而增强决策系统中的稳定性和一致性。
arXiv:2410.00700v3 公告类型:替换-交叉
摘要:个性化文字到图像扩散模型因其能够高效地从用户定义的文字描述和少量图像中获取新概念而越来越受欢迎。然而,在现实世界中,用户可能希望一次仅个性化一个模型的多个概念,但由于存储/隐私问题,用户可能无法访问先前概念的数据。在面对这种持续学习(CL)的设置时,大多数个性化方法无法在获取新概念与保留先前概念之间找到平衡——这就是持续个性化(CP)要解决的挑战。受到依赖特定类别信息的持续学习方法的启发,我们利用固有的类别条件密度估计,即扩散分类器(DC)分数,对文字到图像扩散模型进行持续个性化。具体而言,我们建议使用DC分数对参数空间和函数空间进行正则化,以实现持续个性化。通过使用多种不同的评估设置、数据集和指标,我们展示了我们提出的基于正则化的持续个性化方法优于目前最先进的人C-LoRA和其他基线方法。最后,通过在无重放的持续学习设置和低秩适配器上操作,我们的方法分别在状态最先进方法上具有零存储开销和参数开销。我们的项目页面:https://srvcodes.github.io/continual_personalization/
arXiv:2409.17755v2 宣告类型: replace-cross
摘要:本文探讨了一种具有挑战性的交互式任务学习场景,我们称之为未察觉下的重新排列:在一个代理不知晓对解决指定任务至关重要的概念的环境下,操控刚性体环境。我们提出了SECURE,一个旨在解决此类问题的交互式任务学习框架。它利用具身对话来修正其缺陷领域的模型——通过对话,代理发现并学习利用出乎意料的可能性。尤其是,SECURE 在它犯错时从用户的具身纠正反馈中学习,并在对话中做出战略决策,以揭示解决问题的新概念的有用证据。这些能力使代理能够在后续任务中利用新获得的知识进行泛化。我们证明,在代理具备语义意识的情况下——即在学习和推理过程中,它通过语义分析的逻辑后果扩充用户的具身对话中的证据——解决未察觉下的重新排列问题更加高效。
arXiv:2409.15095v2 公告类型:替换-交叉
摘要:演示数据在学习复杂行为和训练机器人基础模型中起着关键作用。虽然静态机械臂已经存在有效的控制界面,但为了移动机械臂的数据收集仍然因自由度众多而复杂且耗时。虽然专门的硬件、化身或动作追踪可以实现整个身体的控制,但这些方法或是昂贵的、特定于机器人、或是导致机器人与人类演示者之间的束缚不符。在此项工作中,我们提出了MoMa-Teleop,一种新颖的遥操作方法,该方法从现有界面中推断末端执行器运动,并将基础运动委派给之前开发的强化学习代理,使操作员可以完全专注于任务相关的末端执行器运动。这使得用户可以通过标准界面(如摇杆或手部引导)对移动机械臂进行整身体操,并且无需额外的硬件或设置成本。此外,操作员不受追踪的工作空间限制,可以在空间扩展的任务中自由移动与机器人一起。我们证明,我们的方法可以显著减少不同机器人和任务上的任务完成时间。由于生成的数据覆盖了多种不同的整身体操动作,且没有束缚不符的问题,因此能够实现高效的模仿学习。通过专注于任务特定的末端执行器运动,我们的方法能够在最少五次演示的情况下从新的障碍物或改变的对象位置中学习技能。我们在https://moma-teleop.cs.uni-freiburg.de上提供了代码和视频。
arXiv:2409.13588v2 更新类型: 替换-交叉
摘要:随着大型语言模型(LLMs)的发展,它们的应用潜力显著增长。然而,评估LLM在用户定义任务上的行为并构建有效的评估流水线仍然颇具挑战性。许多用户在开始时遇到了困难,这常常被称为“空白页面问题”。ChainBuddy是内置在ChainForge平台中的一个AI工作流生成助手,旨在解决这一问题。从单一的提示或对话开始,ChainBuddy可以在ChainForge中生成一个符合用户要求的启动评估LLM流程。ChainBuddy提供了一种简单直观且用户友好的方式来规划和评估LLM行为,使这一过程对各种可能的任务和应用场景来说不再那么令人畏惧。我们报告了一项针对ChainBuddy和基线界面的被试内用户研究。我们发现,当使用AI辅助时,参与者报告的工作量较小,感觉更加自信,生成的评估LLM行为的流水线质量也更高。然而,我们也发现主观评价和客观评价之间的不匹配:参与者在不同条件下对自己成功的评价相似,而独立专家在使用AI辅助时对参与者的工作流的评价显著较高。结合道宁-克鲁格效应,我们得出了对未来工作流生成助手设计的启示,以减轻过度依赖的风险。
arXiv:2409.13244v2 社区类型: 替换交叉
摘要: 为了在拥挤的空间中安全高效地导航,机器人不仅应感知当前环境的状态,还应预测未来的人类行为。本文中,我们提出了一种强化学习架构,即Falcon,以通过显式预测人类轨迹并惩罚阻碍未来人类路径的行为来解决社交意识导航问题。为了便于现实评估,我们引入了一个新型的SocialNav基准,包含两个新的数据集,Social-HM3D和Social-MP3D。该基准提供了基于场景面积合理配置人类代理的大规模逼真的室内场景,包含了自然的人类行为和轨迹模式。我们使用最新的基于学习的方法以及两种经典的基于规则的路径规划算法对新基准进行了详细的实验分析。实验结果表明了未来预测的重要性,而我们的方法在保持约90%个人空间合规性的同时,实现了最高的任务成功率55%。我们将发布我们的代码和数据集。演示视频可以在https://zeying-gong.github.io/projects/falcon/查看。
arXiv:2409.13082v2 宣布类型: 交叉替换
摘要:生成式AI已经在许多软件工程任务中展现了其价值。尽管如此,基于大规模语言模型(LLM)的证明生成仍落后于基于LLM的代码生成。在本文中,我们介绍了AutoVerus。AutoVerus使用LLM自动为Rust代码生成正确性证明。AutoVerus的设计旨在匹配Verus的特色,Verus是一个验证工具,可以使用证明和同样用Rust编写的规定来证明Rust代码的正确性。AutoVerus由一个LLM代理网络组成,该网络被定制和编排,以模拟人类专家在证明构建过程中的三个阶段:初步证明生成、由通用提示引导的证明细化、以及由验证错误引导的证明调试。为了全面评估AutoVerus并为这一领域的未来研究提供帮助,我们基于现有的代码生成基准和验证基准构建了一个包含150个非平凡证明任务的基准套件。我们的评估结果显示,AutoVerus可以自动为超过90%的证明任务生成正确的证明,其中一半以上可以在不到30秒或3次LLM调用内解决。
arXiv:2409.12924v4 宣告类型:替换-交叉
摘要:大型语言模型(LLMs)带来了人工智能的新一轮进展,影响了每一门科学领域和学科。我们生活在一个大多数周围数据,例如文本、音频和音乐,都具有多尺度结构的世界。本文在预训练阶段将传统的信号处理思想——小波——融入LLMs中,以利用这种结构。在学术设置中,我们通过GPT风格的LLMs架构,在不添加任何额外参数的情况下,几乎两倍于文本、音频和图像的速度达到相同的预训练性能。这是通过对中间嵌入施加结构来实现的。当我们使用相同数量的训练步骤进行训练时,我们在性能上取得了显著的改进,这与预训练更大规模的神经架构相当。此外,我们展示了这一点在Long Range Arena基准测试以及多种输入表示上也适用,包括字符、BP码词元、字节、波形、数学表达式和图像像素。我们的架构允许在每个解码器块中,下一个词的预测能够访问不同时间分辨率的中间嵌入。我们希望这将为在预训练中引入多速率信号处理铺平道路。