LLM2D

arXiv 论文列表

作者: Rishi Hazra, Alkis Sygkounas, Andreas Persson, Amy Loutfi, Pedro Zuidberg Dos Martires
arXiv:2406.01309v3 宣告类型:替换横跨 摘要:设计有效的奖励函数对于训练强化学习(RL)算法至关重要。然而,即使对于领域专家来说,这也是一项非平凡的任务,因为某些任务缺乏明确的量化标准。最近的研究中,大语言模型(LLMs)被用于从自然语言任务描述中生成奖励,利用它们广泛的指令调优和对人类行为的常识理解。在本文中,我们假设在人类反馈的指导下,LLMs可以用于制定反映人类隐性知识的奖励函数。我们在三个具有挑战性的场景中研究了这一点——自动驾驶、类人行走和灵巧操作——在这些场景中,“良好”行为的概念是隐性的且难以量化。为此,我们引入了REvolve,这是一种真正基于进化的框架,利用LLMs在RL中的奖励设计。REvolve通过利用人类反馈来指导进化过程,有效地将隐性的知识转化为明确的奖励函数,用于训练(深)RL代理。实验结果表明,使用REvolve设计的奖励训练的代理优于其他最先进的基线。
发布时间: 4/8/2025
查看原文
作者: Filippo Palomba, Andrea Pugnana, Jos\'e Manuel Alvarez, Salvatore Ruggieri
arXiv:2405.18902v2 宣布类型:替换交叉 摘要:延时系统通过提供将预测权交给人类专家的可能性,扩展了监督机器学习(ML)模型的功能。然而,评估延时策略对系统准确性的影响仍然是一个被忽视的领域。本文通过因果视角填补了这一空白,通过将因果推断的潜在结果框架与延时系统联系起来,以识别延时策略对预测准确性的因果影响。我们区分两种情况。在第一种情况下,我们可以获得延期实例的人类预测和机器学习模型的预测。在这种情况下,我们可以识别延期实例的个体因果效应以及它们的总效应。在第二种情况下,仅可以获得延期实例的人类预测。在这种情况下,我们可以借助回归连续性设计来估计局部因果效应。我们通过合成数据集和实际数据集对文献中提出的七种延时系统进行了评估。
发布时间: 4/8/2025
查看原文
作者: Th\'eo Gieruc, Marius K\"astingsch\"afer, Sebastian Bernhard, Mathieu Salzmann
arXiv:2404.12378v2 宣告类型: replace-cross 摘要:当前的3D重建技术在从少量图像中忠实推断无限场景方面存在困难。具体来说,现有方法计算需求高,需要详细的姿态信息,并且不能可靠地重建被遮挡的区域。我们介绍了6Img-to-3D,这是一种高效可扩展的基于变压器的编码-渲染方法,用于单幅图像到3D重建。我们的方法仅使用六个向外的输入图像,在大规模无限户外驾驶场景中输出3D一致的参数化三平面。我们通过结合压缩的定制交叉注意机制和自我注意机制来解决现有方法的不足,这些机制用于三平面参数化、不同步的体渲染、场景压缩和图像特征投影。我们展示了在推理时间,仅使用单个时间戳的六个周围视图车辆图像和无需全局姿态信息,就足以重建360°场景,耗时395毫秒。我们的方法允许例如渲染第三人称图像和鸟瞰图等操作。我们的代码可在 https://github.com/continental/6Img-to-3D 获取,更多例子请访问我们的网站 https://6Img-to-3D.GitHub.io。
发布时间: 4/8/2025
查看原文
arXiv:2404.11929v3 通知类型: 替换交叉 摘要:多巴胺转运体(DAT)成像是监测帕金森病(PD)常用的方法,通过计算纹状体DAT摄取量来评估PD的严重程度。然而,DAT成像成本较高,并存在辐射暴露的风险,在普通诊所并不常用。最近,提出的黑质区域的MRI切片被认为是更安全、更便捷的替代方案。本文提出了一种对称回归模型,用于从黑质MRI切片预测DAT摄取量。考虑到右黑质与左黑质之间的对称性,所提出的回归模型采用了配对输入输出模型,同时预测右和左纹状体的DAT摄取量。此外,它利用了一种对称损失函数,对右到左的预测差异施加了约束,类似于DAT摄取量在两个侧面上的高相关性。此外,我们还提出了一种对称蒙特卡罗(MC)丢弃方法,以提供DAT摄取量预测的有益不确定性估计,该方法利用上述对称性。我们在734个黑质切片上评估了所提出的方法,表明所提出的对称回归器与标准回归器相比,在性能和可解释性及特征表示方面均显著改进。对称MC丢弃还提供了精确的不确定性范围,具有很高概率包含真实的DAT摄取量。
发布时间: 4/8/2025
查看原文
作者: Jaskirat Singh, Emad Fallahzadeh, Bram Adams, Ahmed E. Hassan
arXiv:2403.17154v2 宣布类型: replace-cross 摘要:决定在边缘AI层级中使用哪些操作符组合以实现特定的延迟和模型性能要求是一个悬而未决的问题,特别是对于MLOps工程师而言。本研究旨在实证评估不同黑盒边缘AI部署策略的精度与推理时间权衡,即部署操作符和部署层级的不同组合。在本文中,我们针对四种广泛使用的计算机视觉模型进行了涉及三种部署操作符(即分区、量化、早期退出)和三种部署层级(即移动、边缘、云)及其组合的推理实验,以从MLOps开发者的角度探讨最优策略。我们的发现表明,当对中等精度损失下的更快延迟有所关注时,可以优先考虑使用混合量化+早期退出操作符进行边缘部署,而不仅仅是边缘量化/移动边缘早期退出或移动边缘分区操作符。然而,当最大化精度损失时,MLOps工程师应优先选择在移动边缘部署仅使用量化操作符,以实现延迟降低或增加的效果,而不是移动边缘/早期退出和分区操作符。在受制于移动CPU/RAM资源的场景中,观察到在移动和边缘层级中使用跨层级分区的偏好超过移动部署。对于具有较小输入数据样本的模型(如FCN),网络受限的云部署也可以比移动/边缘部署和分区策略更优。对于具有大量输入数据样本的模型(如ResNet、ResNext、DUC),具有更高网络/计算能力的边缘层级,可以比分区和移动/云部署策略更具可行性。
发布时间: 4/8/2025
查看原文
作者: Yahya Badran, Christine Preisach
arXiv:2403.15304v3 Announce Type: replace-cross 摘要:知识追踪(KT)关注于预测智能辅导系统中学生在学习项目上的未来表现。学习项目被标记有技能标签,称为知识概念(KCs)。许多KT模型通过用组成项目的KCs替换学习项目,将项目-学生交互序列扩展为KCs-学生交互,以此解决了项目-学生交互稀疏的问题并减少了模型参数的数量。然而,我们发现这种方法存在标签泄露问题。模型学习同一项目下的KCs之间的相关性可能导致真实标签的泄露,从而降低性能,特别是在每个项目含有大量KCs的数据集上。 在这篇论文中,我们提出了防止知识追踪(KT)模型中标签泄露的方法。使用这些方法的模型变体在所有原始版本上表现更优。这进一步证明了标签泄露对模型性能的影响。此外,这些方法还可以增强KT模型的整体性能,其中一个模型变体在不同基准上超过了所有测试的基线模型。值得一提的是,我们的方法具有通用性,可以应用于多种KT模型。
发布时间: 4/8/2025
查看原文
作者: Rui Liu, Anish Gupta, Erfaun Noorani, Pratap Tokekar
arXiv:2403.08955v3 声明类型: replace-cross 摘要:强化学习(RL)在各种应用中展现了卓越的表现,使自主代理能够通过与环境的交互学习最优策略。然而,传统RL框架在迭代效率和鲁棒性方面常常面临挑战。具有预期回报和风险度量结合的鲁棒敏感政策梯度方法因其能够生成更鲁棒的策略而得到了探索,但其迭代复杂性仍然很大程度上未被研究。在本文中,我们对鲁棒敏感政策梯度方法进行了严格的迭代复杂性分析,重点关注使用指数效用函数的REINFORCE算法。我们建立了在达到$\epsilon$-近似一阶稳定点(FOSP)时的迭代复杂度为 $\mathcal{O}(\epsilon^{-2})$。此外,我们探讨了鲁棒敏感算法是否能够比其无风险等价物实现更好的迭代复杂性。我们的分析表明,鲁棒敏感的REINFORCE算法可能更快地收敛。为了验证我们的分析,我们在CartPole、MiniGrid和Robot Navigation等多个环境中对无风险和鲁棒敏感的REINFORCE算法的学习性能和收敛效率进行了实证评估。实证结果证实,与无风险等价物相比,风险规避情况可以更快地收敛和稳定。更多详细信息请参阅我们的网站 https://ruiiu.github.io/riskrl。
发布时间: 4/8/2025
查看原文
作者: Jiatong Li, Wei Liu, Zhihao Ding, Wenqi Fan, Yuqiang Li, Qing Li
arXiv:2403.04197v4 宣告类型: replace-cross 摘要:大型语言模型(LLMs)在生物化学任务中表现出色,特别是在分子图描述翻译任务中,该任务旨在弥合分子与自然语言文本之间的差距。然而,之前将LLMs适应到分子图描述翻译任务的方法需要额外的领域特定预训练阶段,分子空间与文本空间之间的对齐较弱,或者对LLMs的规模提出了严格的要求。为了解决这些挑战,我们提出了一种新的范式In-Context Molecule Adaptation(ICMA),允许LLMs通过In-Context Molecule Tuning从上下文示例中学习分子文本对齐。具体而言,ICMA包含以下三个阶段:Hybrid Context Retrieval、Post-retrieval Re-ranking和In-context Molecule Tuning。最初,Hybrid Context Retrieval结合了BM25图像检索和分子图检索,以检索相似的知情上下文示例。此外,Post-retrieval Re-ranking包括序列反转和随机行走选择,以进一步提高检索结果的质量。最后,In-Context Molecule Tuning解锁了LLMs的上下文学习和推理能力,利用检索到的示例适应LLMs的参数,以实现更好的分子文本对齐。实验结果表明,ICMA可以在无需额外训练语料库和复杂结构的情况下使LLMs达到最先进的或可比的性能,表明LLMs本质上是具有上下文学习能力的分子学习者。
发布时间: 4/8/2025
查看原文
作者: Gianluca Baldassarre, Richard J. Duro, Emilio Cartoni, Mehdi Khamassi, Alejandro Romero, Vieri Giuliano Santucci
arXiv:2403.02514v2 公告类型: replace-cross 摘要:前所未有的人工智能进步推动了越来越自主的机器人的发展。这些机器人在脱离人工工程化工厂环境,进入由人类居住的非结构化环境中操作方面具有巨大的潜力。然而,这种可能性也引发了一个相关的问题——确保机器人的自主学习过程仍然专注于获取有助于实现人类实际目的的知识,同时其行为仍然与其更广泛的目的保持一致。目前,文献仅开始解决这一问题,而一个概念性、术语性和形式化的框架仍然缺乏。在这里,我们解决了一个最具挑战性的实例问题:自主开放式学习(OEL)机器人,这些机器人能够通过直接与环境互动,根据自我生成的目标和内在动机逐步获取新技能和知识。特别地,我们提出了一种计算框架,首先定性引入,然后形式化,以支持平衡自主性和控制性的OEL机器人架构的设计。该框架的核心在于新型的概念——目的。人类目的具体说明了人类(例如,设计师或用户)希望机器人在特定的自主边界内做什么、做什么或不做什么,并与其操作领域无关。该框架将自主性对齐问题分解为更易于处理的子问题:机器人的目的与人类目的的对齐,可能是通过硬编码或通过学习实现;权衡多种目的;将目的具体化为特定领域依赖的机器人目标;以及实现这些目标所需的技能获取。通过讨论在框架内设定的假想示例场景,进一步阐明了框架及其潜在的实用性。
发布时间: 4/8/2025
查看原文
作者: Yuhang Zhou, Paiheng Xu, Xiyao Wang, Xuan Lu, Ge Gao, Wei Ai
arXiv:2402.01681v3 通知类型: replace-cross 摘要:表情符号,它们包含超越单纯文字或短语的意义,已成为社交网络通信中的常见元素。这激发了越来越多的学术兴趣来探索它们的属性和功能。然而,与表情符号相关的研究和应用面临两个主要挑战。首先,研究人员通常依赖众包来标注表情符号以理解其情感、使用意图和语义意义。其次,用户的主观解释往往会导致对表情符号的理解失误,造成沟通障碍。大型语言模型(LLMs)在各种注释任务中取得了显著成功,ChatGPT在多个领域展现了其专业能力。在我们的研究中,我们评估了ChatGPT在处理先前标注及下游任务方面的有效性。我们的目标是验证假设:ChatGPT可以作为人类标注者的替代选择在表情符号研究中发挥重要作用,并且其解释表情符号含义的能力可以增强在线通信的清晰度和透明度。我们的研究结果表明,ChatGPT拥有广泛的表情符号知识。它擅长在各种应用场景中阐明表情符号的意义,并显示出在多种任务中取代人类标注者的潜力。
发布时间: 4/8/2025
查看原文