LLM2D

arXiv 论文列表

作者: Lipeng Zhuang, Shiyu Fan, Yingdong Ru, Florent Audonnet, Paul Henderson, Gerardo Aragon-Camarasa
我们提出了 Flat'n'Fold,一个新的大规模服装操作数据集,它弥补了现有数据集的重大缺陷。该数据集包含 1,212 人类和 887 机器人演示,涵盖 8 个类别中 44 种独特服装的平铺和折叠操作,在规模、范围和多样性方面超越了先前的数据集。我们的数据集独特地捕捉了从褶皱到折叠状态的整个操作过程,提供同步的多视图 RGB-D 图像、点云和动作数据,包括手或抓取器的位置和旋转。我们量化了数据集相对于现有基准的多样性和复杂性,并表明我们的数据集在视觉和动作信息方面,展现了人类和机器人演示中真实世界操作的自然性和多样性。为了展示 Flat'n'Fold 的实用性,我们为抓取点预测和子任务分解建立了新的基准。我们对这些任务中最新模型的评估表明,仍有很大的改进空间。这突出了 Flat'n'Fold 在推动可变形物体机器人感知和操作方面的进步潜力。我们的数据集可从 https://cvas-ug.github.io/flat-n-fold 下载。
发布时间: 9/30/2024
查看原文
作者: Youyuan Liu, Wenqi Jia, Taolue Yang, Miao Yin, Sian Jin
有损压缩是减少包含多个数据字段的科学数据大小的最有效方法之一。它通过预测或变换技术降低信息密度来压缩数据。以往的方法在预测目标数据点时使用来自单个目标字段的局部信息,这限制了它们实现更高压缩率的潜力。在本文中,我们识别了科学数据集中显著的跨字段相关性。我们提出了一种新颖的混合预测模型,该模型利用 CNN 提取跨字段信息,并将其与现有的局部字段信息相结合。我们的解决方案提高了有损压缩器的预测精度,从而在不影响数据质量的情况下提高了压缩率。我们在三个科学数据集上评估了我们的解决方案,证明了它能够在特定误差范围内将压缩率提高高达 25%。此外,与基线方法相比,我们的解决方案保留了更多数据细节并减少了伪影。
发布时间: 9/30/2024
查看原文
作者: Alexander Grushin, Walt Woods, Alvaro Velasquez, Simon Khan
最先进的强化学习方法有时会遇到不安全的情况。识别这些情况的发生对事后分析和部署都很有意义,因为在部署时,在需要帮助时向人类监督者求助可能是有利的。人们已经开发出一些方法来衡量不同时间点的关键程度,但由于缺乏真实情况,它们的准确性还没有得到很好的确立,而且它们的设计并非易于最终用户理解。因此,我们试图定义一个关键性框架,该框架既具有可量化的真实情况,又对用户具有明确的意义。我们将真实关键性定义为当代理连续执行 n 个随机动作偏离其策略时,奖励的预期下降。我们还引入了代理关键性的概念,这是一个低开销指标,与真实关键性具有统计上的单调关系。安全裕度使这些指标变得可解释,当定义为代理性能损失不会超过某个容忍度的随机动作数量时,其置信度很高。我们在几个环境-代理组合中展示了这种方法;对于 Atari Beamrider 环境中的 A3C 代理,最低 5% 的安全裕度包含 47% 的代理损失;也就是说,仅监督 5% 的决策可能会阻止大约一半的代理错误。这种关键性框架在这些决策做出之前就衡量了错误决策的潜在影响,从而允许更有效地调试和监督自主代理。
发布时间: 9/30/2024
查看原文
作者: Huthaifa I. Ashqar, Ahmed Jaber, Taqwa I. Alhadidi, Mohammed Elhenawy
本研究旨在全面回顾和实证评估多模态大型语言模型 (MLLMs) 和大型视觉模型 (VLMs) 在交通系统目标检测中的应用。首先,我们介绍了 MLLMs 在交通应用中的潜在优势,并对先前研究中现有的 MLLM 技术进行了全面回顾。我们重点介绍了它们在各种交通场景中目标检测的有效性和局限性。第二部分概述了交通应用中端到端目标检测的分类以及未来方向。在此基础上,我们提出了对三个真实交通问题的实证分析,这些问题包括目标检测任务,即道路安全属性提取、安全关键事件检测和热图像的视觉推理。我们的发现对 MLLMs 的性能进行了详细评估,揭示了其优势和改进空间。最后,我们讨论了 MLLMs 在增强交通目标检测方面的实际局限性和挑战,从而为该关键领域的未来研究和发展提供路线图。
发布时间: 9/30/2024
查看原文
作者: Mengchen Zhang, Tong Wu, Tai Wang, Tengfei Wang, Ziwei Liu, Dahua Lin
6D 物体姿态估计旨在从单个 RGBD 图像中确定物体的平移、旋转和尺度。近年来,这项估计已经从实例级扩展到类别级,使模型能够在同一类别中跨越未见实例进行泛化。然而,这种泛化受到现有数据集(例如 NOCS)所涵盖的类别范围狭窄的限制,这些数据集也往往忽略了现实世界中的常见挑战,例如遮挡。为了应对这些挑战,我们引入了 Omni6D,这是一个包含广泛类别和不同背景的综合 RGBD 数据集,将任务提升到更现实的场景中。1) 该数据集包含 166 个类别的广泛范围,4688 个调整到规范姿势的实例,以及超过 80 万张捕捉图像,显著扩展了评估范围。2) 我们引入了对称感知度量,并对 Omni6D 上现有算法进行了系统基准测试,深入探讨了新挑战和见解。3) 此外,我们提出了一种有效的微调方法,该方法将模型从以前的数据集适应到我们广泛的词汇设置。我们相信这项举措将为工业界和学术界带来新的见解和重大进展,推动通用 6D 姿态估计的边界。
发布时间: 9/30/2024
查看原文
作者: Jongseo Lee, Geo Ahn, Jinwoo Choi, Seongtae Kim
在自动人体图形绘制 (HFD) 评估任务中,例如使用 HFD 图像诊断自闭症谱系障碍 (ASD),模型决策的清晰度和可解释性至关重要。现有的基于像素级归因的可解释 AI (XAI) 方法要求用户付出相当大的努力来解释图像中区域的语义信息,这往往耗时且不切实际。为了克服这一挑战,我们提出了一个基于部分贡献评估的模型解释 (PCEvE) 框架。在部分检测的基础上,我们测量每个单独部分的 Shapley 值以评估其对模型决策的贡献。与现有的基于归因的 XAI 方法不同,PCEvE 提供了对模型决策的直观解释,即部分贡献直方图。此外,PCEvE 将解释范围扩展到传统的样本级别之外,包括类级别和任务级别的见解,从而提供对模型行为更丰富、更全面的理解。我们在多个 HFD 评估数据集上通过大量实验严格验证了 PCEvE。此外,我们还通过一系列对照实验对该方法进行了健全性检验。此外,我们通过将其应用于一个照片般真实的斯坦福汽车数据集,证明了我们方法的多功能性和适用性。
发布时间: 9/30/2024
查看原文
作者: Michelle S. Lam, Fred Hohman, Dominik Moritz, Jeffrey P. Bigham, Kenneth Holstein, Mary Beth Kery
大型语言模型的策略无论是显式的宪法还是隐式的奖励模型,都很难评估其覆盖范围,因为策略必须应对无限的现实世界情况。我们介绍了一种受制图学启发的 AI 策略设计流程,该流程开发了可视化和迭代地图的策略,即使无法完全覆盖。借助 Policy Projector,策略设计师可以调查模型输入-输出对的景观,定义自定义区域(例如,“暴力”),并使用可应用于 LLM 输出的规则(例如,如果输出包含“暴力”和“图形细节”,则重写不包含“图形细节”)在这些区域中导航。Policy Projector 支持使用 LLM 分类和引导进行交互式策略创作,以及反映策略设计师工作的可视化地图。在对 12 位 AI 安全专家的评估中,我们的系统帮助策略设计师解决超出现有全面危害分类法的有问题模型行为。
发布时间: 9/30/2024
查看原文
作者: Emma Croxford, Yanjun Gao, Nicholas Pellegrino, Karen K. Wong, Graham Wills, Elliot First, Frank J. Liao, Cherodeep Goswami, Brian Patterson, Majid Afshar
大型语言模型已经推动了临床自然语言生成的进步,为管理海量医疗文本提供了机会。然而,医学的高风险性质需要可靠的评估,而这仍然是一个挑战。本综述文章评估了目前临床摘要任务的评估现状,并针对专家人工评估的资源限制提出了未来的发展方向。
发布时间: 9/30/2024
查看原文
作者: Tiansheng Huang, Sihao Hu, Fatih Ilhan, Selim Furkan Tekin, Ling Liu
近年来研究表明,新兴的微调即服务商业模式暴露了严重的安全性问题——用户上传的少量有害数据进行微调可能会损害模型的安全对齐。这种攻击被称为有害微调,已引起社区广泛的关注。然而,由于该攻击仍处于起步阶段,**我们从自己痛苦的投稿经历中观察到研究界存在普遍的误解。** 本文旨在消除对该攻击设置的一些常见疑虑,并正式确立研究问题。具体来说,我们首先介绍问题的威胁模型,并介绍有害微调攻击及其变体。然后,我们系统地调查了关于该问题攻击/防御/机械分析的现有文献。最后,我们概述了可能有助于该领域发展的未来研究方向。此外,我们还提供了一份感兴趣的问题清单,这些问题可能有助于审稿人在同行评审过程中质疑实验/攻击/防御设置的真实性。相关论文的精选清单已维护并可在以下地址访问:\url{https://github.com/git-disl/awesome_LLM-harmful-fine-tuning-papers.}
发布时间: 9/30/2024
查看原文
深度学习的爆炸式发展成功地实现了机器学习特征提取的自动化。然而,深度神经网络架构的结构和超参数对不同任务的性能也有着巨大的影响。探索最佳结构和超参数的过程往往需要大量繁琐的人工干预。因此,一个合理的问题是询问如何自动搜索最佳网络结构和超参数。超参数优化旨在自动寻找最优的超参数。神经网络结构搜索旨在自动寻找特定任务的最佳网络结构。本文首先介绍了神经网络结构搜索的整体发展,然后主要集中于提供关于与强化学习相关的结构搜索工作的整体和可理解的综述,包括基于满足更复杂结构和资源不足环境的希望的改进和变体。
发布时间: 9/30/2024
查看原文