本研究提出了一种简单而有效的方法,利用大型语言模型 (LLMs) 在非自由文本领域(如表格和图像数据)中识别相似的数据点。我们的两步法包括数据点总结和隐藏状态提取。首先,使用 LLM 对数据进行总结,降低复杂性并突出句子中的重要信息。随后,将总结后的句子输入另一个 LLM 以提取隐藏状态,作为紧凑、富含特征的表示。这种方法利用了 LLM 的高级理解和生成能力,为跨不同数据集的相似性识别提供了一种可扩展且高效的策略。我们在多个数据集上展示了该方法在识别相似数据点方面的有效性。此外,我们的方法使非技术领域的专家(例如欺诈调查员或营销运营商)能够快速识别针对特定场景的相似数据点,证明了其在实际应用中的实用性。总的来说,我们的结果为在各个领域的数据分析中利用 LLM 开辟了新的途径。
材料科学知识广泛分散在大量的科学文献中,给新材料的有效发现和整合带来了巨大的挑战。传统的材料发现方法通常依赖于昂贵且耗时的实验方法,进一步阻碍了快速创新。为了应对这些挑战,人工智能与材料科学的结合为加速材料发现过程开辟了道路,但也对信息的精确标注、数据提取和可追溯性提出了更高的要求。为了解决这些问题,本文介绍了材料知识图谱(MKG),它利用先进的自然语言处理技术,与大型语言模型相结合,将十年的高质量研究成果提取并系统地组织成结构化的三元组,包含162,605个节点和731,772条边。MKG将信息分类成全面的标签,如名称、公式和应用,并围绕精心设计的本体结构进行组织,从而增强了数据的可用性和集成性。通过实施基于网络的算法,MKG不仅能有效地进行链接预测,还能显著减少对传统实验方法的依赖。这种结构化的方法不仅简化了材料研究,也为更复杂的科学知识图谱奠定了基础。
机器人向人类传递物体是人机协作任务中的重要步骤。成功的传递需要机器人稳定地抓握物体,同时确保人类能够以自然且易于使用的方式接收物体。我们提出了 ContactHandover,一个机器人向人类传递系统的方案,它包含两个阶段:接触引导抓取阶段和物体传递阶段。在抓取阶段,ContactHandover 预测了 6 自由度机器人抓取姿态以及物体上人类接触点的 3D 可用性地图。通过惩罚那些阻挡人类接触点的机器人抓取姿态,对机器人抓取姿态进行重新排序,并执行排名最高的抓取。在传递阶段,通过最大化靠近人类的人类接触点,同时最小化人类手臂关节扭矩和位移,计算机器人末端执行器姿态。我们在 27 种不同的家用物品上评估了我们的系统,结果表明,与几种基线方法相比,我们的系统实现了更高的可见性和可达性,使接收者能够接触到人类的接触点。更多结果可以在 https://clairezixiwang.github.io/ContactHandover.github.io 上找到。
尽管长上下文大型语言模型 (LLM) 在技术上可以总结长达书籍长度的文档(>100K 个词元),但文档的长度和复杂性迄今为止阻碍了对输入依赖性方面的评估,例如忠实度。在本文中,我们对 LLM 生成的虚构书籍摘要的忠实度和内容选择进行了首次大规模人工评估。我们的研究通过专注于 2023 年或 2024 年出版的书籍摘要来缓解数据污染问题,我们聘请了在标注任务之前完整阅读过每本书的标注员,以最大程度地降低成本和认知负担。我们收集了 FABLES,一个包含对 26 本书的 LLM 生成的摘要中 3158 个断言的标注数据集,成本为 5.2K 美元,这使我们能够根据忠实度对 LLM 摘要器进行排名:Claude-3-Opus 明显优于所有闭源 LLM,而开源 Mixtral 与 GPT-3.5-Turbo 相当。对标注的分析表明,大多数不忠实的断言与事件和角色状态有关,并且通常需要对叙述进行间接推理才能使其无效。虽然基于 LLM 的自动评分器在其他环境中已被证明在事实性和连贯性方面是可靠的,但我们实施了几个 LLM 忠实度评分器,发现没有一个与人工标注高度相关,尤其是在检测不忠实的断言方面。我们的实验表明,检测不忠实的断言不仅对于摘要评估是一个重要的未来方向,而且也是长上下文理解的测试平台。最后,我们超越了忠实度,探索了书籍长度摘要中的内容选择错误:我们开发了一种与关键叙述元素相关的遗漏错误类型,并还确定了对书籍结尾发生的事件的系统性过度强调。
本文提出了用于决策树学习中计算最优分割的数据流算法。具体来说,给定一个包含观测值 $x_i$ 及其标签 $y_i$ 的数据流,目标是找到最优分割点 $j$,将数据分成两个集合,使均方误差(回归)或误分类率和基尼不纯度(分类)最小化。我们提供了几种快速流式算法,这些算法使用亚线性空间和少量遍历来解决这些问题。这些算法还可以扩展到海量并行计算模型。我们的工作虽然不能直接比较,但补充了 Domingos-Hulten(KDD 2000)和 Hulten-Spencer-Domingos(KDD 2001)的开创性工作。
在日常生活中,铰接物体随处可见。对于现实世界中的机器人应用而言,机器人能够展现出对铰接物体的稳健感知和操控能力至关重要。然而,现有的铰接物体方法无法充分解决点云中的噪声问题,并且难以弥合仿真和现实之间的差距,从而限制了其在现实世界场景中的实际部署。为了解决这些挑战,我们提出了一种面向铰接物体的稳健感知和操控框架 (RPMArt),该框架能够从噪声点云中学习估计铰接参数并操控铰接部件。我们的主要贡献是稳健铰接网络 (RoArtNet),该网络能够通过局部特征学习和点元组投票来稳健地预测关节参数和可操作点。此外,我们还引入了一种铰接感知分类方案,以增强其在仿真到现实迁移方面的能力。最后,利用估计的可操作点和铰接关节约束,机器人可以生成稳健的动作来操控铰接物体。在仅从合成数据中学习之后,RPMArt 能够零样本迁移到现实世界的铰接物体。实验结果证实了我们方法的有效性,我们的框架在添加噪声的仿真和现实世界环境中都取得了最先进的性能。代码、数据和更多结果可以在项目网站上找到:https://r-pmart.github.io。
大型语言模型(LLM)在公开发布之前,已经投入大量精力使其行为与人类价值观保持一致。然而,即使经过精心校准的 LLM 仍然容易受到恶意操纵,例如越狱,从而导致意外行为。在这项工作中,我们提出了一种针对 LLM 的自动红队攻击的新型黑盒越狱框架。我们设计了恶意内容隐藏和内存重构,并使用迭代优化算法对 LLM 进行越狱,其灵感来自关于 LLM 的分心性和过度自信现象的研究。对开源和专有 LLM 的广泛越狱实验表明,我们的框架在有效性、可扩展性和可迁移性方面具有优势。我们还评估了现有越狱防御方法在我们攻击中的有效性,并强调了开发更有效和实用的防御策略的迫切需要。
合成孔径雷达 (SAR) 目标检测由于其不可替代的全天候成像能力,近年来引起了广泛关注。然而,该研究领域面临着公共数据集有限(主要包含不到 2000 张图像,且仅包含单类目标)和源代码不可访问的双重挑战。为了应对这些挑战,我们建立了一个新的基准数据集和一个用于大规模 SAR 目标检测的开源方法。我们的数据集 SARDet-100K 是对 10 个现有的 SAR 检测数据集进行密集调查、收集和标准化后得出的结果,为研究目的提供了一个大规模、多样化的数据集。据我们所知,SARDet-100K 是第一个创建的 COCO 级大规模多类 SAR 目标检测数据集。利用这个高质量数据集,我们进行了全面的实验,并揭示了 SAR 目标检测中的一个关键挑战:在数据域和模型结构方面,在 RGB 数据集上预训练与在 SAR 数据集上微调之间存在着巨大的差异。为了弥合这些差距,我们提出了一种新颖的多阶段滤波增强 (MSFA) 预训练框架,该框架从数据输入、域迁移和模型迁移的角度解决了这些问题。提出的 MSFA 方法显着提高了 SAR 目标检测模型的性能,同时在各种模型中展示了卓越的泛化能力和灵活性。这项工作旨在为 SAR 目标检测的进一步发展铺平道路。数据集和代码可在 https://github.com/zcablii/SARDet_100K 获取。
随着 Segment Anything Model (SAM) 的提出,微调 SAM 用于医学图像分割 (MIS) 变得流行。然而,由于 SAM 模型的庞大规模以及自然图像和医学图像之间巨大的领域差异,基于微调的策略成本高昂,并存在不稳定、特征损坏和灾难性遗忘的风险。此外,一些通过微调策略将 SAM 转移到特定领域 MIS 的方法会禁用模型的提示能力,严重限制了其使用场景。在本文中,我们提出了一种自动提示模块 (APM),它为基于 SAM 的基础模型提供了目标域中的欧几里得自适应提示。我们的实验表明,这种自适应提示显著提高了 SAM 在 MIS 中的非微调性能。此外,我们提出了一种名为增量模式迁移 (IPS) 的新型非侵入式方法,以使 SAM 适应特定的医学领域。实验结果表明,IPS 使 SAM 能够在 MIS 中实现最先进或具有竞争力的性能,而无需微调。通过将这两种方法结合起来,我们提出了 ProMISe,一个用于可提示医学图像分割的端到端非微调框架。我们的实验表明,无论是单独使用我们的方法还是组合使用,都可以在低成本模式迁移中实现令人满意的性能,并且 SAM 的所有参数都保持冻结状态。
大型语言模型 (LLM) 彻底改变了人工智能的角色,但也带来了潜在的社会风险。为了引导 LLM 符合人类偏好,人们引入了对齐技术,并获得了越来越多的关注。然而,现有方法严重依赖高质量的正负训练对,而噪声正响应与负响应几乎无法区分。鉴于最近的 LLM 在生成有帮助的响应方面表现出色,这项工作转向一个新的研究问题:我们能否仅使用人类标注的负样本实现对齐,在减少有害性的同时保留有益性?为此,我们提出了分布式不喜欢优化 (D$^2$O),它最大限度地提高了不喜欢响应与生成的非负响应之间的差异。通过这种方式,D$^2$O 有效地避开了有害信息,而无需整合噪声正样本,同时使用自生成响应作为锚点来避免崩溃。我们证明了 D$^2$O 可以被视为学习反映人类不喜欢负响应的分布式偏好模型,从理论上讲,它是实例级 DPO 的上限。大量的实验表明,我们的方法在生成质量方面具有可比性,并且在生成更少有害和更具信息性的响应方面超越了最新的强大基线,并具有更好的训练稳定性和更快的收敛速度。