为了解决大型语言模型(LLMs)中知识不足和幻觉问题,许多研究探索了将 LLMs 与知识图谱(KGs)相结合。然而,这些方法通常在传统的知识图谱问答(KGQA)中进行评估,其中用于每个问题的全部事实三元组都被给定的 KG 完全覆盖。在这种情况下,LLMs 主要充当一个在 KG 中寻找答案实体的代理,而不是有效地整合 LLMs 的内部知识和外部知识来源,如 KGs。事实上,KGs 通常是不完整的,无法涵盖回答问题所需的所有知识。为了模拟这些现实世界场景并评估 LLMs 整合内部和外部知识的能力,我们建议利用 LLMs 进行不完整知识图谱问答(IKGQA),其中提供的 KG 缺少每个问题的一些事实三元组,并构建相应的数据集。为了处理 IKGQA,我们提出了一种无训练方法,称为图生成(GoG),它可以在探索 KGs 时生成新的事实三元组。具体来说,GoG 通过一个思考-搜索-生成框架进行推理,该框架将 LLM 视为 IKGQA 中的代理和 KG。在两个数据集上的实验结果表明,我们的 GoG 优于所有以前的方法。
近年来,生成式人工智能(AI)领域的进步模糊了真实内容和机器生成内容之间的界限,使人类几乎无法区分这类媒体。一个显著的后果是,AI 生成的图像被用于社交媒体上的虚假个人资料。虽然过去曾报道过多种类型的虚假信息活动和类似事件,但一直缺乏系统性的分析。在这项工作中,我们对 Twitter 上 AI 生成的个人资料图片的流行程度进行了首次大规模调查。我们通过仔细整合各种数据源和设计多阶段检测管道,解决了现实世界测量研究的挑战。我们对近 1500 万个 Twitter 个人资料图片的分析表明,0.052% 是人工生成的,证实了它们在该平台上的显著存在。我们全面考察了这些账号的特征及其推文内容,并揭示了协调性不真实行为的模式。结果还揭示了多种动机,包括垃圾邮件发送和政治放大活动。我们的研究再次强调了需要有效的检测和缓解策略,以应对生成式 AI 在未来可能产生的负面影响。
有效编辑个人内容对于个人表达创造力、在视觉故事中编织引人入胜的叙述以及提升视觉内容的整体质量和影响力起着至关重要的作用。因此,在这项工作中,我们介绍了 SwapAnything,一个新颖的框架,它可以根据参考内容用个性化的概念替换图像中的任何物体,同时保持上下文不变。与现有的个性化主题交换方法相比,SwapAnything 具有三个独特的优势:(1) 对任意物体和部分而不是主要主题的精确控制,(2) 更忠实地保留上下文像素,(3) 将个性化概念更好地适应图像。首先,我们提出了目标变量交换,以对潜在特征图应用区域控制,并交换掩蔽变量以实现忠实上下文保留和初始语义概念交换。然后,我们在图像生成过程中引入了外观适应,以在目标位置、形状、风格和内容方面将语义概念无缝地适应到原始图像中。对人类和自动评估的广泛结果表明,我们的方法在个性化交换方面比基线方法有了显着改进。此外,SwapAnything 在单一对象、多个对象、部分对象和跨域交换任务中展示了其精确而忠实的交换能力。SwapAnything 还实现了基于文本的交换和超越交换的任务(例如对象插入)的出色性能。
随着大型语言模型(LLM)的广泛采用,这些模型之间迭代交互的普遍性预计会增加。值得注意的是,多轮自我改进方法的最新进展允许 LLM 为训练后续模型生成新的示例。同时,涉及代理之间自动交互的多代理 LLM 系统也越来越突出。因此,从短期和长期来看,LLM 可能积极参与演化过程。我们将 LLM 的行为与人类文化的演化进行对比,后者已被认知科学家研究了几十年。我们的方法涉及利用迭代学习 (IL),这是一个贝叶斯框架,阐明了微妙的偏差如何在人类文化演化过程中被放大,以解释 LLM 的一些行为。本文概述了代理在贝叶斯-IL 框架中的行为的关键特征,包括通过对各种 LLM 的实验验证所支持的预测。该理论框架可以帮助更有效地预测和引导 LLM 向预期方向发展。
写作中的所有权意识限制了我们对思想、时间和贡献的投入,导致我们对产出产生依恋。然而,使用写作助手会带来一个心理困境,因为一些内容并非我们直接创作。例如,我们往往在创意任务中更多地将功劳归于大型语言模型(LLMs),尽管对它们来说所有任务都是平等的。此外,虽然我们可能不会声称对 LLM 生成的内容拥有完全的所有权,但我们却可以自由地宣称其作者身份。我们进行了一项简短的调查,以研究这些问题,并了解潜在的认知过程,以便更好地了解人机交互在写作中的作用,并改进写作辅助系统。
个性化和独特性是每个作家独一无二的显著特征,它们影响着作家的文字,以便在传递真实性的同时有效地吸引读者。然而,我们对基于大型语言模型(LLM)的写作助手越来越依赖,这有可能随着时间的推移损害我们的创造力和个性。尽管可能存在后果,但我们往往忽略了这种趋势对我们的创造力和独特性带来的负面影响。本研究通过进行简短的调查来探讨不同的观点和概念,并试图理解人们的观点,同时参考该领域的先前研究,来调查这些问题。解决这些问题对于改进人机交互系统和增强写作助手的个性化和独特性至关重要。
我们提出了 RiEMann,一个端到端的近实时 SE(3) 等变机器人操作模仿学习框架,该框架从场景点云输入中进行学习。与依赖于描述符场匹配的先前方法相比,RiEMann 直接预测用于操作的目标物体姿态,无需任何物体分割。RiEMann 从零开始学习一项操作任务,仅需 5 到 10 次演示,可以泛化到未曾见过的 SE(3) 变换和目标物体的实例,抵御干扰物体的视觉干扰,并跟踪目标物体的近实时姿态变化。RiEMann 可扩展的动作空间便于添加自定义等变动作,例如旋转水龙头方向,这使得 RiEMann 可以进行关节物体操作。在模拟和真实世界 6 自由度机器人操作实验中,我们在 5 类操作任务(总共 25 种变体)上测试了 RiEMann,结果表明 RiEMann 在任务成功率和预测姿态的 SE(3) 测地距离误差方面均优于基线(减少了 68.6%),并且实现了 5.4 帧每秒 (FPS) 的网络推理速度。代码和视频结果可在 https://riemann-web.github.io/ 上获得。
自动驾驶汽车 (AVs) 的进步和车联网 (V2X) 通信的成熟汇聚,使合作式联网自动驾驶汽车 (CAVs) 成为可能。本文基于合作感知,探讨了合作运动预测的可行性和有效性。我们的方法 CMP 以激光雷达信号作为模型输入,以增强跟踪和预测能力。与之前专注于合作感知或运动预测的单独研究不同,据我们所知,我们的框架是第一个解决 CAVs 在感知和预测模块中共享信息的统一问题的框架。我们的设计独特地能够容忍现实的 V2X 带宽限制和传输延迟,同时处理庞大的感知表示。我们还提出了一种预测聚合模块,该模块统一了不同 CAVs 获得的预测,并生成最终预测。通过对 OPV2V 和 V2V4Real 数据集进行广泛的实验和消融研究,我们证明了我们的方法在合作感知、跟踪和运动预测方面的有效性。特别是,与无合作设置相比,CMP 将平均预测误差降低了 16.4%,同时检测丢失的数量更少,与最强的基线相比,降低了 12.3%。我们的工作标志着 CAVs 合作能力的重大进步,展示了在复杂场景中增强的性能。代码可在项目网站上找到:https://cmp-cooperative-prediction.github.io/。
在现实世界环境中,机器人物体操控面临着巨大挑战,因为机器人操作必须对各种感知、估计和执行的不确定性具有鲁棒性,以避免可能发生的危险和代价高昂的错误,而这些错误阻碍了机器人的应用。在本文中,我们提出了一种基于物理信息因果贝叶斯网络 (CBN) 的灵活且可推广的框架,用于机器人对候选操控动作进行概率推理,从而使机器人决策在任意机器人系统不确定性下具有鲁棒性——这是第一个使用概率编程语言实现的框架。通过在高保真 Gazebo 模拟中进行的示例积木堆叠任务实验,我们证明了该框架能够:(1) 以高精度预测操控结果(预测准确率:88.6%);以及 (2) 以 94.2% 的任务成功率执行贪婪的最佳下一步动作选择。我们还证明了该框架适用于带有家用机器人的现实世界机器人系统。因此,我们表明,通过将概率因果建模与物理模拟相结合,我们可以使机器人操控对系统不确定性更加鲁棒,从而更适合现实世界应用。此外,我们提出的通用推理框架可以用于未来的机器人学和因果关系研究,并可以扩展到这些领域。
生成式人工智能(GAI)为研究和创新提供了众多机遇,但其商业化引发了人们对透明度、可重复性和安全性的担忧。大多数开放的 GAI 模型缺乏充分理解、审计和可重复性所需的组件,一些模型使用限制性许可证,同时声称自己是“开源”的。为了解决这些问题,我们引入了模型开放框架(MOF),这是一个分级分类系统,根据机器学习模型的完整性和开放性对模型进行评级,遵循开放科学的原则,以及模型开放工具(MOT),它提供了一个参考实现,旨在根据 MOF 提出的原则评估机器学习模型。MOF 要求模型开发生命周期的特定组件被包含并以适当的开放许可证发布。该框架旨在防止对声称开放的模型进行错误表示,指导研究人员和开发人员以宽松的许可证提供所有模型组件,并帮助个人和组织识别可以安全采用的模型。通过促进透明度和可重复性,MOF 抵制了开放洗白,并将完整性和开放性确立为负责任的人工智能研究和开发的核心原则。MOF 的广泛采用将促进更开放的人工智能生态系统,有利于研究、创新和最先进模型的采用。