近年来,研究人员致力于构建用于开放世界环境(如 Minecraft)的通用代理。尽管取得了令人鼓舞的结果,但现有工作主要集中在解决基本程序性任务上,例如按照 Minecraft 技术树收集材料和制作工具,将获取钻石任务视为最终目标。这种局限性源于代理可用的行动范围狭窄,要求它们从头开始学习有效的长范围策略。因此,在开放世界中发现各种游戏机会变得具有挑战性。在这项工作中,我们介绍了 Odyssey,这是一个新的框架,它赋予基于大型语言模型 (LLM) 的代理开放世界技能,以探索广阔的 Minecraft 世界。Odyssey 包含三个关键部分:(1)具有开放世界技能库的交互式代理,该库包含 40 种原始技能和 183 种组合技能。(2)一个经过微调的 LLaMA-3 模型,在来自 Minecraft Wiki 的 390k+ 指令条目的大型问答数据集上进行训练。(3)一个新的代理能力基准,包括长期规划任务、动态即时规划任务和自主探索任务。大量实验表明,提出的 Odyssey 框架可以有效地评估基于 LLM 的代理的不同能力。所有数据集、模型权重和代码均公开可用,以激励未来对更先进的自主代理解决方案的研究。
X 光影像在医疗诊断中至关重要,但如果没有临床背景,其有效性将受到限制。放射科医生经常发现胸部 X 光片不足以诊断潜在疾病,需要综合的临床特征和数据整合。我们提出了一种新颖的框架,通过使用临床表格数据的增强技术来增强临床背景,从而提高其在人工智能医疗诊断中的适用性和可靠性。我们引入了一种开创性的临床数据增强方法,该方法利用大型语言模型生成患者上下文合成数据。这种方法对于在医疗保健领域训练更强大的深度学习模型至关重要。它保留了真实患者数据的完整性,同时用上下文相关的合成特征丰富数据集,显著提高模型性能。我们的方法称为 DALL-M,使用三阶段特征生成过程:(i)临床上下文存储,(ii)专家查询生成,以及(iii)上下文感知特征增强。DALL-M 通过合成胸部 X 光影像和报告来生成新的、与临床相关的特征。应用于使用 MIMIC-IV 数据集中的九个特征的 799 个病例,它创建了一个包含 91 个特征的增强集。这是首个为患者 X 光报告生成上下文值的工作。具体来说,我们提供(i)大型语言模型生成现有临床特征的上下文合成值的能力,以及(ii)它们创建完全新的临床相关特征的能力。机器学习模型的实证验证显示出显著的性能提升。结合增强特征使 F1 分数提高了 16.5%,精确度和召回率提高了约 25%。DALL-M 解决了临床数据增强中的一个关键差距,为生成上下文丰富的 dataset 提供了一个强大的框架。
近年来,多模态基础模型(MFMs)和具身人工智能(EAI)以史无前例的速度并肩发展。两者的整合引起了人工智能研究界的极大关注。在这项工作中,我们试图对 MFM 在具身任务规划中的性能进行深入和全面的评估,旨在阐明它们在该领域的能力和局限性。为此,基于具身任务规划的特点,我们首先开发了一个系统的评估框架,该框架囊括了 MFM 的四个关键能力:物体理解、时空感知、任务理解和具身推理。在此基础上,我们提出了一个名为 MFE-ETP 的新基准,其特点是复杂多变的任务场景、典型且多样的任务类型、难度各异的任务实例以及丰富的测试用例类型,从多重具身问答到具身任务推理。最后,我们提供了一个简单易用的自动评估平台,该平台能够在所提出的基准上自动测试多个 MFM。利用该基准和评估平台,我们评估了几个最先进的 MFM,发现它们远远落后于人类水平的性能。MFE-ETP 是一个高质量、大规模且具有挑战性的基准,与现实世界任务相关。
组合优化对于许多现实世界应用至关重要,但由于其 (NP-) 难解的性质,仍然存在挑战。在现有方法中,启发式方法通常在质量和可扩展性之间提供了最佳折衷方案,使其适合工业应用。虽然强化学习 (RL) 为设计启发式方法提供了一个灵活的框架,但它在工业求解器中对手工启发式方法的采用仍然不完整。现有的学习方法仍然缺乏适应特定实例和充分利用可用计算预算的能力。目前最好的方法要么依赖于一组预先训练的策略,要么依赖于数据效率低的微调;因此未能充分利用预算约束内新获得的信息。为了应对这一挑战,我们提出了 MEMENTO,一种利用记忆来改进神经求解器在推理时的适应能力的方法。MEMENTO 能够根据先前决策的结果动态更新动作分布。我们在基准问题(特别是旅行推销员和带容量的车辆路径)上验证了其有效性,证明了它优于树搜索和策略梯度微调;并表明它可以与基于多样性的求解器零样本组合。我们成功地在大规模实例上训练了所有 RL 自回归求解器,并表明 MEMENTO 可以扩展且数据效率高。总体而言,MEMENTO 能够在 12 个评估任务中的 11 个任务上推动最先进水平。
大型语言模型 (LLMs) 在生成任务中的卓越表现使从业者能够利用公开可用的模型来为定制应用程序(如聊天机器人和虚拟助手)提供动力。然而,用于训练或微调这些 LLMs 的数据通常未公开,这使得攻击者能够破坏数据并在模型中植入后门。在本文中,我们开发了一种名为 CLEANGEN 的新型推理时间防御,以减轻针对 LLMs 生成任务的后门攻击。CLEANGEN 是一种轻量级且有效的解码策略,与最先进 (SOTA) 的 LLMs 兼容。我们对 CLEANGEN 的洞察是,与其他 LLMs 相比,后门 LLMs 会为代表攻击者所需内容的标记分配明显更高的概率。标记概率中的这些差异使 CLEANGEN 能够识别攻击者偏爱的可疑标记,并将它们替换为由另一个不受相同攻击者攻击的 LLM 生成的标记,从而避免生成攻击者所需的内容。我们评估了 CLEANGEN 对五种 SOTA 后门攻击的有效性。我们的结果表明,与五种 SOTA 基线防御相比,CLEANGEN 在所有五种后门攻击中都实现了更低的攻击成功率 (ASR)。此外,部署 CLEANGEN 的 LLMs 在处理良性用户查询时,其响应仍然很有用,并且计算开销很小。
社会科学研究表明,具有特定种族或性别暗示的名字的候选人往往在就业实践中面临歧视。类似地,大型语言模型 (LLM) 在各种应用中表现出种族和性别偏见。在本研究中,我们利用 GPT-3.5-Turbo 和 Llama 3-70B-Instruct 来模拟对 320 个强烈表明其种族和性别的名字的候选人的招聘决定和薪资建议,涵盖超过 750,000 个提示。我们的实证结果表明,这些模型倾向于在 40 个职业中雇用具有白人女性名字的候选人,而不是其他人口群体。此外,即使在资格相同的候选人中,薪资建议在不同亚组之间也可能相差 5%。与现实世界劳动力数据的比较揭示了与美国劳动力市场特征的不一致性,突出了对 LLM 驱动的系统进行风险调查的必要性。
大型语言模型(LLM)已展现出模拟人类社会智能的潜力。然而,大多数研究都集中在简单且静态的自述或基于表现的测试上,这限制了分析的深度和有效性。本文开发了一个新的框架,InterIntent,通过映射 LLM 在游戏环境中理解和管理意图的能力来评估其社会智能。我们关注社会智能的四个维度:情境意识、自我调节、自我意识和心智理论。每个维度都与一项特定的游戏任务相关联:意图选择、意图遵循、意图总结和意图猜测。我们的研究结果表明,虽然 LLM 在选择意图方面表现出很高的熟练程度,准确率达到 88%,但它们推断他人意图的能力明显较弱,落后于人类表现 20%。此外,游戏表现与意图理解相关,突出了这四个组成部分对于在该游戏中取得成功的意义。这些发现强调了意图理解在评估 LLM 的社会智能中的关键作用,并突出了使用社会推理游戏作为复杂测试平台来增强 LLM 评估的潜力。InterIntent 为在多人游戏中弥合社会智能评估差距提供了一种结构化方法。
语言模型 (LM) 正在被用于心理健康应用,但由于这些应用中存在较高的不良后果风险,因此预测性能可能不足以作为模型在临床实践中实用性的试金石。一个可信赖的模型应该在解释和临床判断之间保持一致,但之前没有研究考察过这些模型的注意力保真度及其对真实解释的影响。我们提出了一种评估设计,重点关注 LM 在识别健康维度 (WD) 方面的稳健性和可解释性。我们关注两个现有的心理健康和福祉数据集:(a) 基于多标签分类的多 WD,以及 (b) WellXplain,用于评估注意力机制的真实性与专家标记的解释。这些标签基于 Halbert Dunn 的健康理论,为我们的评估提供了依据。我们揭示了关于 LM/LLM 的四个令人惊讶的结果:(1) 尽管它们具有类似人类的能力,GPT-3.5/4 落后于 RoBERTa,而 MedAlpaca(一个在 WellXplain 上微调的 LLM)未能带来性能或解释方面的任何显著改进。(2) 基于置信度导向的损失函数重新检验 LM 的预测结果表明性能显著下降。(3) 在所有 LM/LLM 中,注意力与解释之间的对齐度仍然很低,LLM 的得分低至 0.0。(4) 大多数心理健康专用 LM/LLM 忽略了领域特定知识,低估了解释,导致这些差异。这项研究强调需要进一步研究 LM/LLM 在心理健康和福祉方面的一致性和解释性。
知识图谱补全(KGC)旨在预测知识图谱(KG)中缺失的事实。近年来,人们越来越关注设计能够在*归纳设置*中表现优异的 KGC 方法,在该设置中,推理中观察到的部分或全部实体和关系在训练期间未被观察到。许多基准数据集已被提出用于归纳 KGC,它们都是用于转导 KGC 的现有 KG 的子集。然而,我们发现构建归纳 KGC 数据集的当前程序无意中创建了一个捷径,即使忽略关系信息也可以被利用。具体来说,我们观察到个性化 PageRank(PPR)得分可以在大多数归纳数据集上实现强劲或接近最优的性能。在本文中,我们研究了这个问题的根本原因。利用这些见解,我们提出了一种构建归纳 KGC 数据集的替代策略,有助于缓解 PPR 捷径问题。然后,我们使用新构建的数据集对多种流行方法进行了基准测试,并分析了它们的性能。通过消除任何模糊性能的捷径,新的基准数据集有助于更好地了解归纳 KGC 的能力和挑战。
大型语言模型 (LLMs) 在各种任务中展现出非凡的能力,近年来将 LLMs 的能力整合到物联网 (IoT) 应用中引起了广泛的研究关注。由于安全问题,许多机构避免访问最先进的商业 LLM 服务,需要在本地网络环境中部署和使用开源 LLM。然而,开源 LLM 通常在性能方面存在更多限制,例如它们的算术计算和推理能力,并且将 LLM 应用于物联网的实际系统尚未得到充分探索。因此,在本研究中,我们提出了一种在本地网络环境中部署的基于 LLM 的生成式物联网 (GIoT) 系统。为了缓解 LLM 的局限性并提供具有竞争力的性能的服务,我们应用提示工程方法来增强开源 LLM 的能力,设计了一个提示管理模块和一个后处理模块来管理针对不同任务的定制提示并处理 LLM 生成的结果。为了证明所提议系统的有效性,我们将一个具有挑战性的表格问答 (Table-QA) 任务作为所提议系统的案例研究,因为表格数据通常比纯文本更具挑战性,因为它们具有复杂的结构、异构数据类型,有时还具有巨大的规模。我们在两个流行的 Table-QA 数据集上进行了全面的实验,结果表明,我们的提议可以实现与最先进的 LLM 相当的性能,证明了所提出的基于 LLM 的 GIoT 系统可以通过定制的提示方法提供具有竞争力的性能,并且可以轻松扩展到新的任务而无需训练。