大型多模态模型 (LMM) 在医疗视觉问答 (Med-VQA) 中取得了显著进展,在现有基准测试中取得了高精度。然而,它们在稳健评估下的可靠性值得怀疑。本研究表明,当进行简单的探测评估时,最先进的模型在医疗诊断问题上的表现比随机猜测更差。为了解决这一关键的评估问题,我们引入了医疗诊断探测评估 (ProbMed) 数据集,以通过探测评估和程序诊断来严格评估 LMM 在医学影像中的性能。特别地,探测评估的特点是将原始问题与具有幻觉属性的否定问题配对,而程序诊断需要对每个图像的各种诊断维度进行推理,包括模态识别、器官识别、临床发现、异常和位置定位。我们的评估表明,像 GPT-4o、GPT-4V 和 Gemini Pro 这样的顶级模型在专业诊断问题上的表现比随机猜测更差,表明它们在处理细粒度医疗查询方面存在重大局限性。此外,像 LLaVA-Med 这样的模型甚至在更一般的问题上也难以应对,而 CheXagent 的结果表明专业知识在同一器官的不同模态之间的可迁移性,表明专业领域知识对于提高性能仍然至关重要。本研究强调了迫切需要更稳健的评估,以确保 LMM 在医疗诊断等关键领域的可靠性,而目前的 LMM 距离应用于这些领域还很遥远。
基于大型语言模型的智能体在利用其丰富的背景知识和推理能力加速科学发现方面展现出巨大潜力。本文介绍了 BioDiscoveryAgent,它能够设计新的实验、推理实验结果,并高效地遍历假设空间以达到期望的解决方案。我们通过设计基因扰动实验的问题来展示我们的智能体,该问题旨在找到许多可能基因中的一小部分,当这些基因被扰动时,会导致特定的表型(例如,细胞生长)。利用其生物学知识,BioDiscoveryAgent 能够独特地设计新的实验,而无需训练机器学习模型或像贝叶斯优化那样显式地设计获取函数。此外,BioDiscoveryAgent 使用 Claude 3.5 Sonnet 在六个数据集上预测相关基因扰动的平均准确率提高了 21%,在更难的非必需基因扰动任务中提高了 46%,相比专门为此任务训练的现有贝叶斯优化基线。我们的评估包括一个未公开的数据集,确保它不属于语言模型的训练数据。此外,BioDiscoveryAgent 预测基因组合的扰动准确率是随机基线的两倍以上,这在闭环实验设计中尚未探索。该智能体还可以访问工具来搜索生物医学文献、执行代码来分析生物数据集,并提示另一个智能体对其预测进行批判性评估。总的来说,BioDiscoveryAgent 在每个阶段都是可解释的,代表了一种新的可访问范式,用于计算生物实验设计,有可能提高科学家的效率。
深度预训练模型的微调揭示了组合特性,其中多个专门的模块可以任意组合成一个单一的、多任务模型。然而,确定促进组合性的条件仍然是一个开放问题,最近的努力主要集中在线性化网络上。我们进行了一项理论研究,试图通过损失函数的二阶泰勒近似来揭示标准非线性网络中的组合性。提出的公式强调了保持在预训练盆地内的重要性,以实现可组合模块。此外,它为两种对偶增量训练算法提供了基础:一种从单独训练多个模型的角度出发,另一种旨在整体优化组合模型。我们探究了它们在增量分类任务中的应用,并强调了一些有价值的技能。事实上,增量学习的模块池不仅支持创建有效的多任务模型,而且还能够在某些任务中进行遗忘和专门化。
大型语言模型正在彻底改变多个领域,包括人工智能创造力。然而,机器中的生成过程与人类观察到的过程有着本质上的区别。特别是,机器生成的特点是缺乏意图性和潜在的创造性过程。我们提出了一种名为“创意束搜索”的方法,该方法利用“多样性束搜索”和“LLM 作为评判者”来执行响应生成和响应验证。定性实验的结果表明,我们的方法可以提供比标准采样技术更好的输出。我们还表明,响应验证步骤是对响应生成步骤的必要补充。
本文探讨了可预测性问题,即代理必须选择其策略以优化外部观察者可以做出的预测。我们考虑了环境动力学和观察到的代理策略的不确定性来解决这些问题。为此,我们假设观察者 1. 试图在每个时间步预测代理的未来行动或状态,以及 2. 使用从已知底层问题计算出的随机策略对代理进行建模,并且我们利用了观察者感知马尔可夫决策过程 (OAMDP) 的框架。我们通过基于观察者对代理策略的信念的奖励函数提出了行动和状态可预测性性能标准;证明这些诱导的可预测 OAMDP 可以用目标导向或折扣 MDP 表示;并从理论和经验上分析了两种类型的网格世界问题中提出的奖励函数的特性。
我们证明了领域通用自动评估器可以显著提高网页导航和设备控制代理的性能。我们实验了多种评估模型,在推理成本、设计模块化和准确性之间进行了权衡。我们在几个流行的数字代理基准测试中验证了这些模型的性能,发现与预言评估指标的吻合度在 74.4% 到 92.9% 之间。最后,我们使用这些评估器通过微调和推理时间引导来提高现有代理的性能。在没有任何额外监督的情况下,我们在流行的 WebArena 基准测试中将最先进的性能提高了 29%,并在设备控制设置中取得了约 75% 的相对改进。
大型语言模型在许多自然语言处理任务中已经取代了传统方法。然而,在命名实体识别(NER)中,现有的基于大型语言模型的方法...
大型语言模型(LLMs)被视为超越人类能力的智能体,因此,它们必须具备强大的知识理解能力。然而,现有的基准研究并未对 LLMs 的知识理解能力提供一致、可推广和正式的保证。在本研究中,我们提出了第一个框架,以正式的概率保证对 LLMs 的知识理解能力进行认证。我们的证书是量化的——它们包含对目标 LLM 在从分布中采样的任何知识理解提示上给出正确答案的概率的高置信度、严格界限。我们设计并认证了新颖的规范,这些规范利用知识图精确地表示知识理解提示的分布。我们对 Wikidata5m 知识图上的规范认证了最先进的 LLMs。我们发现,随着模型规模的扩大,知识理解能力显著提高。
城市知识图谱近年来作为一种新兴的基础设施,从多源城市数据中提取关键知识,为各种城市应用场景提供支持。尽管城市知识图谱具有广阔的前景,但其构建(UrbanKGC)仍然严重依赖人工,阻碍了其潜在的进步。本文提出了 UrbanKGent,一个用于城市知识图谱构建的统一大型语言模型代理框架。具体来说,我们首先通过异构感知和地理空间融合指令生成,构建了针对 UrbanKGC 任务(例如关系三元组提取和知识图谱补全)的知识型指令集。此外,我们提出了一种工具增强迭代轨迹细化模块,以增强和细化从 GPT-4 中提取的轨迹。通过在 Llama 2 和 Llama 3 系列上使用增强轨迹进行混合指令微调,我们获得了 UrbanKGC 代理家族,包括 UrbanKGent-7/8/13B 版本。我们使用人工评估和 GPT-4 自我评估对两个真实世界数据集进行了全面评估。实验结果表明,UrbanKGent 家族不仅在 UrbanKGC 任务中显著优于 31 个基线,而且在成本低约 20 倍的情况下,比最先进的 LLM GPT-4 提高了 10% 以上。与现有基准相比,UrbanKGent 家族可以使用五分之一的数据构建一个关系丰富数百倍的城市知识图谱。我们的数据和代码可在 https://github.com/usail-hkust/UrbanKGent 获取。
将大型语言模型 (LLM) 与人类偏好相一致被认为是提高 LLM 交互质量的关键。然而,在这个多元化的世界中,由于标注者不同的品味,人类的偏好可能会有所不同,这阻碍了 LLM 对齐方法的有效性。本文首次对奖励模型的实验扩展定律进行了定量分析,该定律的奖励模型大小从 13 亿到 70 亿个参数不等,并使用表现出不同偏好的用户反馈进行训练。我们的分析表明,多样化的人类偏好的影响取决于模型大小和数据大小。具有足够容量的更大模型可以减轻多样化偏好的负面影响,而较小的模型则难以适应它们。为了减轻多样化偏好的影响,我们引入了一个新的指标,预期校准误差 (ECE),来评估 RM 并展示它们与 LLM 对齐性能的明显正相关性。此外,我们提出了一种多目标奖励学习方法 (MORE) 来提高 RM 在共享偏好上的校准性能。通过对四种模型和五个用户偏好数据集的实验,我们发现校准误差可以作为评估 RM 的关键指标,并且 MORE 可以获得优异的对齐性能。