多模态大型语言模型在整合视觉和文本信息方面取得了重大进展,但它们往往难以有效地对齐这些模态。我们提出了一种新颖的图像标记器,它通过将字节对编码 (BPE) 原则应用于视觉数据来弥合这一差距。与依赖于单独视觉编码器的传统方法不同,我们的方法将结构先验信息直接整合到图像标记中,这反映了仅文本大型语言模型中使用的成功标记策略。这种创新方法使 Transformer 模型能够更有效地跨模态学习和推理。通过理论分析和大量实验,我们证明了我们的 BPE 图像标记器显着增强了 MLLM 的多模态理解能力,即使训练数据有限。我们的方法不仅提高了各种基准测试的性能,而且还显示出可观的可扩展性,有可能为更有效和强大的多模态基础模型铺平道路。
模拟学习者的行为有助于对开放式交互式学习环境进行压力测试,并在部署之前对新的适应性进行原型设计。虽然最近的研究表明使用大型语言模型 (LLM) 模拟人类行为的潜力,但由于关键的局限性,此类方法尚未超越基本的概念验证阶段。首先,LLM 对微小的提示变化高度敏感,这让人怀疑它们在没有广泛的提示工程的情况下能否推广到新场景。此外,看似成功的结果往往不可靠,要么是因为领域专家无意中引导 LLM 产生预期结果,导致自我实现的预言;要么是因为 LLM 在其训练数据中遇到了高度相似的场景,这意味着模型可能不是在模拟行为,而是再现记忆的内容。为了应对这些挑战,我们提出了 Hyp-Mix,这是一种模拟创作框架,允许专家通过结合关于学习者行为的可测试假设来开发和评估模拟。在物理学习环境中测试这个框架,我们发现 GPT-4 Turbo 即使在底层学习者模型发生变化的情况下也保持了校准的行为,这提供了第一个证据,证明 LLM 可以用来模拟开放式交互式学习环境中的现实行为,这是 LLM 行为模拟有用的必要先决条件。
我们在与物体交互时,经常会遇到它们外观发生变化的情况。照明(阴影)、物体姿态或非刚性物体运动的变化会极大地改变可用的图像特征。生物视觉系统如何跟踪外观变化的物体?这可能涉及特定的注意机制,用于独立于物体外观来推断物体的位置——这一能力在突出的神经科学理论中与通过神经同步进行计算有关。我们从计算角度检验了这样一个假设:通过神经同步实现视觉注意是生物视觉系统跟踪外观随时间变化的物体能力的基础。我们首先引入了一种新颖的深度学习电路,它可以通过神经同步学习精确控制对特征的注意,而与它们在世界中的位置无关:复值循环神经网络(CV-RNN)。接下来,我们使用 FeatureTracker 对人类、CV-RNN 和其他深度神经网络 (DNN) 的物体跟踪进行了比较:一项大型挑战,要求观察者在物体位置和外观以精确控制的方式发生变化的情况下跟踪物体。虽然人类毫不费力地解决了 FeatureTracker,但最先进的 DNN 却没有。相比之下,我们的 CV-RNN 在挑战中表现得与人类相似,为相位同步作为跟踪外观变化物体运动的神经基础的作用提供了计算上的概念验证。
大型语言模型(LLMs)在医疗保健领域取得了显著进展。然而,在特定领域的临床实践中,LLMs 的专业性仍存在重大差距,限制了其在现实世界诊断中的应用。在这项工作中,我们介绍了 ZODIAC,一个由 LLM 提供支持的框架,具有心脏病专家级别的专业性,旨在让 LLMs 参与心脏病学诊断。ZODIAC 通过从患者数据中提取与临床相关的特征,检测重大心律失常,并生成初步报告供心脏病专家审查和完善,从而协助心脏病专家。为了达到心脏病专家级别的专业性,ZODIAC 建立在多代理协作框架之上,能够跨多种模式处理患者数据。每个 LLM 代理都使用由心脏病专家审定的真实患者数据进行微调,从而加强模型的专业性。ZODIAC 经过独立心脏病专家的严格临床验证,在八个指标上进行评估,这些指标衡量临床效果并解决安全问题。结果表明,ZODIAC 优于行业领先的模型,包括 OpenAI 的 GPT-4o、Meta 的 Llama-3.1-405B 和 Google 的 Gemini-pro,以及微软的 BioGPT 等医疗专家 LLM。ZODIAC 通过提供满足医疗实践严格要求的特定领域解决方案,展示了专业化 LLM 在医疗保健领域的变革潜力。值得注意的是,ZODIAC 已成功集成到心电图 (ECG) 设备中,体现了将 LLM 嵌入医疗软件即服务 (SaMD) 的不断增长的趋势。
尽管取得了显著进步,大型语言模型 (LLM) 仍然存在盲点,这些盲点会损害其有效检索和处理相关上下文数据的的能力。我们证明,LLM 在超出“大海捞针”场景的复杂图任务中的性能——解决问题需要跨多个子问题进行交叉引用和推理——受相关信息在上下文中的距离影响,我们称之为“距离迷失”。我们研究了两个基本的图任务:识别两个节点之间的共同连接和评估三个节点之间的相似性,并表明模型在这些任务中的性能很大程度上取决于共同边的相对位置。我们评估了三个公开可用的 LLM——Llama-3-8B、Llama-3-70B 和 GPT-4——使用各种图编码技术,这些技术代表了 LLM 输入的图结构。我们提出了距离迷失现象的公式,并证明了距离迷失和中间迷失现象是独立发生的。结果表明,随着节点连接之间距离的增加,模型的准确性可能会下降高达 6 倍,这与图编码和模型大小无关。
强化学习 (RL) 中的一个基本挑战是将一个复杂的任务分解成对 RL 智能体更容易学习的子任务。本文报告了我们使用一些给定的正负轨迹来识别子任务的工作。我们假设状态由一阶谓词逻辑表示,并在此基础上设计了一种新算法来识别子任务。然后,我们使用大型语言模型 (LLM) 生成用于完成每个子任务的一阶逻辑规则模板。这些规则随后通过基于归纳逻辑编程 (ILP) 的 RL 智能体进一步微调为基于规则的策略。通过实验,我们验证了我们的算法在检测子任务方面的准确性,该算法成功地正确检测了所有子任务。我们还研究了语言模型生成的用于完成子任务的常识规则的质量。我们的实验表明,我们的 LLM 引导的规则模板生成可以生成解决子任务所必需的规则,从而在对环境的预定义一阶逻辑谓词做出较少假设的情况下解决复杂的任务。
机器人探索和学习的范围无上限,但所有这些知识都需要可搜索和可操作。在语言研究中,检索增强生成 (RAG) 已经成为大规模非参数知识的支柱,然而现有的技术不能直接转移到具身领域,该领域是多模态的,数据高度相关,感知需要抽象。
为了应对这些挑战,我们引入了具身-RAG,这是一个框架,它通过一个非参数记忆系统增强了具身智能体的基础模型,该系统能够自主构建用于导航和语言生成的层次化知识。具身-RAG 处理各种环境和查询类型中的各种空间和语义分辨率,无论是对特定对象的查询还是对环境整体描述的查询。具身-RAG 的记忆的核心是一个语义森林,它以不同级别的细节存储语言描述。这种层次化组织使系统能够高效地跨不同机器人平台生成上下文敏感的输出。我们证明了具身-RAG 有效地将 RAG 桥接到机器人领域,成功地处理了跨 19 个环境的 200 多个解释和导航查询,突出了其作为具身智能体通用非参数系统的潜力。
尽管大型语言模型 (LLMs) 在演绎推理和归纳推理方面得到了充分评估,但它们在交互环境中的溯因推理和整体规则学习能力仍有待探索。我们介绍了 RULEARN,一个专门设计用于评估 LLM 智能体在交互环境中规则学习能力的新基准。在 RULEARN 中,智能体策略性地与模拟环境交互,以收集观察结果,辨别模式并解决复杂问题。为了增强 LLM 智能体的规则学习能力,我们提出了 IDEA,一个集成了归纳、演绎和溯因过程的新推理框架。IDEA 智能体通过溯因从有限的观察结果中生成初始假设,通过演绎设计验证这些假设的计划或利用它们来解决问题,并通过归纳利用从新观察结果中识别的模式来改进先前的假设,动态地建立和应用模仿人类规则学习行为的规则。我们对 IDEA 框架的评估涉及五个代表性的 LLM,结果表明其性能明显优于基线。此外,在这个框架内,我们与 50 名人类参与者进行的比较揭示了规则学习行为的显著差异。LLM 智能体往往会生成合理的初始假设,但难以通过交互来改进它们。相反,人类尽管有时会忽略初始细节,但在整合反馈和不断改进他们的假设方面表现出色。我们相信我们的基准 RULEARN 将成为一个有价值且具有挑战性的资源,而 IDEA 框架将为开发能够在现实场景中进行类似人类规则学习的 LLM 智能体提供重要的见解。我们将在论文被接受后发布我们的代码和数据。
我们提出了首个针对 Kolmogorov-Arnold 网络(特别是针对 (高阶) ReLUKANs)的不确定性量化方法,旨在提高贝叶斯方法的计算效率。我们提出的方法具有通用性,可提供认知不确定性和偶然不确定性。它还能够推广到其他各种基函数。我们通过一系列闭包测试验证了该方法,包括简单的一维函数和对 (随机) 偏微分方程领域的应用。关于后者,我们证明了该方法能够正确识别通过包含随机项引入的函数依赖关系。支持这项工作的代码可在 https://github.com/wmdataphys/Bayesian-HR-KAN 找到。
基于自一致性的方法通过反复采样多个输出并选择最一致的输出作为最终响应,在提高大型语言模型的事实准确性方面表现出显著的有效性。然而,现有的方法通常对任务格式有严格的限制,很大程度上限制了它们的适用性。本文提出了一种集成解码 (ID) 方法,以释放自一致性在开放式生成任务中的潜力。ID 通过构建一组输入来运作,每个输入都以先前采样的响应为前缀,然后并行处理它们,在每个解码步骤中,通过聚合所有对应预测来选择下一个标记。本质上,这种简单的方法将自一致性隐式地纳入解码目标中。广泛的评估表明,ID 始终如一地提高了各种语言模型的事实性,在 TruthfulQA (+11.2%)、Biographies (+15.4%) 和 LongFact (+8.5%) 基准测试中取得了显著的改进。随着采样响应数量的增加,性能提升逐渐放大,表明 ID 随着重复采样而扩展的潜力。