大型语言模型(LLM)显著推动了智能体系统中的顺序推理,但现有方法仍存在局限性。基于反思的推理仅依赖于预训练模型中的知识,在新的场景中性能有限;而基于经验的推理通常依赖于外部经验,且缺乏选择代表性经验的明确原则。我们通过提出CoPS(跨任务经验共享)算法来解决这些局限性,该算法通过跨任务经验共享和选择来增强顺序推理。具体而言,CoPS利用智能体在先前任务上的经验,通过基于可证明悲观策略的选择与分布匹配的经验,从而最大化效用,同时最小化分布偏移带来的风险。在Alfworld、Webshop和HotPotQA等基准测试上的大量实验结果表明,CoPS始终优于最先进的基线,具有适用于资源受限场景的优越样本效率。从理论上讲,我们证明了该算法的性能取决于预训练LLM的质量以及智能体任务相关的试验分布与LLM生成的分布之间的匹配程度。我们的工作弥合了现有顺序推理范式之间的差距,并验证了利用跨任务经验的有效性,揭示了提高智能体在不同任务上的泛化能力和适应能力的潜力。我们的代码可在$\href{https://github.com/uclaml/COPS}{\text{https://github.com/uclaml/COPS}}$获取。
增强现实辅助技术在支持用户完成组装和烹饪等任务方面越来越受欢迎。然而,目前的实践通常提供由用户请求初始化的被动响应,缺乏对丰富的上下文和用户特定信息的考虑。为了解决这一限制,我们提出了一种新颖的增强现实辅助系统 Satori,它对用户状态和环境上下文进行建模以提供主动指导。我们的系统结合了信念-欲望-意图 (BDI) 模型和最先进的多模态大型语言模型 (LLM),以推断上下文相关的指导。该设计参考了两项涉及十二位专家的形成性研究。一项包含十六位受试者的组内研究发现,Satori 达到了与人工设计的奥兹魔法师 (WoZ) 系统相当的性能,而无需依赖手动配置或启发式方法,从而增强了通用性、可重用性,并为增强现实辅助技术开辟了新的可能性。
精确的眼科疾病诊断严重依赖于对多模态眼科图像的解读,这一过程通常耗时且依赖专业知识。视觉问答 (VQA) 通过融合计算机视觉和自然语言处理来理解和回答关于医学图像的查询,提供了一种潜在的跨学科解决方案。这篇综述文章从理论和实践角度探讨了 VQA 在眼科领域的最新进展和未来前景,旨在为眼科专业人员提供更深入的理解和利用底层模型的工具。此外,我们还讨论了大型语言模型 (LLM) 在增强 VQA 框架的各个组成部分以适应多模态眼科任务方面的可喜趋势。尽管前景光明,但眼科 VQA 仍然面临一些挑战,包括带注释的多模态图像数据集稀缺、需要全面统一的评估方法以及实现有效现实世界应用的障碍。本文重点介绍了这些挑战,并阐明了利用大型语言模型 (LLM) 推进眼科 VQA 的未来方向。基于 LLM 的眼科 VQA 系统的开发需要医学专业人员和人工智能专家共同努力,以克服现有障碍,推动眼科疾病的诊断和治疗。
随着文本生成式模型的日益普及以及机器生成文本在各个领域的广泛应用,区分人写文本和机器生成文本已成为一项重大挑战。虽然现有的模型和专有系统专注于识别给定文本是完全由人撰写还是完全由机器生成,但只有少数系统能够在句子或段落级别上提供关于机器生成可能性的见解,而且其准确性水平不可靠,仅适用于特定领域和生成器。本文针对一项新颖的任务提出了一些可靠的方法,即在字级别上识别给定文本的哪个部分是机器生成的,同时比较不同方法和模型的结果。我们对专有系统进行了比较,并评估了我们的模型在未见过领域和生成器文本上的性能。研究结果表明,检测精度得到了显著提高,同时也对检测能力的其他方面进行了比较。最后,我们讨论了改进的潜在途径以及我们工作的意义。所提出的模型也非常适合于检测许多大型语言模型(LLM)的指令变体输出中哪些部分是机器生成的。
本文首先表明,即使对于小型语言模型(10亿到70亿参数),增加 beam size 也会导致巨大的 GPU 资源消耗,从而导致基于 LLM 的自动程序修复 (APR) 中高达 80% 的内存溢出崩溃。看似简单的降低内存消耗的解决方案包括:(1) 量化 LLM 模型,即将 LLM 的权重从高精度值转换为低精度值;以及 (2) 将 beam search 设为顺序执行,即依次将每个 beam 通过模型,然后将它们连接回单个模型输出。然而,我们通过理论分析和实验表明,这些方法仍然无效。为了解决这个问题,我们引入了 FLAMES,这是一种新颖的基于 LLM 的 APR 技术,它采用语义引导的补丁生成来提高修复效率和内存效率。与依赖于 beam search 的传统方法不同,FLAMES 利用贪婪解码来提高内存效率,同时通过语义引导的最佳优先搜索算法将搜索引导到更有可能产生良好修复结果的候选方案。在每个解码步骤中,FLAMES 使用来自测试验证的语义反馈(例如通过和失败的测试用例数量)来选择最有希望的标记以进一步探索。我们在 Defects4J 和 HumanEval-Java 数据集上的实证评估表明,与传统的基于 LLM 的 APR 相比,FLAMES 不仅将内存消耗大幅降低了高达 83%,而且还加快了修复过程。值得注意的是,FLAMES 在 Defects4J 和 HumanEval-Java 数据集上分别成功地为 333 个和 163 个 bug 生成了 133 个和 103 个正确的修复方案。这表明 FLAMES 不仅更高效,而且优于最先进的技术,在 Defects4J 和 HumanEval-Java 数据集上分别比最先进的基线多修复至少 10 个和 11 个 bug。
利用强化学习和自我博弈进行二人游戏训练可能具有挑战性,因为二人环境复杂且训练过程可能不稳定。我们提出,如果强化学习算法能够利用同一游戏的单人版知识,则可以在二人游戏中更有效地进行训练并取得更好的性能。本研究使用雅达利2600 RAM作为输入状态,在十个不同的雅达利2600环境中检验了这一想法。我们讨论了从单人训练过程进行迁移学习相对于从头开始在二人环境中进行训练的优势,并在训练时间和平均总奖励等几个指标中展示了我们的结果。我们还讨论了一种计算RAM复杂度及其与性能关系的方法。
我们提出了一种名为 GE2E-KWS 的通用端到端训练和评估框架,用于定制关键词识别。具体来说,训练批次中的关键词会将注册语音分离并分组,然后将它们的嵌入中心与所有其他测试语音嵌入进行比较以计算损失。这模拟了运行时的注册和验证阶段,并且与最先进的三元组损失方法相比,通过优化矩阵运算提高了收敛稳定性和训练速度。为了可靠地对不同模型进行基准测试,我们提出了一种模拟生产环境的评估过程,并计算直接衡量关键词匹配准确率的指标。使用 GE2E 损失进行训练后,我们 419KB 量化的 Conformers 模型在 AUC 上比 7.5GB 的 ASR 编码器高出 23.6%,比相同大小的三元组损失模型高出 60.7%。我们的关键词识别模型具有低内存占用率,天生可流式传输,并设计为可在设备上连续运行,无需针对新关键词进行重新训练(零样本)。
本文探讨大型语言模型驱动的聊天机器人是否能够进行断言。根据我们提出的“聊天机器人断言论题”(TCA),聊天机器人属于能够进行断言的事物范畴,并且至少当前一代聊天机器人产生的一些输出符合断言的定义。我们对TCA提供了一些论据,认为它应该被认真对待,而不是简单地被驳斥。我们还回顾了最近对TCA的异议,认为这些异议是重要的。因此,我们面临以下困境:我们如何才能兼顾支持和反对TCA的各种考虑因素?我们考虑了应对这一困境的两种有影响力的回应——第一种诉诸于代理断言的概念;第二种诉诸于虚构主义——并认为两者都不令人满意。相反,在反思断言的发生发展后,我们认为我们需要为一种“原型断言”的范畴留出空间。然后,我们将“原型断言”的概念应用于聊天机器人,认为将聊天机器人视为“原型断言者”为聊天机器人断言的困境提供了一个令人满意的解决方案。
以往基于序列提取人类运动轨迹的研究存在轨迹表示不足的问题。具体来说,一对位置可能无法在序列中对齐,尤其是在一个位置在地理上包含另一个位置的情况下。在本研究中,我们提出了一种图表示方法,该方法保留了地理层次结构和访问位置的时间顺序信息,并构建了一个用于图结构轨迹提取的基准数据集。我们的基线实验表明,准确预测访问位置及其之间的顺序是可能的,但预测层次关系仍然是一个挑战。
传统的视频字幕生成方法依赖于各种离线提取的特征。尽管各种离线特征提取器可以从不同角度提供多样化的信息,但由于参数固定,它们存在一些局限性。具体来说,这些提取器仅在图像/视频理解任务上进行预训练,使其难以适应视频字幕数据集。此外,大多数这些提取器只捕捉预训练任务分类器之前的特征,忽略了大量有价值的浅层信息。此外,使用多个离线特征可能会引入冗余信息。为了解决这些问题,我们提出了一种基于端到端编码器-解码器网络的视频字幕生成方法(EVC-MF),该方法有效地利用多尺度视觉和文本特征来生成视频描述。具体来说,EVC-MF 包含三个模块。首先,我们不依赖多个特征提取器,而是直接将视频帧输入基于Transformer的网络以获得多尺度视觉特征并更新特征提取器参数。其次,我们将多尺度特征融合并输入到掩码编码器中,以减少冗余并鼓励学习有用的特征。最后,我们利用一个增强的基于Transformer的解码器,它可以有效地利用浅层文本信息来生成视频描述。为了评估我们提出的模型,我们在基准数据集上进行了大量的实验。结果表明,与最先进的方法相比,EVC-MF 取得了具有竞争力的性能。