LLM2D

arXiv 论文列表

作者: Lexin Zhou, Pablo A. Moreno-Casares, Fernando Mart\'inez-Plumed, John Burden, Ryan Burnell, Lucy Cheke, C\`esar Ferri, Alexandru Marcoci, Behzad Mehrbakhsh, Yael Moros-Daval, Se\'an \'O h\'Eigeartaigh, Danaja Rutar, Wout Schellaert, Konstantinos Voudouris, Jos\'e Hern\'andez-Orallo
我们介绍了可预测人工智能(Predictable AI)的基本思想和挑战,这是一个新兴的研究领域,探索了我们如何预测当前和未来人工智能生态系统关键有效性指标(例如,性能、安全)的方法。我们认为,实现可预测性对于增强对人工智能生态系统的信任、责任、控制、一致性和安全性至关重要,因此应该优先于性能。我们正式地描述了可预测性,探索了其最相关的组成部分,说明了可以预测什么,描述了预测指标的替代候选者,以及最大化有效性和可预测性之间的权衡。为了说明这些概念,我们提供了一系列涵盖不同生态系统配置的示例。可预测人工智能与其他技术和非技术人工智能研究领域相关,但具有独特的疑问、假设、技术和挑战。本文旨在阐明这些问题,呼吁确定实现可预测有效人工智能系统景观的途径,并概述这一新兴领域的影响潜力。
发布时间: 10/10/2024
查看原文
本研究提出了一种名为GOOSE的新型元启发式算法,该算法基于鹅在休息和觅食过程中的行为。鹅单腿站立,保持平衡以守护和保护群体中的其他个体。GOOSE算法在19个著名的基准测试函数上进行了测试,其结果通过与遗传算法(GA)、粒子群优化算法(PSO)、蜻蜓算法(DA)和适应度依赖优化器(FDO)的对比研究得到验证。此外,该算法还在10个现代基准函数上进行了测试,并将结果与三种最新的算法进行了比较,例如蜻蜓算法、鲸鱼优化算法(WOA)和樽海鞘群算法(SSA)。此外,GOOSE算法还在5个经典基准函数上进行了测试,并将所得结果与六种算法进行了评估,例如适应度依赖优化器(FDO)、FOX优化器、蝴蝶优化算法(BOA)、鲸鱼优化算法、蜻蜓算法和黑猩猩优化算法(ChOA)。研究结果证明,与本研究中使用的其他算法相比,该算法具有优越的性能。然后,该技术被用于优化焊接梁设计和经济负荷调度问题(这两个都是著名的现实世界工程挑战)以及神经系统中的病理性IgG组分。工程案例研究的结果表明,该方法能够很好地优化现实世界中出现的问题。
发布时间: 10/10/2024
查看原文
逻辑评估公式 (LAF) 是一种针对具有不准确真值标签 (IAGTLs) 的评估而提出的新理论,用于评估人工智能应用的预测模型。然而,LAF 在具有 IAGTLs 的评估中的实用性尚未在实际应用中得到验证。本文将 LAF 应用于医学组织病理学全切片图像分析 (MHWSIA) 中乳腺癌肿瘤分割 (TSfBC) 的两个任务,用于具有 IAGTLs 的评估。实验结果和分析表明,基于 LAF 的具有 IAGTLs 的评估,在一个较简单的 TSfBC 任务中无法自信地像具有准确真值标签的常规评估一样运作,而在另一个更困难的 TSfBC 任务中则能够合理地像具有准确真值标签的常规评估一样运作。这些结果和分析反映了 LAF 应用于 MHWSIA 进行具有 IAGTLs 的评估的潜力。本文首次对 LAF 在实际应用中进行具有 IAGTLs 的评估进行了实际验证。
发布时间: 10/10/2024
查看原文
作者: Domenico Maisto, Francesco Gregoretti, Karl Friston, Giovanni Pezzulo
高效的预先规划能力对于生物有机体和人工系统都至关重要。基于模型的规划和预期在认知神经科学和人工智能(AI)领域得到了广泛的研究,但它们是从不同的角度出发——并且目标也不同(生物现实性与可扩展性),难以调和。在这里,我们介绍一种在POMDP中进行规划的新方法——主动推理树搜索(AcT)——它结合了神经科学中领先的规划理论(主动推理)的规范性和生物现实性以及人工智能中树搜索方法的可扩展性。这种统一增强了这两种方法。一方面,树搜索使得基于生物学、第一性原理的主动推理方法能够应用于大规模问题。另一方面,主动推理为探索-利用困境提供了一个有原则的解决方案,而树搜索方法通常以启发式方式解决这个问题。我们的模拟表明,AcT成功地导航了基于采样的方法难以应对的二叉树、需要自适应探索的问题以及大型POMDP问题“RockSample”——其中AcT再现了最先进的POMDP解决方案。此外,我们还说明了如何使用AcT模拟人类和其他动物解决大型规划问题的神经生理反应(例如,在海马体和前额叶皮层中)。这些数值分析表明,主动树搜索是神经科学和人工智能规划理论的有原则的实现,它兼具生物现实性和可扩展性。
发布时间: 10/10/2024
查看原文
作者: Hanrong Ye, Haotian Zhang, Erik Daxberger, Lin Chen, Zongyu Lin, Yanghao Li, Bowen Zhang, Haoxuan You, Dan Xu, Zhe Gan, Jiasen Lu, Yinfei Yang
这项研究旨在全面探索构建用于自我中心视频理解的多模态基础模型。为此,我们从三个方面开展工作。首先,由于缺乏用于自我中心视频理解的问答数据,我们开发了一个数据引擎,该引擎基于人工标注数据,高效地生成了700万个高质量的自我中心视频问答样本,视频时长从30秒到一小时不等,这是目前最大的自我中心问答数据集。其次,我们贡献了一个具有挑战性的自我中心问答基准,包含629个视频和7026个问题,用于评估模型在识别和记忆不同长度视频中视觉细节的能力。我们引入了一种新的去偏置评估方法,以帮助减轻被评估模型中不可避免的语言偏差。第三,我们提出了一种专门的多模态架构,其特点是采用了一种新颖的“记忆指针提示”机制。该设计包括一个全局浏览步骤,以获得对整个视频的整体理解并识别关键视觉信息,然后是一个回退步骤,利用关键视觉信息生成响应。这使得模型能够更有效地理解扩展的视频内容。利用数据、基准和模型,我们成功构建了MM-Ego,这是一个自我中心多模态大型语言模型,在自我中心视频理解方面表现出强大的性能。
发布时间: 10/10/2024
查看原文
作者: Fei Wang, Xingchen Wan, Ruoxi Sun, Jiefeng Chen, Sercan \"O. Ar{\i}k
检索增强生成 (RAG) 虽然能够有效地整合外部知识来克服大型语言模型 (LLM) 的局限性,但可能会因检索不完善而受到影响,这可能会引入不相关、误导性甚至恶意信息。尽管这项研究很重要,但之前的研究很少通过联合分析来探索 RAG 的行为,即不完善检索的错误是如何归因和传播的,以及大型语言模型的内部知识和外部信息源之间可能出现哪些冲突。我们通过在现实条件下的受控分析发现,不完善的检索增强可能是不可避免的,而且相当有害。我们将检索中大型语言模型内部知识和外部知识之间的知识冲突确定为 RAG 后检索阶段需要克服的瓶颈。为了使大型语言模型能够抵抗不完善的检索,我们提出了 Astute RAG,这是一种新颖的 RAG 方法,它能够自适应地从大型语言模型的内部知识中提取必要信息,迭代地整合内部和外部知识并进行溯源,并根据信息的可靠性最终确定答案。我们使用 Gemini 和 Claude 进行的实验表明,Astute RAG 的性能明显优于以前的鲁棒性增强型 RAG 方法。值得注意的是,Astute RAG 是唯一一种在最坏情况下能够匹配或超过不使用 RAG 的大型语言模型性能的方法。进一步的分析表明,Astute RAG 有效地解决了知识冲突,提高了 RAG 系统的可靠性和可信度。
发布时间: 10/10/2024
查看原文
作者: Nikhil X. Bhattasali, Venkatesh Pattabiraman, Lerrel Pinto, Grace W. Lindsay
基于学习的四足动物运动方法通常采用通用的策略架构,例如全连接多层感知器(MLP)。由于此类架构包含很少的归纳偏置,因此在实践中通常会以奖励、训练课程、模仿数据或轨迹生成器等形式加入先验知识。在自然界中,动物天生就具有先验知识,这些知识以其神经系统的架构形式存在,这种架构经进化塑造,赋予了动物先天能力和高效的学习能力。例如,马在出生几小时内就能行走,并且能够快速提高其行走能力。这种架构先验知识也可用于人工智能的 ANN 架构中。在这项工作中,我们探索了基于哺乳动物四肢和脊髓神经回路的生物启发式 ANN 架构在四足动物运动中的优势。我们的架构实现了良好的初始性能和与 MLP 相当的最终性能,同时使用了更少的数据和数量级更少的参数。我们的架构还表现出更好的任务变化泛化能力,甚至无需标准的模拟到真实世界的转换方法即可部署到物理机器人上。这项工作表明,神经回路可以为运动提供有价值的架构先验知识,并鼓励未来在其他感觉运动技能方面开展研究。
发布时间: 10/10/2024
查看原文
作者: Jona Ruthardt, Gertjan J. Burghouts, Serge Belongie, Yuki M. Asano
大型语言模型(LLM)对视觉世界的理解程度如何?随着LLM在计算机视觉领域的应用日益广泛,这个问题变得至关重要且意义重大。然而,现有研究主要集中在有限的场景中,例如它们生成视觉内容或聚类多模态数据的能力。为此,我们提出了视觉文本表示基准(ViTeRB),以识别使语言模型与视觉世界良好对齐的关键属性。通过此基准,我们发现大规模解码器型LLM是表示视觉中心语境中文本的理想候选者,这与当前使用文本编码器的做法相反。基于这些发现,我们提出了ShareLock,一个超轻量级的类似CLIP的模型。通过利用来自强大的视觉和语言模型的预计算冻结特征,ShareLock在ImageNet上取得了令人印象深刻的51%的准确率,尽管只使用了56.3万对图像-标题数据。此外,训练只需要1个GPU小时(或包括特征预计算在内的10个小时)——比以往的方法少几个数量级。代码将公开发布。
发布时间: 10/10/2024
查看原文
作者: Fabian Paischer, Lukas Hauzenberger, Thomas Schmied, Benedikt Alkin, Marc Peter Deisenroth, Sepp Hochreiter
基础模型 (FM) 在大规模数据集上进行预训练,然后针对特定应用的下游任务进行微调。最成功和最常用的微调方法是通过低秩自适应 (LoRA) 更新预训练权重。LoRA 引入新的权重矩阵,这些矩阵通常以均匀秩分布在模型权重中随机初始化。最近的研究重点是权重驱动的初始化或训练过程中自适应秩的学习。这两种方法都只是单独研究的,导致收敛速度慢或秩分布均匀,进而导致次优性能。我们提出通过对激活向量的迷你批计算奇异值分解,以数据驱动的方式初始化新权重来增强 LoRA。然后,我们用获得的右奇异向量初始化 LoRA 矩阵,并在所有权重矩阵之间重新分配秩,以解释最大方差量,并继续标准 LoRA 微调过程。这导致了我们新的方法:解释方差自适应 (EVA)。我们将 EVA 应用于各种微调任务,从语言生成和理解到图像分类和强化学习。EVA 表现出比竞争对手更快的收敛速度,并在各个领域的众多任务中获得了最高的平均分数。
发布时间: 10/10/2024
查看原文
作者: Manling Li, Shiyu Zhao, Qineng Wang, Kangrui Wang, Yu Zhou, Sanjana Srivastava, Cem Gokmen, Tony Lee, Li Erran Li, Ruohan Zhang, Weiyu Liu, Percy Liang, Li Fei-Fei, Jiayuan Mao, Jiajun Wu
我们旨在评估大型语言模型 (LLM) 在具身决策中的表现。虽然大量工作已利用 LLM 在具身环境中进行决策,但我们仍然缺乏对其性能的系统性理解,因为它们通常应用于不同的领域,用于不同的目的,并且基于不同的输入和输出构建。此外,现有的评估往往仅依赖最终的成功率,难以查明 LLM 缺少什么能力以及问题所在,这反过来又阻碍了具身智能体有效和选择性地利用 LLM。为了解决这些限制,我们提出了一种通用接口(具身智能体接口),该接口支持形式化各种类型的任务以及基于 LLM 的模块的输入输出规范。具体来说,它允许我们将 1) 一系列涉及状态和时间扩展目标的具身决策任务,2) 四种常用的基于 LLM 的决策模块:目标解释、子目标分解、动作排序和转移建模,以及 3) 一系列细粒度的度量标准(将评估分解为各种类型的错误,例如幻觉错误、 affordance 错误、各种类型的规划错误等)统一起来。总的来说,我们的基准提供了对 LLM 在不同子任务中性能的全面评估,指出了 LLM 驱动的具身 AI 系统的优缺点,并为在具身决策中有效和选择性地使用 LLM 提供了见解。
发布时间: 10/10/2024
查看原文