arXiv 论文列表

作者: East Sun, Yan Wang, Lan Tian

我们提出了一种名为“块注意力”的注意力机制，旨在解决检索增强生成（RAG）场景中推理延迟和成本增加的问题。与现有的对整个上下文进行编码的方法不同，其主要思想是将检索到的文档划分为块，其中每个块独立计算键值（KV）状态，除了最后一个块。在 RAG 场景中，通过将每个段落定义为一个块，块注意力使我们能够预先计算所有段落的 KV 状态并将它们缓存到内存中，从而显著降低推理过程中的延迟和计算成本。实现涉及块分割、位置编码计算以及微调 LLM 以适应块注意力机制。在四个 RAG 基准上的实验表明，在块微调之后，块注意力模型可以实现与自注意力模型相当的性能（Llama3 上为 68.4% 对比 67.9%），甚至更好（Mistral 上为 62.8% 对比 59.6%）。值得注意的是，块注意力将 TTFT（第一个令牌的生成时间）和 FLOPs（浮点运算）降低到了非常低的水平。对于总长度为 32K 的输入序列，它只需要 45 毫秒就能输出第一个令牌。与自注意力模型相比，时间消耗和相应的 FLOPs 分别降低了 98.7% 和 99.8%。

发布时间: 9/25/2024

查看原文

CJEval：基于中国初中考试数据的语言模型评估基准

作者: Qian-Wen Zhang, Haochen Wang, Fang Li, Siyu An, Lingfeng Qiao, Liangcai Gao, Di Yin, Xing Sun

在线教育平台通过提供动态的数字基础设施，显著改变了教育资源的传播方式。随着这种转变的进一步加强，大型语言模型 (LLM) 的出现提升了这些平台的智能水平。然而，目前的学术基准对现实世界中的行业场景提供了有限的指导。这种限制的出现是因为教育应用不仅仅需要测试题的答案。为了弥合这一差距，我们引入了 CJEval，这是一个基于中国初中考试评估的基准。CJEval 包含 26,136 个样本，涵盖十个学科的四个应用级教育任务。这些样本不仅包括问题和答案，还包括详细的注释，例如问题类型、难度级别、知识概念和答案解释。通过利用这个基准，我们评估了 LLM 的潜在应用，并通过对各种教育任务进行微调，对其性能进行了全面分析。大量的实验和讨论突出了将 LLM 应用于教育领域的机遇和挑战。

发布时间: 9/25/2024

查看原文

上下文集成提升视频语言模型对人类演示中低级工作流程的理解

作者: Moucheng Xu, Evangelos Chatzaroulas, Luc McCutcheon, Abdul Ahad, Hamzah Azeem, Janusz Marecki, Ammar Anwar

标准操作程序（SOP）基于视频演示，为业务软件工作流定义了一个低级的、逐步的书面指南。SOP 是实现端到端软件工作流自动化的关键步骤。手动创建 SOP 可能很耗时。大型视频语言模型的最新进展为通过分析人类演示的记录来自动生成 SOP 提供了可能性。然而，当前的大型视频语言模型在零样本 SOP 生成方面面临挑战。我们探索了视频语言模型的上下文学习以生成 SOP。我们报告说，上下文学习有时有助于视频语言模型生成 SOP。然后，我们提出了一种上下文集成学习，以进一步增强模型在 SOP 生成方面的能力。

发布时间: 9/25/2024

查看原文

M^2PT：多模态提示微调用于零样本指令学习

作者: Taowen Wang, Yiyang Liu, James Chenhao Liang, junhan zhao, Yiming Cui, Yuning Mao, Shaoliang Nie, Jiahao Liu, Fuli Feng, Zenglin Xu, Cheng Han, Lifu Huang, Qifan Wang, Dongfang Liu

多模态大型语言模型 (MLLMs) 在众多领域展现出非凡的性能，越来越重视增强它们在跨各种模态的未见任务中的零样本泛化能力。指令微调已成为实现零样本泛化的有效策略，通过对预训练模型进行微调以适应多种多模态任务。随着 MLLMs 规模的不断增长，参数高效微调变得越来越重要。然而，大多数现有的参数高效方法仅关注单一模态，并且在微调过程中经常忽略多模态特征。在这项工作中，我们介绍了一种新颖的多模态提示微调 (M$^2$PT) 方法，用于高效地对 MLLMs 进行指令微调。M$^2$PT 在微调期间有效地将视觉提示和文本提示分别集成到视觉编码器和语言处理器中，促进跨模态特征的提取和对齐。在各种多模态评估数据集上的实证结果表明，与几个最先进的基线相比，我们的方法具有优越的性能。一组全面的消融研究验证了我们的提示设计的有效性和我们方法的效率。

发布时间: 9/25/2024

查看原文

人工智能多智能体系统中的合作韧性

弹性是指系统抵御、适应和从破坏性事件中恢复的能力。尽管弹性研究在各个研究领域引起了广泛关注，但该概念在协作人工智能领域的具体定义仍不清楚。本文通过提出“协作弹性”的明确定义并概述其定量测量的 методология 来解决这一差距。该 методология 在一个环境中得到验证，该环境包含基于强化学习和大型语言模型增强的自主代理，这些代理会受到环境变化和引入具有不可持续行为的代理的影响。这些事件被参数化以创建各种场景来测量协作弹性。结果突出了弹性指标在分析集体系统如何应对、抵抗、恢复、维持福祉以及在面对破坏时进行转型的关键作用。这些发现为协作弹性的定义、测量和初步分析提供了基础见解，对更广泛的人工智能领域具有重大意义。此外，这里开发的 методология 和指标可以适应各种人工智能应用，增强人工智能在动态和不可预测环境中的可靠性和有效性。

发布时间: 9/25/2024

查看原文

食谱谜题：将大型语言模型代理发展为风味科学家

食品工业中风味开发面临着快速创新和精确风味特征创造的需求，这带来了越来越大的挑战。传统的风味研究方法通常依赖于迭代的主观测试，缺乏现代需求所需的效率和可扩展性。本文提出了三个贡献来解决这些挑战。首先，我们为风味科学中的科学代理定义了一个新的问题领域，概念化为对风味特征来源和理解的假设生成。为了促进该领域的 تحقیق，我们引入了 FoodPuzzle，这是一个具有挑战性的基准，包含 978 种食品和 1,766 种风味分子特征。我们提出了一种新颖的科学代理方法，将上下文学习和检索增强技术相结合，以在食品科学领域生成有根据的假设。实验结果表明，我们的模型在风味特征预测任务中显著优于传统方法，证明了其改变风味开发实践的潜力。

发布时间: 9/25/2024

查看原文

骆驼评估：推动文化一致的阿拉伯语语言模型和基准

大型语言模型 (LLM) 是现代人工智能系统的基石。本文介绍了 Juhaina，一个专门为与阿拉伯语使用者的价值观和偏好相一致而设计的阿拉伯语-英语双语 LLM。Juhaina 本质上支持高级功能，例如指令遵循、开放式问答、信息提供和文本处理。我们的模型包含 92.4 亿个参数，并在最多 8,192 个标记的上下文窗口上进行训练。本文详细介绍了 Juhaina 的创建过程，并提供了广泛的实证评估。此外，我们还指出了广泛采用的开放式阿拉伯语 LLM 排行榜 (OALL) 的局限性，并提出了一种新的评估基准 CamelEval。我们的研究结果表明，在生成对阿拉伯语的有用响应、提供有关该地区的真实信息以及理解细微的文化方面，Juhaina 超越了现有同等规模的 LLM，例如 Llama 和 Gemma 家族。我们希望 Juhaina 能使尖端的 AI 技术民主化，通过提供不仅能用他们的语言交流，还能理解他们文化的 LLM，为超过 4 亿阿拉伯语使用者服务。我们将在 Huggingface 上公开发布所有模型 \url{https://huggingface.co/elmrc}。

发布时间: 9/25/2024

查看原文

模型闭环 (MILO)：利用大型语言模型加速多模态 AI 数据标注

随着对 AI 训练数据的需求不断增长，数据标注已成为一个全球性产业，但传统的依赖人工标注员的方法往往耗时、费力，且标注质量容易出现偏差。我们提出了模型闭环 (MILO) 框架，将 AI/ML 模型集成到标注流程中。我们的研究引入了一种协作范式，充分利用了专业人工标注员和大型语言模型 (LLM) 的优势。通过将 LLM 作为预标注和实时助手，以及对标注员响应的评判者，MILO 实现了人工标注员与 LLM 之间的有效交互模式。三项针对多模态数据标注的实证研究证明了 MILO 在减少处理时间、提高数据质量和增强标注员体验方面的有效性。我们还引入了质量指标，用于灵活评估和对开放式标注提供细致的反馈。MILO 框架对加速 AI/ML 开发、减少对人工标注的依赖以及促进人机价值观更好地协调具有重要意义。

发布时间: 9/25/2024

查看原文

抗体开发中的对手塑造

抗病毒疗法通常针对病毒的当前毒株。从博弈论的角度来看，这对应于一种短视或近视的反应。然而，治疗诱导的选择压力作用于病毒抗原，驱动突变株的出现，而初始疗法对这些突变株的疗效降低。基于抗体与病毒抗原结合的计算模型（Absolut!框架），我们设计并实施了这种病毒进化逃逸的遗传模拟。至关重要的是，这允许我们的抗体优化算法考虑并影响病毒的整个逃逸曲线，即引导（或“塑造”）病毒的进化。这受到对手塑造的启发，对手塑造在一般和学习中，考虑了共同玩家的适应，而不是采取近视的最佳反应。因此，我们将优化后的抗体称为塑造者。在我们的模拟中，我们证明了我们的塑造者针对当前和模拟的未来病毒变异体，优于以近视方式选择的抗体。此外，我们表明，与近视抗体相比，塑造者对病毒施加了特定的进化压力。总而言之，塑造者改变了病毒株的进化轨迹，并将病毒逃逸降至最低，优于其近视对应物。虽然这是一个简化的模型，但我们希望我们提出的范式能够在未来促进更长效的疫苗和抗体疗法的发现，这得益于模拟工具能力的快速进步。我们的代码可在https://github.com/olakalisz/antibody-shapers上获取。

发布时间: 9/25/2024

查看原文

精准水产养殖：基于计算机视觉和物联网的罗非鱼优化投喂方法

传统的鱼类养殖方式往往导致饲料利用效率低下，造成环境问题并降低生产力。我们开发了一个将计算机视觉和物联网技术相结合的创新系统，用于精确的罗非鱼饲喂。我们的解决方案使用实时物联网传感器监控水质参数，并使用计算机视觉算法分析鱼的大小和数量，确定最佳饲料量。移动应用程序可以实现远程监控和控制。我们利用 YOLOv8 进行关键点检测，根据长度测量罗非鱼的重量，在 3500 张标注图像上实现了 **94%** 的精度。利用深度估计将像素级测量转换为厘米，以进行准确的饲喂计算。我们的方法，在数据收集与推理条件相一致的情况下，显著提高了结果。初步估计表明，与传统农场相比，这种方法可以将产量提高 58 倍。我们的模型、代码和数据集是开源的~\footnote{代码、数据集和模型可应合理要求提供。}。

发布时间: 9/25/2024

查看原文