arXiv 论文列表

作者: Kiran Busch, Henrik Leopold

越来越多的机构正在将大型语言模型 (LLM) 部署到各种任务中。尽管它们具有普遍的效用，但 LLM 容易出现错误，从不准确到幻觉。为了客观地评估现有 LLM 的能力，人们进行了性能基准测试。然而，这些基准测试通常无法转化为更具体的现实世界任务。本文解决了在业务流程管理 (BPM) 领域基准测试 LLM 性能的差距。目前，不存在针对 BPM 的基准测试，这使得人们对不同 LLM 是否适合 BPM 任务存在不确定性。本文系统地比较了 LLM 在四个 BPM 任务上的性能，重点关注小型开源模型。分析旨在识别特定于任务的性能变化，比较开源模型与商业模型的有效性，并评估模型大小对 BPM 任务性能的影响。本文提供了对 LLM 在 BPM 中实际应用的见解，指导组织为其特定需求选择合适的模型。

发布时间: 10/7/2024

查看原文

利用大型语言模型丰富本体中的不相交公理

作者: Elias Crum, Antonio De Santis, Manon Ovide, Jiaxin Pan, Alessia Pisu, Nicolas Lazzari, Sebastian Rudolph

尽管类之间的显式不相交声明对于知识图谱中的复杂推理和一致性检查非常有用，但本体通常缺乏这类声明。在本研究中，我们探索了大型语言模型 (LLM) 在识别和断言类不相交公理方面增强本体的潜力。我们的方法旨在利用嵌入在 LLM 中的隐式知识，使用提示工程来引出这种知识，用于对本体不相交进行分类。我们使用开源 LLM 在 DBpedia 本体上验证了我们的方法。我们的发现表明，在有效提示策略的指导下，LLM 可以可靠地识别不相交类关系，从而简化本体完成过程，而无需大量手动输入。为了实现全面的不相交增强，我们提出了一种过程，该过程将不相交和子类语句之间的逻辑关系考虑在内，以保持可满足性并减少对 LLM 的调用次数。这项工作为 LLM 在自动本体增强中的未来应用奠定了基础，并提供了通过战略性提示设计优化 LLM 性能的见解。我们的代码已在 GitHub 上公开发布，地址为 https://github.com/n28div/llm-disjointness。

发布时间: 10/7/2024

查看原文

自适应掩码增强视觉接地

作者: Sen Jia, Lei Li

近年来，视觉 grounding 中的零样本学习和少样本学习引起了广泛关注，这主要归功于大型视觉语言预训练模型在 LAION-5B 和 DataComp-1B 等大型数据集上的成功。然而，这些数据集的持续扩展带来了巨大的挑战，特别是在数据可用性和计算开销方面，从而成为低样本学习能力发展瓶颈。本文提出了一种名为 IMAGE（基于高斯辐射模型的解释性掩码）的方法，旨在无需增加数据集大小即可增强低样本学习场景中的词汇 grounding。受到认知科学和最近掩码自动编码器 (MAE) 成功启发，该方法利用对视觉主干生成的特征图的显著区域进行自适应掩码。这使模型能够通过重建被遮挡的信息来学习鲁棒的、泛化的表示，从而有效地关注局部和全局特征。在包括 COCO 和 ODinW 在内的基准数据集上评估了该方法的有效性，证明了其在零样本和少样本任务中的优越性能。实验结果始终表明，IMAGE 优于基线模型，在低样本场景中实现了增强的泛化能力和改进的性能。这些发现突出了通过注意力机制和高斯建模进行自适应特征操作的潜力，作为一种有希望的替代方法，可以替代依赖于持续扩展数据集大小来推进零样本和少样本学习的方法。我们的代码已公开发布在 https://github.com/git-lenny/IMAGE。

发布时间: 10/7/2024

查看原文

AIME：基于多语言模型评估器的 AI 系统优化

作者: Bhrij Patel, Souradip Chakraborty, Wesley A. Suttle, Mengdi Wang, Amrit Singh Bedi, Dinesh Manocha

基于文本的 AI 系统优化通常采用反馈循环机制，其中单个 LLM 生成对当前输出的自然语言评估，以改进下一次迭代的输出。然而，在这项工作中，我们通过实证表明，对于一个具有多个评估标准的实用且复杂的任务（代码生成），仅使用一个 LLM 评估器往往会导致生成的代码中的错误无法被检测到，从而导致评估错误，最终导致测试用例性能不佳。受此失败案例的启发，我们假设存在一个最佳评估策略，该策略在响应和基本事实之间进行评估采样。然后，我们从理论上证明，多个评估器的线性组合可以近似于该最佳策略。基于此洞察，我们提出了通过多个 LLM 评估器 (AIME) 进行 AI 系统优化。AIME 是一种评估协议，它使用多个 LLM，每个 LLM 独立地对不同的标准进行评估，然后通过串联将它们组合在一起。我们提供了一项广泛的实证研究，表明 AIME 在代码生成任务中优于基线方法，在 LeetCodeHard 和 HumanEval 数据集上，其错误检测率比单个 LLM 评估协议高出 62%，成功率高出 16%。我们还表明，评估器数量和使用哪些标准的选择并非微不足道，因为它可能会影响成功率，最高可达 12%。

发布时间: 10/7/2024

查看原文

ProcBench：多步推理和程序遵循基准测试

作者: Ippei Fujisawa, Sensho Nobe, Hiroki Seto, Rina Onda, Yoshiaki Uchida, Hiroki Ikoma, Pei-Chun Chien, Ryota Kanai

推理是多种智力活动的核心，虽然大型语言模型 (LLM) 的能力不断提升，但它们在推理任务中的表现仍然有限。推理背后的过程和机制尚未完全理解，但关键要素包括路径探索、相关知识的选择和多步推理。问题通过这些要素的综合解决。在本文中，我们提出了一种基准，它关注推理能力的特定方面：对多步推理的直接评估。为此，我们设计了一项特殊的推理任务，通过很大程度上消除路径探索和隐式知识利用来专门关注多步推理。我们的数据集包含成对的显式指令和相应的疑问，其中解决疑问所需的步骤完全详细地记录在指令中。这种设置允许模型仅通过遵循提供的指令来解决问题。通过构建需要不同步骤数才能解决的问题，并在每一步评估响应，我们能够彻底评估最先进的 LLM 遵循指令的能力。为了确保评估的稳健性，我们包含了多个不同的任务。此外，通过比较不同任务的准确性，利用步长感知指标，并应用单独定义的复杂度度量，我们进行了实验，这些实验提供了对 LLM 在推理任务中的能力和局限性的见解。我们的发现对 LLM 的开发具有重大意义，并突出了未来研究中提升其推理能力的领域。我们的数据集可在 \url{https://huggingface.co/datasets/ifujisawa/procbench} 获取，代码可在 \url{https://github.com/ifujisawa/proc-bench} 获取。

发布时间: 10/7/2024

查看原文

先图还是先文？优化大型语言模型提示和推理任务中模态的排序

作者: Grant Wardle, Teo Susnjak

本文探讨了多模态提示中图像和文本的排序如何影响大型语言模型 (LLM) 的推理性能。我们使用三个商用 LLM 进行了实证评估。我们的结果表明，呈现模态的顺序会显著影响性能，尤其是在不同复杂度的任务中。对于涉及单个图像的简单任务，模态排序对准确率有明显影响。然而，在涉及多个图像和复杂推理步骤的更复杂任务中，排序的影响减弱，这可能是由于任务的认知需求增加。我们的发现也强调了问题/提示结构的重要性。在嵌套和多步推理任务中，模态排序在塑造模型性能方面发挥了关键作用。虽然 LLM 在推理的初始阶段表现出色，但它们难以重新整合早期的信息，这突出了转换器架构中多跳推理的挑战。这表明，将模态顺序与推理步骤的逻辑流程对齐比单独的模态顺序更重要。这些见解为改进多模态提示设计提供了宝贵的启示，在教育、医学影像和跨模态学习等领域具有更广泛的应用。

发布时间: 10/7/2024

查看原文

搜索流引导：通过最优路径引导学习利用语言模型进行更有效的搜索

作者: Seungyong Moon, Bumsoo Park, Hyun Oh Song

尽管语言模型在各种任务中表现出令人印象深刻的能力，但它们在需要复杂规划和推理的任务中仍然存在困难。最近的研究提出在搜索过程中而不是最佳解决方案上训练语言模型，从而导致更好的泛化性能，即使搜索过程是嘈杂的甚至次优的。然而，这些研究忽略了最佳解决方案的价值，最佳解决方案可以作为一步一步的里程碑，指导更有效的搜索。在这项工作中，我们探索了如何利用最佳解决方案来增强语言模型的搜索和规划能力。为此，我们提出了引导式搜索流 (GSoS)，它以渐进的方式将最佳解决方案无缝地整合到自生成过程中，从而产生高质量的搜索轨迹。这些轨迹随后通过监督微调被提取到预训练模型中。我们的方法显著增强了语言模型在 Countdown 上的搜索和规划能力，Countdown 是一项简单但具有挑战性的数学推理任务。值得注意的是，将我们的方法与 RL 微调相结合可以进一步提高性能，而之前的监督微调方法并没有从 RL 中获益。此外，我们的方法比以子目标奖励的形式利用最佳解决方案更有效。

发布时间: 10/7/2024

查看原文

AiBAT：人工智能/构建、组装和测试指令

作者: Benjamin Nuernberger, Anny Liu, Heather Stefanini, Richard Otis, Amanda Towler, R. Peter Dillon

构建、组装和测试指令 (IBAT) 指的是在对硬件进行任何操作（包括测试、组装和维护）时使用的流程。目前，IBAT 文档的生成非常耗时，因为用户必须手动参考工程图和零件清单并将信息转移到 IBAT 指令中。然而，随着机器学习和计算机视觉的进步，可以利用人工智能 (AI) 模型来部分填充 IBAT 模板，从而释放工程师的时间，让他们能够专注于更高技能的任务。AiBAT 是一种新型系统，旨在帮助用户编写 IBAT。它的工作原理是首先分析装配图文档，提取信息并进行解析，然后使用提取的信息填充 IBAT 模板。这种辅助创作有可能节省时间和降低成本。本文概述了 AiBAT 系统，包括有希望的初步结果以及对未来工作的讨论。

发布时间: 10/7/2024

查看原文

深度逻辑问题中 RAG 系统的内在评估

作者: Junyi Hu, You Zhou, Jie Wang

我们引入了整体性能指标（OPI），这是一种内在指标，用于评估用于涉及深度逻辑查询的应用程序的检索增强生成（RAG）机制。OPI 计算为两个关键指标的调和平均值：逻辑关系正确率和地面真实答案与生成答案之间的 BERT 嵌入相似度分数的平均值。我们使用来自 Hugging Face 的 RAG-Dataset-12000 上从 GPT-4o 微调的逻辑关系分类器，将 OPI 应用于评估 LangChain（一种流行的 RAG 工具）的性能。我们的研究结果表明 BERT 嵌入相似度分数与外部评估分数之间存在很强的相关性。在常用的检索器中，使用基于 BERT 的嵌入的余弦相似度检索器优于其他检索器，而基于欧几里得距离的检索器表现最弱。此外，我们证明，将多个检索器组合在一起，无论是通过算法还是通过合并检索到的句子，都比单独使用任何一个检索器获得更好的性能。

发布时间: 10/7/2024

查看原文

通过自适应噪声分配对语言模型进行差分隐私微调

作者: Xianzhi Li, Ran Zmigrod, Zhiqiang Ma, Xiaomo Liu, Xiaodan Zhu

语言模型能够记忆详细的模式和信息，这带来了双刃剑效应：它们利用存储的知识在后续任务中取得了令人印象深刻的建模效果，但也引发了重大的隐私问题。传统的基于差分隐私的训练方法通过对所有参数使用统一的噪声分布，提供了稳健的保护措施。然而，这种方法忽略了各个参数在隐私保护方面的不同敏感性和贡献，往往会导致模型效果不佳。为了解决这些局限性，我们提出了 ANADP，一种根据模型参数重要性自适应分配加性噪声的新算法。我们证明了 ANADP 在一系列数据集上缩小了常规微调和传统 DP 微调之间的性能差距，同时保持了所需的隐私约束。

发布时间: 10/7/2024

查看原文