arXiv 论文列表

作者: Satoshi Munakata, Taku Fukui, Takao Mohri

大型语言模型（LLM）经常会生成幻觉文本。为了检测这种文本，已经开发了几种方法，这些方法通过将文本与概率生成的多个版本进行语义比较来进行检测。然而，一个重大问题是，如果每个生成的文本的故事线发生变化，则生成的文本将无法比较，从而降低检测精度。在本文中，我们提出了一种幻觉检测方法，该方法结合了多项选择填空考试方法来解决这一故事线变化问题。首先，我们的方法通过掩盖原始文本中的多个对象来创建多项选择填空考试。其次，提示 LLM 重复回答此考试。这种方法确保了考试答案的故事线与原始故事线一致。最后，通过对考试答案进行评分，考虑原始文本本身可能存在的“幻觉滚雪球”现象，量化每个原始句子的幻觉程度。实验结果表明，我们的方法不仅优于现有方法，而且在与现有方法的集成中也取得了更清晰的最新性能。

发布时间: 9/27/2024

查看原文

初见 $a^2+b^2=c^2$ 时，你会问什么？评估大型语言模型的好奇心驱动型提问能力

作者: Shashidhar Reddy Javaji, Zining Zhu

大型语言模型（LLM）可以存储海量知识，但它们获取新知识的潜力尚不清楚。我们提出了一种新颖的评估框架来评估这种能力。该框架提示LLM生成关于介绍科学知识的陈述的问题，模拟一个人在第一次面对该陈述时的好奇心。我们对生成问题的质量进行评分，从而评估LLM的知识获取潜力。我们应用受控消融研究来验证我们的评分程序。此外，我们创建了一个合成数据集，其中包含物理、化学和数学领域中1101个难度级别不同的陈述、300个常识陈述和567个错误陈述。进行了人工评估以验证我们的模型评估，在所考虑的所有三个指标上实现了约0.7的加权Cohen's kappa。我们发现，虽然GPT-4和Mistral 8x7b等大型模型擅长生成连贯且相关的问题，但较小的Phi-2模型同样或更有效。这表明，模型的知识获取潜力并不仅仅取决于其大小。所提出的框架量化了一个关键的模型能力，该能力通常被忽视，并为开发更具知识的AI系统开辟了研究机会。

发布时间: 9/27/2024

查看原文

跨领域内容生成：基于领域特定的小型语言模型

作者: Ankit Maloo Abhinav Garg

利用小型语言模型生成特定领域的文本内容面临着挑战，尤其是在处理多个不同数据集且重叠度很低的情况下。本研究探讨了使小型语言模型能够针对两个不同领域（故事数据集 A 和食谱数据集 B）生成连贯且相关输出的方法。初步实验表明，分别在每个数据集上训练模型可以取得令人满意的结果，每个模型都能在其领域内生成适当的内容。我们发现，与使用通用分词器相比，使用针对每个数据集定制的分词器可以显著提高生成质量。尝试使用低秩自适应 (LoRA) 或标准微调将单个模型适应到这两个领域并未产生实质性结果，通常无法生成有意义的输出。此外，在不冻结模型现有权重的情况下进行完全微调会导致灾难性遗忘，即模型会丢失先前学到的信息，只保留来自新数据的知识。为了克服这些挑战，我们采用了一种知识扩展策略：仅使用额外的参数进行训练。这种方法使模型能够根据要求生成故事和食谱，有效地处理多个领域，而不会遭受灾难性遗忘。我们的研究结果表明，使用冻结层进行知识扩展是小型语言模型跨不同数据集生成特定领域内容的有效方法。这项工作有助于高效的多领域语言模型的开发，并为管理小型架构中的灾难性遗忘提供了见解。

发布时间: 9/27/2024

查看原文

REAL：基于响应嵌入的对齐方法用于大型语言模型

作者: Honggen Zhang, Igor Molybog, June Zhang, Xufeng Zhao

将大型语言模型 (LLM) 与人类偏好对齐是构建有用且安全的 AI 工具的关键步骤，这通常涉及在监督数据集上进行训练。诸如直接偏好优化之类的流行算法依赖于根据人类反馈对 AI 生成的响应对进行排名。标注过程是对齐流程中最劳动密集且成本最高的环节，提高其效率将对 AI 发展产生重大影响。我们提出了一种从一组 AI 生成的响应中采样高质量训练数据集的策略，该策略侧重于获取最具信息量的响应对进行标注。合成 HH-RLHF 基准测试的实验结果表明，选择不同的响应对可以增强 LLM 的直接对齐，同时减少继承的标注错误。我们还将我们的方法应用于现实世界数据集 SHP2，从多个响应中选择最佳对。在不同的响应对上对齐的模型在对话任务中获得了最佳胜率。我们的研究结果表明，关注差异较大的对可以提高 LLM 对齐的效率，节省高达 65% 的标注员工作量。

发布时间: 9/27/2024

查看原文

压力提示：压力对大型语言模型和人类表现的影响是否相同？

作者: Guobin Shen, Dongcheng Zhao, Aorigele Bao, Xiang He, Yiting Dong, Yi Zeng

人类经常会经历压力，压力会显著影响他们的表现。本研究探讨了大型语言模型 (LLM) 是否表现出类似于人类的压力反应，以及它们在不同压力诱导提示下是否会表现出性能波动。为了研究这个问题，我们开发了一套名为 StressPrompt 的新提示，旨在诱导不同程度的压力。这些提示源自已建立的心理学框架，并根据人类参与者的评分仔细校准。然后，我们将这些提示应用于多个 LLM，以评估它们在一系列任务中的反应，包括指令遵循、复杂推理和情商。研究结果表明，LLM 与人类一样，在中等压力下表现最佳，这与叶克斯-多德森定律一致。值得注意的是，它们的性能在低压力和高压力条件下都会下降。我们的分析进一步表明，这些 StressPrompt 显著改变了 LLM 的内部状态，导致它们的神经表征发生变化，这反映了人类对压力的反应。这项研究为 LLM 的运行稳健性和灵活性提供了关键见解，证明了设计能够在压力普遍存在的现实世界场景中保持高性能的 AI 系统的重要性，例如在客户服务、医疗保健和紧急响应环境中。此外，本研究通过提供一个关于 LLM 如何处理不同场景以及它们与人类认知的相似性的新视角，为更广泛的 AI 研究界做出了贡献。

发布时间: 9/27/2024

查看原文

ScriptSmith：一个用于通过自动 Bash 脚本生成、评估和优化来增强 IT 运维的统一大语言模型框架

作者: Oishik Chatterjee, Pooja Aggarwal, Suranjana Samanta, Ting Dai, Prateeti Mohapatra, Debanjana Kar, Ruchi Mahindru, Steve Barbieri, Eugen Postea, Brad Blancett, Arthur De Magalhaes

在快速发展的网站可靠性工程 (SRE) 领域，对高效且有效的解决方案的需求至关重要，这些解决方案可以用于管理和解决网站和云应用程序中的问题。本文提出了一种使用大型语言模型 (LLMs) 进行脚本生成、评估和改进的行动自动化创新方法。通过利用 LLMs 的能力，我们旨在显著减少编写和调试脚本所需的人工工作量，从而提高 SRE 团队的生产力。我们的实验重点是 Bash 脚本，这是一种 SRE 中常用的工具，涉及 CodeSift 数据集的 100 个任务和 InterCode 数据集的 153 个任务。结果表明，LLMs 可以自动高效地评估和改进脚本，从而减少在执行环境中进行脚本验证的需要。结果表明，该框架在脚本生成方面总体提高了 7-10%。

发布时间: 9/27/2024

查看原文

跨数据集分析与自动驾驶车道检测网络架构修复

作者: Parth Ganeriwala, Siddhartha Bhattacharyya, Raja Muthalagu

迁移学习已成为解决问题的标准方法之一，通过利用为一项任务获得的知识来解决另一项相关任务，从而克服孤立的学习范式。然而，在将迁移学习应用于实际应用之前，需要进行研究，以识别初始步骤，以进一步验证和解释。在本研究中，我们对自动驾驶车辆的车道检测应用进行了跨数据集分析和网络架构修复。车道检测是自动驾驶车辆驾驶辅助系统的重要组成部分。在大多数情况下，现代基于深度学习的车道识别系统取得了成功，但它们在处理具有复杂拓扑结构的车道时遇到了困难。所提出的架构 ERFCondLaneNet 是对用于车道识别框架的 CondlaneNet 的增强，旨在解决检测具有复杂拓扑结构（如密集、弯曲和分叉线）的车道线的难题。新提出的技术分别在两个常用的车道检测基准 CULane 和 CurveLanes 以及两个不同的骨干网络 ResNet 和 ERFNet 上进行了测试。研究表明，与 ResnetCondLaneNet 相比，使用 ERFCondLaneNet 的技术表现出相似的性能，同时使用特征减少了 33%，导致模型尺寸减少了 46%。

发布时间: 9/27/2024

查看原文

自信的老师，自信的学生？一种探究解释的教学潜力及其对不确定性影响的新型用户研究设计

作者: Teodor Chiaburu, Frank Hau{\ss}er, Felix Bie{\ss}mann

在可解释人工智能 (XAI) 中评估解释的质量至今仍是一个具有挑战性的问题，研究界对此存在持续争论。虽然一些人主张建立标准化的离线指标，但另一些人强调人机交互 (HIL) 评估的重要性。本文提出了一种实验设计，用于评估 XAI 在人机协作环境中的潜力以及 XAI 在教学中的潜力。在一项包含 1200 名参与者的用户研究中，我们调查了解释对人类在具有挑战性的视觉任务（复杂分类中生物物种的标注）中的表现的影响。我们的结果表明，XAI 在复杂的视觉标注任务中具有潜力：用户在标注中变得更加准确，并且在人工智能辅助下表现出更少的犹豫。然而，当向用户展示模型的预测时，与提供解释相比，准确度的提高并没有显著差异。我们还发现了解释的负面影响：当向用户展示解释时，用户更有可能复制模型的预测，即使这些预测是错误的。在评估解释在人机协作环境中的教学效果时，我们发现，用户在进行人工智能辅助标注后，其标注并没有显著改善。这表明，在视觉人机协作中，解释似乎并没有带来持久的学习效果。所有代码和实验数据都可以在我们的 GitHub 仓库中找到：https://github.com/TeodorChiaburu/beexplainable。

发布时间: 9/27/2024

查看原文

在遵循自然语言指令之前推断人类意图

作者: Yanming Wan, Yue Wu, Yiping Wang, Jiayuan Mao, Natasha Jaques

为了使人工智能代理能够帮助人类，它们应该能够遵循自然语言指令，在人类环境中完成日常合作任务。然而，真实的人类指令天生具有模糊性，因为人类说话者假定他们对自己的隐藏目标和意图有足够的先验知识。标准的语言基础和规划方法无法解决这种模糊性，因为它们没有将人类内部目标建模为环境中额外的部分可观察因素。我们提出了一种新的框架，即“通过社会和具身推理遵循指令”(FISER)，旨在更好地在合作具身任务中遵循自然语言指令。我们的框架将对人类目标和意图的明确推断作为中间推理步骤。我们实现了一组基于 Transformer 的模型，并在一个具有挑战性的基准测试 HandMeThat 上对其进行了评估。我们通过实验证明，在制定行动计划之前使用社会推理来明确推断人类意图，优于纯粹的端到端方法。我们还将我们的实现与强大的基线进行了比较，包括在最大可用的预训练语言模型上进行的思维链提示，发现 FISER 在所研究的具身社会推理任务中提供了更好的性能，在 HandMeThat 上达到了最先进的水平。

发布时间: 9/27/2024

查看原文

解释解释

作者: Sergei Nirenburg, Marjorie McShane, Kenneth W. Goodman, Sanjay Oruganti

在高风险人工智能系统中，解释是人们对其产生信心的关键。然而，基于机器学习的系统（占目前几乎所有人工智能）无法解释，因为它们通常是黑盒子。可解释人工智能 (XAI) 运动通过重新定义“解释”来解决这个问题。以人为本的可解释人工智能 (HCXAI) 运动识别了用户的解释需求，但由于其对机器学习的承诺，无法满足这些需求。为了实现现实世界中从事关键领域的人员所需的解释类型，我们必须重新思考如何处理人工智能。我们描述了一种开发认知代理的混合方法，该方法使用基于知识的基础设施，并在适用时补充通过机器学习获得的数据。这些代理将作为人类的助手，人类将对人机团队的决策和行动承担最终责任。我们使用演示系统的“内部面板”来说明此类代理的解释潜力，在该系统中，模拟机器人的团队协作完成人类分配的搜索任务。

发布时间: 9/27/2024

查看原文