arXiv 论文列表

作者: Mitodru Niyogi, Arnab Bhattacharya

本文介绍了 Paramanu-Ayn，一个专门针对印度法律案例文档训练的法律语言模型集合。该模型拥有 9700 万个参数，采用的是仅解码器（AR）自回归模型，在单个 GPU 上以 8192 的上下文大小从头开始预训练，仅训练了 185 小时，实现了 41.35 的高效 MFU。我们还开发了一个专门针对法律领域的 BPE 分词器。我们使用困惑度和零样本任务对模型进行了评估：带解释的案例判决预测和摘要式案例总结。在带解释的案例判决预测任务中，Paramanu-Ayn 的测试准确率比 Llama-2 7B 和 Gemini-Pro 高出近 2 个百分点，尽管其规模小了 72 倍。在零样本摘要式总结中，它在 BLEU 和 METEOR 指标上比生成固定长度摘要（5000 个词符）的仅解码器 LLM 高出 10 个百分点以上，在 BERTScore 指标上高出近 4 个百分点。在零样本常识和数学基准测试中，Paramanu-Ayn 表现出色，尽管它只在法律文档上进行训练，但在 AGIEVAL-AQuA-RAT 和 AGIEVAL-SAT-Math 任务中仍然优于 Llama-1、Llama-2 和 Falcon。我们还在 10763 个不同的法律任务上对我们的模型进行了指令微调，包括法律条款生成、法律草案、案例摘要等。Paramanu-Ayn-instruct 模型在清晰度、相关性、完整性和法律推理指标上均获得了 GPT-3.5-Turbo 的 8 分以上。我们发现，我们的模型能够学习起草知识，并能够在有限的指令微调下泛化到法律合同和法律条款的起草。因此，我们得出结论，对于强大的领域专用生成语言模型（如法律），从头开始进行领域专用预训练更加经济高效、环保，并且在与更大模型的竞争中仍然具有优势，甚至优于将 LLM 调整用于法律领域任务。

发布时间: 10/4/2024

查看原文

人机博弈：战争游戏模拟中专家与语言模型的行为差异

作者: Max Lamparth, Anthony Corso, Jacob Ganz, Oriana Skylar Mastro, Jacquelyn Schneider, Harold Trinkunas

有些人认为，人工智能（AI）的出现将带来更好的决策和更高的军事效能，同时减少人为错误和情绪的影响。然而，关于 AI 系统，尤其是可应用于多种任务的大型语言模型（LLM）在高风险军事决策场景中的行为与人类相比如何，以及其是否会增加升级风险，仍然存在争议。为了测试这种可能性并审查 LLM 用于此类目的的用途，我们设计了一个新的战争游戏实验，该实验邀请了 214 位国家安全专家，旨在考察在一个虚构的中美场景中危机升级的情况，并将人类玩家团队的行为与 LLM 模拟的团队反应在独立的模拟中进行比较。结果表明，LLM 模拟的反应可能更具侵略性，并且会受到场景变化的显著影响。我们发现 LLM 和人类反应在高层面上有相当大的共识，但在个体行动和战略倾向方面存在显著的定量和定性差异。这些差异取决于 LLM 中关于在战略指令下适当暴力程度的内在偏差、LLM 的选择，以及 LLM 是直接为玩家团队做出决定，还是先模拟玩家团队之间的对话。在模拟对话时，讨论缺乏质量，并保持着荒谬的和谐。LLM 模拟无法解释人类玩家的特征，即使对于“和平主义者”或“侵略性反社会者”等极端特征，也显示不出显著的差异。当探究模拟中个体行动的一致性时，测试的 LLM 之间存在偏差，但总体上表现出一定程度的一致性。我们的研究结果促使决策者在赋予自主权或遵循基于 AI 的战略建议之前谨慎行事。

发布时间: 10/4/2024

查看原文

未来依赖型价值函数在离策略评估中对未来和历史的诅咒

作者: Yuheng Zhang, Nan Jiang

我们研究了具有复杂观测的部分可观测环境中的离线策略评估 (OPE)，目标是开发估计器，其保证避免对时间范围的指数依赖。虽然此类估计器存在于 MDP 中，并且 POMDP 可以转换为基于历史的 MDP，但它们的估计误差依赖于 MDP 的状态密度比，该比率在转换后变为历史比率，这是一个指数对象。最近，Uehara 等人 [2022a] 提出了未来依赖价值函数作为解决此问题的有希望的框架，其中无记忆策略的保证取决于潜状态空间上的密度比。然而，它也依赖于未来依赖价值函数和其他相关量的有界性，我们证明这些量可能是指数长度的，从而消除了该方法的优势。在本文中，我们发现了针对 POMDP 结构量身定制的新颖覆盖假设，例如结果覆盖和置信度覆盖，这使得上述量能够获得多项式界限。作为副产品，我们的分析还导致了具有互补特性的新算法的发现。

发布时间: 10/4/2024

查看原文

SYNFAC-EDIT：用于临床摘要中事实一致性的合成模仿编辑反馈

作者: Prakamya Mishra, Zonghai Yao, Parth Vashisht, Feiyun Ouyang, Beining Wang, Vidhi Dhaval Mody, Hong Yu

大型语言模型（LLM）如 GPT 和 Llama 在摘要任务中取得了显著成就，但它们在事实准确性方面存在困难，这对临床 NLP 应用来说是一个严重问题，因为错误会导致严重后果。为了应对事实对齐专家标注数据的高成本和有限可用性，本研究提出了一种创新管道，利用超过 1000 亿参数的 GPT 变体（如 GPT-3.5 和 GPT-4）作为合成专家，生成高质量的合成反馈，旨在提高临床笔记摘要中的事实一致性。我们的研究主要集中在这些合成反馈专家生成的编辑反馈上，无需额外的人工标注，反映并优化了医疗专业人员完善 AI 系统输出的实际场景。尽管这些 1000 亿+ 参数的 GPT 变体已被证明在各种临床 NLP 任务中表现出专业知识，例如医学执照考试，但关于它们作为合成反馈专家和提供专家级编辑反馈以提高较弱（<100 亿参数）LLM（如 GPT-2 (1.5B) 和 Llama 2 (7B)）在临床领域生成质量方面的能力的研究还很少。因此，在这项工作中，我们利用 1000 亿+ GPT 变体作为合成反馈专家，提供专家级编辑反馈，用于减少幻觉并使用两种不同的对齐算法（DPO 和 SALT）使较弱（<100 亿参数）LLM 与医疗事实对齐，努力缩小 AI 生成内容与事实准确性之间的差距。这突出了基于 LLM 的合成编辑在增强临床事实对齐方面的巨大潜力。

发布时间: 10/4/2024

查看原文

有限标注数据学习对随机性影响的敏感性：交互作用和系统性选择的冲击

作者: Branislav Pecher, Ivan Srba, Maria Bielikova

虽然在标签不足的情况下，使用有限标签数据学习可以提高性能，但它也容易受到所谓的随机性因素（例如，数据顺序变化）引入的不可控随机性的影响。我们提出了一种方法来系统地研究随机性因素的影响，同时考虑它们之间的相互作用。为了衡量单个随机性因素的真实影响，我们的方法减轻了其他因素的影响，并观察了性能在多次运行中的变化。将我们的方法应用于 7 个代表性文本分类任务上的上下文学习和微调方法以及 3 个任务上的元学习中的多个随机性因素，我们发现：1）现有工作中忽略随机性因素之间的相互作用导致了不一致的发现，因为错误地归因于随机性因素的影响，例如，即使在随机样本选择的情况下，也反驳了上下文学习对样本顺序的一致敏感性；2）除了相互作用之外，随机性因素的影响，尤其是样本顺序，还取决于现有工作中未探讨的更系统性选择，例如类别数量、每个类别的样本数量或提示格式的选择。

发布时间: 10/4/2024

查看原文

多步任务中的提示优化 (PROMST)：整合人类反馈和启发式采样

作者: Yongchao Chen, Jacob Arkin, Yilun Hao, Yang Zhang, Nicholas Roy, Chuchu Fan

提示优化旨在为给定任务找到针对大型语言模型 (LLM) 的最佳提示。LLM 已成功用于帮助查找和改进单步任务的提示候选。但是，代理的现实任务是多步骤的，并带来了新的挑战：（1）提示内容可能更广泛、更复杂，这使得 LLM 更难分析错误，（2）单个步骤的影响难以评估，以及（3）不同的人可能对任务执行有不同的偏好。虽然人类难以优化提示，但他们在提供关于 LLM 输出的反馈方面很擅长；因此，我们引入了一个新的 LLM 驱动的离散提示优化框架 PRompt Optimization in Multi-Step Tasks (PROMST)，该框架结合了人工设计的反馈规则，以自动提供改进的直接建议。我们还使用了一个额外的学习启发式模型来预测提示性能，以便从提示候选者中有效地采样。这种方法在 11 个代表性的多步骤任务中显著优于人工设计的提示和其他几种提示优化方法（分别在五个 LLM 上比当前最佳方法平均提高了 10.6%-29.3%）。我们相信我们的工作可以作为 LLM 驱动的多步骤任务的自动提示优化的基准。数据集和代码可在 https://github.com/yongchao98/PROMST 获取。项目页面可在 https://yongchao98.github.io/MIT-REALM-PROMST 获取。

发布时间: 10/4/2024

查看原文

图特征预处理器：用于金融犯罪检测的实时子图特征提取

作者: Jovan Blanu\v{s}a, Maximo Cravero Baraja, Andreea Anghel, Luc von Niederh\"ausern, Erik Altman, Haris Pozidis, Kubilay Atasu

本文介绍了“图特征预处理器”，这是一个软件库，用于实时检测金融交易图中常见的洗钱模式。这些模式被用来生成丰富的交易特征，用于下游机器学习训练和推理任务，例如检测欺诈性金融交易。我们证明了我们丰富的交易特征极大地提高了基于梯度提升的机器学习模型的预测精度。我们的库利用多核并行性，维护动态内存中的图，并在传入的交易流中有效地挖掘子图模式，使其能够以流式方式运行。我们的解决方案结合了图特征预处理器和基于梯度提升的机器学习模型，能够在反洗钱和网络钓鱼数据集上检测出比标准图神经网络更高的少数类F1分数的非法交易。此外，我们的解决方案在多核CPU上执行的端到端吞吐率超过了在强大的V100 GPU上执行的图神经网络基线。总的来说，我们的解决方案的高精度、高吞吐率和低延迟的结合证明了我们的库在实际应用中的实用价值。

发布时间: 10/4/2024

查看原文

大语言模型中采样温度对问题解决的影响

作者: Matthew Renze, Erhan Guven

在本研究中，我们实证地研究了采样温度对大型语言模型 (LLM) 在各种问题解决任务中的性能的影响。我们通过从标准 LLM 基准中随机抽取问题创建了一个多项选择问答 (MCQA) 考试。然后，我们使用九种流行的 LLM 和五种提示工程技术来解决 MCQA 问题，同时将采样温度从 0.0 提高到 1.6。尽管有轶事报道与之相反，但我们的实证结果表明，温度从 0.0 到 1.0 的变化对 LLM 在问题解决任务中的性能没有统计学上的显著影响。此外，这些结果似乎在 LLM、提示工程技术和问题领域之间具有普遍性。所有代码、数据和补充材料都可以在 GitHub 上获取：https://github.com/matthewrenze/jhu-llm-temperature

发布时间: 10/4/2024

查看原文

基于表征工程的语言模型中对齐与帮助性之间的权衡

作者: Yotam Wolf, Noam Wies, Dorin Shteyman, Binyamin Rothberg, Yoav Levine, Amnon Shashua

语言模型对齐已成为人工智能安全的重要组成部分，通过增强理想行为并抑制不良行为，实现人与语言模型之间的安全互动。对齐通常通过调整模型或插入预设对齐提示来实现。最近，表示工程，一种通过改变模型训练后的表示来改变模型行为的方法，已被证明在对齐大型语言模型 (LLM) 方面有效（Zou 等人，2023a）。表示工程在对齐导向的任务中取得了收益，例如对抗攻击抵抗力和社会偏见减少，但也显示出导致模型执行基本任务的能力下降。在本文中，我们研究了模型对齐增强与有用性下降之间的权衡。我们提出了一种理论框架，为这两个量提供界限，并证明了它们的经验相关性。首先，我们发现，在我们的框架条件下，表示工程可以保证对齐，同时也会损害有用性。其次，我们表明，有用性随着表示工程向量的范数二次方下降，而对齐则与其线性增加，表明存在一种使用表示工程的有效方案。我们通过实验证实了我们的发现，并绘制了表示工程对齐有用性的边界。

发布时间: 10/4/2024

查看原文

超越原则主义：研究实践中人工智能伦理使用的实用策略

作者: Zhicheng Lin

生成式人工智能（AI）在科学研究中的快速应用，尤其是大型语言模型（LLMs），已经超过了伦理准则的发展速度，导致了三重困境：过多的高层伦理倡议，过于抽象的原则缺乏情境和实际意义，以及过分关注限制和风险，而忽略了益处和效用。现有的方法，包括原则主义（依赖于抽象的伦理原则）、形式主义（严格应用规则）和技术解决方案主义（过度强调技术解决方案），对于解决AI在科学研究实践中的伦理挑战几乎没有提供实际指导。为了弥合抽象原则与日常研究实践之间的差距，本文提出了一种以用户为中心、受现实主义启发的方案。它概述了伦理AI应用的五个具体目标：1）理解模型训练和输出，包括偏差缓解策略；2）尊重隐私、机密性和版权；3）避免剽窃和政策违规；4）与其他替代方案相比，AI应用具有益处；5）透明且可重复地使用AI。每个目标都伴随着可操作的策略以及现实的滥用案例和纠正措施。我认为，伦理AI应用需要评估其效用与现有替代方案相比，而不是孤立的性能指标。此外，我建议制定文档指南以提高AI辅助研究的透明度和可重复性。展望未来，我们需要有针对性的专业发展、培训项目和平衡的执行机制，以促进负责任的AI使用，同时促进创新。通过完善这些伦理准则并使其适应新兴的AI能力，我们可以加速科学进步，而不损害研究诚信。

发布时间: 10/4/2024

查看原文