arXiv 论文列表

作者: Zhicheng Yang, Yinya Huang, Jing Xiong, Liang Feng, Xiaodan Liang, Yiwei Wang, Jing Tang

大型语言模型的提示，例如使用上下文演示，是一种主流技术，用于调用大型语言模型来执行高性能和可靠的复杂推理（例如，数学推理，常识推理），并且具有进一步促进人机协作科学发现的潜力。然而，当前的大型语言模型在提示词语和风格上很敏感且难以捉摸。在大型语言模型理解和人类编写的提示之间存在着看不见的差距。本文介绍了一种名为 Alignedcot 的与大型语言模型相协调的提示技术，该技术包括在上下文学习中进行熟练的“母语式”沟通。具体来说，它通过逐步探测、细化和格式化大型语言模型的思维链，在零样本场景中实现了始终如一且正确的逐步提示，从而在保持提示质量的同时，摆脱了手工制作的少量样本演示。我们在数学推理和常识推理方面进行了实验。我们发现，使用 Alignedcot 的大型语言模型的表现明显优于使用人工制作的演示的大型语言模型。我们进一步将 Alignedcot 应用于 GSM8K 训练集的重写，生成一个名为 GSM8K-Align 的数据集。我们观察到它对检索增强生成的好处。代码和数据可以在 https://github.com/yangzhch6/AlignedCoT 找到。

发布时间: 10/8/2024

查看原文

基于内容的音乐大型语言模型控制

作者: Liwei Lin, Gus Xia, Junyan Jiang, Yixiao Zhang

近年来，大型语言模型在音乐音频领域取得了快速发展。这些模型能够端到端地生成更高质量的音乐，一些模型还允许使用文本描述进行条件生成。然而，文本控制对音乐的控制能力本质上是有限的，因为它们只能通过元数据（如歌手和乐器）或高级表示（如流派和情绪）间接地描述音乐。我们旨在进一步为模型配备对音高、和弦和鼓轨等固有音乐语言的直接和内容驱动的控制。为此，我们贡献了 Coco-Mulla，一种用于音乐大型语言建模的内容驱动的控制方法。它使用了一种针对基于 Transformer 的音频模型量身定制的、参数高效的微调 (PEFT) 方法。实验表明，我们的方法在低资源半监督学习下实现了高质量的音乐生成，与原始模型相比，参数调整量不到 4%，并且在不到 300 首歌曲的小数据集上进行训练。此外，我们的方法能够实现有效的内容驱动的控制，我们通过和弦和节奏（音乐音频最显著的两个特征）展示了控制能力。此外，我们还表明，通过结合内容驱动的控制和文本描述，我们的系统可以实现灵活的音乐变奏生成和编排。我们的源代码和演示可在网上获取。

发布时间: 10/8/2024

查看原文

安全-健身房：一个统一的安全强化学习基准

作者: Jiaming Ji, Borong Zhang, Jiayi Zhou, Xuehai Pan, Weidong Huang, Ruiyang Sun, Yiran Geng, Yifan Zhong, Juntao Dai, Yaodong Yang

人工智能 (AI) 系统拥有推动社会进步的巨大潜力。然而，由于重大的安全问题，它们的部署往往面临障碍。安全强化学习 (SafeRL) 作为一种解决方案，可以在优化策略的同时遵守多个约束，从而解决了在安全关键场景中集成强化学习的挑战。本文介绍了一个名为 Safety-Gymnasium 的环境套件，其中包含单一和多智能体场景中的安全关键任务，接受向量和仅视觉输入。此外，我们还提供了一个名为安全策略优化 (SafePO) 的算法库，其中包含 16 种最先进的 SafeRL 算法。这个全面的库可以作为研究社区的验证工具。通过引入这个基准，我们旨在促进安全性能的评估和比较，从而推动强化学习的发展，使其在现实世界中的应用更加安全、可靠和负责任。该项目的网站可访问 https://sites.google.com/view/safety-gymnasium。

发布时间: 10/8/2024

查看原文

罕见事件预测综述

作者: Chathurangi Shyalika, Ruwan Wickramarachchi, Amit Sheth

罕见事件预测涉及使用机器学习 (ML) 和数据分析来识别和预测低概率事件。由于数据分布不均衡，常见事件的频率远远超过罕见事件，因此需要在 ML 管道的每个步骤中使用专门的方法，例如从数据处理到算法再到评估协议。预测罕见事件的发生对于现实世界中的应用（例如工业 4.0）非常重要，并且是统计学和 ML 中的一个活跃研究领域。本文全面回顾了罕见事件预测的当前方法，涵盖了四个方面：罕见事件数据、数据处理、算法方法和评估方法。具体来说，我们考虑了来自不同模态（即数值、图像、文本和音频）的 73 个数据集，四类主要的数据处理类别，五类主要算法分组和两种更广泛的评估方法。本文旨在识别当前文献中的差距，并强调预测罕见事件的挑战。它还提出了潜在的研究方向，可以帮助指导从业者和研究人员。

发布时间: 10/8/2024

查看原文

FheFL：支持拜占庭用户的全同态加密友好隐私保护联邦学习

作者: Yogachandran Rahulamathavan, Charuka Herath, Xiaolan Liu, Sangarapillai Lambotharan, Carsten Maple

联邦学习 (FL) 技术旨在缓解传统机器学习范式中的数据隐私问题。虽然 FL 确保用户的數據始终保留在用户手中，但梯度會与中央服务器共享以构建全局模型。这会导致隐私泄露，服务器可以从共享的梯度中推断出私密信息。为了缓解这一缺陷，下一代 FL 架构提出了加密和匿名化技术来保护模型更新免受服务器的攻击。然而，这种方法会带来其他挑战，例如恶意用户共享虚假梯度。由于梯度被加密，服务器无法识别恶意用户。为了缓解这两种攻击，本文提出了一种基于全同态加密 (FHE) 方案的新型 FL 算法。我们开发了一种分布式多密钥加法同态加密方案，支持 FL 中的模型聚合。我们还在加密域内开发了一种新颖的聚合方案，利用用户的非中毒率，有效地解决数据中毒攻击，同时确保所提出的加密方案保护隐私。我们提供了严格的安全、隐私、收敛和实验分析，表明 FheFL 是新颖、安全和私密的，并在合理的计算成本下实现了可比的精度。

发布时间: 10/8/2024

查看原文

数据顾问：大型语言模型安全对齐的动态数据管理

作者: Fei Wang, Ninareh Mehrabi, Palash Goyal, Rahul Gupta, Kai-Wei Chang, Aram Galstyan

数据是大型语言模型 (LLM) 对齐的关键要素。最近的研究探索了使用 LLM 进行高效数据收集。然而，LLM 生成的數據往往存在質量问题，例如代表性不足或缺失的方面以及低质量数据点。为了解决这些问题，我们提出了 Data Advisor，这是一种增强的基于 LLM 的方法，用于生成考虑目标数据集特性的数据。从一组预定义的原则入手，Data Advisor 监控生成数据的状况，识别当前数据集的弱点，并相应地建议下一轮数据生成。Data Advisor 可以轻松地集成到现有的数据生成方法中，以提高数据质量和覆盖率。对三个代表性 LLM（即 Mistral、Llama2 和 Falcon）进行的安全对齐实验表明，Data Advisor 在增强模型安全性方面非常有效，可以防止各种细粒度的安全问题，而不会牺牲模型效用。

发布时间: 10/8/2024

查看原文

有偏情况下回归一致预测

作者: Matt Y. Cheung, Tucker J. Netherton, Laurence E. Court, Ashok Veeraraghavan, Guha Balakrishnan

不确定性量化对于解释机器学习算法在高影响力应用中的不完美预测至关重要。一致性预测 (CP) 是一种强大的不确定性量化框架，它可以生成具有有效覆盖率的校准预测区间。在这项工作中，我们研究了 CP 区间如何受到偏差的影响——预测与真实值之间的系统偏差——这种现象在许多现实世界应用中普遍存在。我们研究了偏差对两种不同类型调整的区间长度的影响——对称调整，即对区间两侧进行相同调整的传统方法，以及非对称调整，一种更灵活的方法，可以对区间在正方向或负方向进行不等调整。我们通过理论和实证分析来描述对称和非对称调整如何影响回归任务中 CP 区间的“紧密度”。具体而言，对于绝对残差和基于分位数的非一致性评分，我们证明了：1) 对称调整的区间长度上限增加 $2|b|$，其中 $b$ 是一个全局应用的标量值，代表偏差，2) 非对称调整的区间长度不受偏差影响，以及 3) 非对称调整的区间长度保证小于对称调整的区间长度的条件。我们的分析表明，即使预测结果与真实值存在显著偏差，非对称调整的区间仍然能够保持与没有偏差时的相同紧密度和有效性，而对称调整的区间长度会显著膨胀。我们通过两个现实世界的预测任务来证明我们的理论结果：稀疏视图计算机断层扫描 (CT) 重建和时间序列天气预报。我们的工作为构建更具偏差鲁棒性的机器学习系统铺平了道路。

发布时间: 10/8/2024

查看原文

TextHawk2：一种在双语 OCR 和接地任务中表现卓越的大型视觉语言模型，其令牌数量减少了 16 倍

作者: Ya-Qi Yu, Minghui Liao, Jiwen Zhang, Jihao Wu

大型视觉语言模型（LVLM）在执行高级任务时，需要具备阅读密集文本和定位图像中的物体这两项基本能力。之前的LVLM，包括 GPT-4o 等出色的专有模型，在同时出色地完成这两项任务方面都存在困难。此外，以前那些具有细粒度感知能力的LVLM，每张图像需要数千个令牌，这使得它们资源密集型。我们提出了 TextHawk2，这是一种双语 LVLM，它具有高效的细粒度感知能力，并在通用、OCR 和接地任务中展现出最先进的性能，而图像令牌数量仅为以前模型的 1/16。关键改进包括：(1) 令牌压缩：在 TextHawk2 的前身的高效架构基础上，TextHawk2 将每张图像的令牌数量显著减少了 16 倍，从而以最少的资源促进了 TextHawk 系列的训练和部署。(2) 视觉编码器增强：我们通过 LVLM 协同训练增强了视觉编码器，使其能够胜任以前从未见过的任务，如中文 OCR 和接地。(3) 数据多样性：我们保持了 1 亿个样本的可比规模，同时使预训练数据的来源多样化。我们在多个基准测试中评估了 TextHawk2，它始终表现出优异的性能，并超越了规模类似的闭源模型，例如在 OCRBench 上实现了 78.4% 的准确率，在 ChartQA 上实现了 81.4% 的准确率，在 DocVQA 上实现了 89.6% 的 ANLS，在 RefCOCOg-test 上实现了 88.1% 的准确率@0.5。

发布时间: 10/8/2024

查看原文

GLEE：一个统一的语言经济环境框架和基准

作者: Eilam Shapira, Omer Madmon, Itamar Reinman, Samuel Joseph Amouyal, Roi Reichart, Moshe Tennenholtz

大型语言模型（LLM）在经济和战略互动中展现出巨大潜力，因为自然语言交流在这些互动中普遍存在。这引发了关键问题：LLM 是否理性行事？它们能否模仿人类行为？它们是否倾向于达到有效且公平的结果？自然语言在战略互动中扮演什么角色？经济环境的特征如何影响这些动态？这些问题对于将基于 LLM 的代理集成到现实世界的数据驱动系统（如在线零售平台和推荐系统）的经济和社会影响至关重要。虽然机器学习社区一直在探索 LLM 在此类多代理设置中的潜力，但不同研究之间的假设、设计选择和评估标准差异使得难以得出可靠且有意义的结论。为了解决这个问题，我们引入了一个基准，用于标准化关于两人、顺序、基于语言的游戏的研究。受经济学文献的启发，我们定义了三个基本游戏家族，它们具有一致的参数化、自由度和经济指标，用于评估代理的表现（自我收益）以及游戏结果（效率和公平性）。我们开发了一个用于互动模拟和分析的开源框架，并利用它收集了一个跨众多游戏配置的 LLM 与 LLM 互动数据集，以及一个人类与 LLM 互动数据集。通过广泛的实验，我们证明了我们的框架和数据集可用于：（i）比较基于 LLM 的代理在各种经济环境中的行为与人类玩家的行为；（ii）评估代理在个人和集体绩效指标上的表现；以及（iii）量化环境的经济特征对代理行为的影响。

发布时间: 10/8/2024

查看原文

因果微叙事

作者: Mourad Heddaya, Qingcheng Zeng, Chenhao Tan, Rob Voigt, Alexander Zentefis

我们提出了一种从文本中分类因果微叙述的新方法。这些叙述是对目标主题的起因和/或结果的句子级解释。该方法只需要一个与主题相关的起因和结果本体，我们通过对通货膨胀叙述的应用来证明这一点。使用一个涵盖美国历史和当代新闻文章的人工标注数据集进行训练，我们评估了几个大型语言模型（LLM）在这个多标签分类任务上的表现。表现最好的模型——一个微调后的 Llama 3.1 8B——在叙述检测方面的 F1 分数为 0.87，在叙述分类方面的 F1 分数为 0.71。全面的错误分析揭示了由语言歧义带来的挑战，并强调了模型错误如何经常反映人类标注者的分歧。这项研究为从现实世界数据中提取因果微叙述建立了一个框架，在社会科学研究中具有广泛的应用。

发布时间: 10/8/2024

查看原文