arXiv 论文列表

作者: Howard Yen, Tianyu Gao, Minmin Hou, Ke Ding, Daniel Fleischer, Peter Izasak, Moshe Wasserblat, Danqi Chen

虽然已经出现了许多用于评估长上下文语言模型 (LCLMs) 的基准，但开发者通常依赖于合成任务，例如大海捞针 (NIAH) 或任务的任意子集。这些方法是否能转化为 LCLMs 的各种下游应用尚不清楚，这种不一致性进一步加剧了模型比较的难度。我们调查了当前做法背后的根本原因，发现现有的基准由于应用覆盖率低、长度不足、指标不可靠以及与基础模型不兼容，往往会产生噪声信号。在这项工作中，我们提出了 HELMET（如何有效且彻底地评估长上下文模型），这是一个包含七个不同应用为中心的类别的综合基准。我们还通过添加高达 128k 个标记的可控长度、基于模型的评估以获得可靠指标以及少样本提示以稳健地评估基础模型，解决了以前基准中的许多问题。因此，我们证明 HELMET 提供了更可靠和一致的前沿 LCLMs 排名。通过对 51 个 LCLMs 的全面研究，我们发现：(1) 像 NIAH 这样的合成任务不是下游性能的良好预测指标；(2) HELMET 中的不同类别表现出不同的趋势，彼此之间相关性很低；(3) 虽然大多数 LCLMs 在 NIAH 任务中取得了完美的分数，但当任务需要全上下文推理或遵循复杂指令时，开源模型明显落后于闭源模型——差距随着长度的增加而扩大。最后，我们建议使用我们的 RAG 任务进行快速模型开发，因为它们易于运行，并且更能预测其他下游性能；最终，我们主张在各种任务中进行全面评估。

发布时间: 10/4/2024

查看原文

发现伪造语言模型水印的线索

作者: Thibaud Gloaguen, Nikola Jovanovi\'c, Robin Staab, Martin Vechev

大型语言模型（LLM）水印作为一种有前景的方式，可以用来确定LLM生成的文本的归属权。然而，水印可信度面临着一项威胁，即欺骗攻击，在这种攻击中，未经授权的第三方会伪造水印，从而将任意文本错误地归属于特定的LLM。虽然最近的研究表明，最先进的方案实际上容易受到欺骗攻击，但它们缺乏对欺骗方法产生的文本的更深入的定性分析。在这项工作中，我们首次揭示了真实水印文本和伪造水印文本之间存在可观察到的差异。具体来说，我们表明，无论其底层方法如何，所有当前的欺骗方法都会在伪造文本中留下可观察到的伪影，表明水印被伪造。我们利用这些发现提出了严格的统计检验，可以可靠地揭示这些伪影的存在，有效地发现水印是否被伪造。我们的实验评估表明，在所有当前的欺骗方法中，测试能力都很高，这为其基本局限性提供了见解，并提出了一种减轻这种威胁的方法。

发布时间: 10/4/2024

查看原文

面向用户的沉浸式6G通信：基于数字孪生的数据驱动方法

作者: Conghao Zhou, Shisheng Hu, Jie Gao, Xinyu Huang, Weihua Zhuang, Xuemin Shen

本文提出了一种面向用户的沉浸式通信 (IC) 服务提供方案，旨在解决 6G 中个人用户行为的不确定性，同时满足多感官体验质量的独特需求。为此，我们提出了一种面向数据的网络资源管理方法，该方法以个性化数据管理为特色，可以支持针对不同用户需求量身定制的网络模型。我们的方法利用数字孪生 (DT) 技术作为关键推动因素。特别是，为每个用户建立一个 DT，并且根据用户的特点定制 DT 中的数据属性。DT 功能对应于各种数据操作，在网络模型的开发、评估和更新中进行定制，以满足独特的用户需求。一个基于跟踪的案例研究证明了我们的方法在实现以用户为中心的 IC 方面的有效性，以及个性化数据管理在 6G 中的重要性。

发布时间: 10/4/2024

查看原文

日常两难：用日常生活难题揭示大型语言模型的价值偏好

作者: Yu Ying Chiu, Liwei Jiang, Yejin Choi

随着我们越来越依赖大型语言模型（LLM）来指导日常生活中的决策，许多决策并非易事，很大程度上取决于用户的个人价值观和道德标准。我们提出了 DailyDilemmas 数据集，包含 1360 个日常生活中遇到的道德困境。每个困境包含两种可能的行动，以及每种行动所涉及的受影响方和人类价值观。基于这些困境，我们整合了一组跨越日常主题（如人际关系、工作场所和环境问题）的人类价值观。我们评估了 LLM 在这些困境中的表现，以确定它们会采取什么行动以及这些行动所代表的价值观。然后，我们通过五个受社会学、心理学和哲学启发的流行理论分析了这些价值观。这些理论分别是：世界价值观调查、道德基础理论、马斯洛需求层次理论、亚里士多德美德理论和普鲁切克情绪轮。我们发现，根据世界价值观调查，LLM 最符合自我表达而非生存价值观；根据道德基础理论，LLM 最符合关怀而非忠诚价值观。有趣的是，我们发现模型在一些核心价值观（如诚实）方面的偏好存在很大差异，例如，Mixtral-8x7B 模型倾向于忽略诚实（9.7%），而 GPT-4-turbo 模型倾向于选择诚实（9.4%）。我们还研究了 OpenAI（ModelSpec）和 Anthropic（Constitutional AI）最近发布的指南，以了解他们在面对日常生活中细致入微的道德推理时，其发布的原则如何反映其实际的价值优先级。我们发现，最终用户无法使用系统提示有效地引导这种优先级。

发布时间: 10/4/2024

查看原文

无指令训练数据下的端到端语音助手蒸馏

作者: William Held, Ella Li, Michael Ryan, Weiyan Shi, Yanzhe Zhang, Diyi Yang

语音助手（如 Siri 和 Google Assistant）通常分别对音频和文本进行建模，导致语音信息丢失和复杂度增加。最近，人们试图通过使用监督微调 (SFT) 训练端到端语音大型语言模型 (LLM) 来解决这个问题，但导致模型“遗忘”了仅文本 LLM 的能力。我们的工作提出了一种替代范式，使用仅文本 LLM 对转录文本的响应作为自监督来训练语音 LLM，而无需指令数据。重要的是，此过程可以在没有标注响应的情况下进行。我们证明了我们的蒸馏语音助手 (DiVA) 可以推广到口语问答、分类和翻译。此外，我们还表明，尽管 DiVA 使用的训练计算量少于 Qwen 2 Audio 等最先进模型的 100 倍，但它更能满足用户偏好，在与最先进模型的比较中取得了 72% 的胜率。

发布时间: 10/4/2024

查看原文

CulturalBench：一个鲁棒、多样化和具有挑战性的基准，用于衡量大型语言模型的文化知识（缺失）

作者: Yu Ying Chiu, Liwei Jiang, Bill Yuchen Lin, Chan Young Park, Shuyue Stella Li, Sahithya Ravi, Mehar Bhatia, Maria Antoniak, Yulia Tsvetkov, Vered Shwartz, Yejin Choi

为了使大型语言模型 (LLMs) 能够更好地服务于各种文化，建立有效的文化知识基准来衡量和跟踪我们的进展至关重要。有效的基准需要具备鲁棒性、多样性和挑战性。我们引入了 CulturalBench：一个包含 1,227 个由人工编写和验证的问题集，用于有效地评估 LLMs 的文化知识，涵盖 45 个全球地区，包括孟加拉国、津巴布韦和秘鲁等代表性不足的地区。每个问题都经过五位独立标注者的验证，涵盖 17 个不同的主题，从食物偏好到问候礼仪。我们通过两种设置评估模型：CulturalBench-Easy 和 CulturalBench-Hard，它们使用相同的问题，但提问方式不同。我们发现 LLMs 对这些设置的差异很敏感（例如，GPT-4o 的差异为 27.3%）。与人类表现（92.6% 的准确率）相比，CulturalBench-Hard 对前沿 LLMs 来说更具挑战性，表现最佳的模型 (GPT-4o) 仅为 61.5%，表现最差的模型 (Llama3-8b) 为 21.4%。此外，我们发现 LLMs 经常难以处理有多个正确答案的棘手问题（例如，中国人通常使用什么餐具？），这表明它们倾向于收敛到一个答案。我们的结果还表明，OpenAI GPT-4o 在除一个地区（大洋洲）以外的所有地区的问题上都显著优于其他专有和开源模型。然而，所有模型在与南美洲和中东相关的问题上始终表现不佳。

发布时间: 10/4/2024

查看原文

FAN：傅里叶分析网络

作者: Yihong Dong, Ge Li, Yongding Tao, Xue Jiang, Kechi Zhang, Jia Li, Jing Su, Jun Zhang, Jingjing Xu

尽管神经网络（尤其是 MLP 和 Transformer）取得了显著的成功，但我们发现它们在周期性建模和推理方面存在潜在缺陷，即它们倾向于记忆周期性数据，而不是真正理解周期性的基本原理。然而，周期性是各种推理和泛化形式中至关重要的特征，它通过观察中的重复模式支撑着自然和工程系统中的可预测性。在本文中，我们提出了 FAN，一种基于傅里叶分析的新型网络架构，它增强了有效建模和推理周期性现象的能力。通过引入傅里叶级数，周期性自然地整合到神经网络的结构和计算过程中，从而实现对周期性模式的更准确表达和预测。作为多层感知器 (MLP) 的一种有前途的替代方案，FAN 可以用更少的参数和 FLOPs 无缝地替换各种模型中的 MLP。通过大量实验，我们证明了 FAN 在建模和推理周期性函数方面的有效性，以及 FAN 在一系列现实世界任务（包括符号公式表示、时间序列预测和语言建模）中的优越性和泛化能力。

发布时间: 10/4/2024

查看原文

基于非平衡最优传输的无监督点云补全

作者: Taekyung Lee, Jaemoo Choi, Jaewoong Choi

非配对点云补全探索从非配对的不完整和完整点云数据中学习补全映射的方法。本文提出了一种利用非平衡最优传输映射进行非配对点云补全的新方法，称为用于非配对点云补全的非平衡最优传输映射 (UOT-UPC)。我们证明了非配对点云补全可以自然地解释为最优传输 (OT) 问题，并引入了非平衡最优传输 (UOT) 方法来解决非配对点云补全数据集中普遍存在的类别不平衡问题。此外，我们分析了非配对补全任务的适当成本函数。该分析表明，InfoCD 成本函数特别适合此任务。我们的模型首次尝试利用 UOT 进行非配对点云补全，在单类别和多类别数据集上都取得了具有竞争力或优异的结果。特别是，我们的模型在类别不平衡的场景中特别有效，其中不完整和完整点云数据集之间的类别比例不同。

发布时间: 10/4/2024

查看原文

AlphaIntegrator：用于符号积分证明的 Transformer 动作搜索

作者: Mert \"Unsal, Timon Gehr, Martin Vechev

我们提出了第一个基于学习的、正确性保证的逐步数学积分系统。核心思想是学习一个由 GPT 变换模型表示的策略，该策略引导搜索正确的数学积分规则，由符号求解器执行。具体来说，我们引入了一个具有公理正确性的数学表达式操作的符号引擎，以及第一个逐步积分数据集。我们的 GPT 风格变换模型在该合成数据上进行训练，通过使用 50% 更少的搜索步骤，在准确性和效率方面超越了其自身的数据生成器，展现出强大的泛化能力。我们对最先进的 LLM 的实验结果也表明，在问答对数据集上微调 LLM 的标准方法不足以解决此数学任务。这说明了探索将 LLM 与符号推理引擎相结合的创造性方法的重要性，我们的工作就是一个实例。

发布时间: 10/4/2024

查看原文

可扩展的无模拟熵不平衡最优传输

作者: Jaemoo Choi, Jaewoong Choi

最优传输 (OT) 问题研究连接两个分布的传输映射，同时最小化给定的成本函数。找到这样的传输映射在机器学习中具有广泛的应用，例如生成式建模和图像到图像的转换。本文提出了一种可扩展且无模拟的方法来解决熵均衡最优传输 (EUOT) 问题。我们推导出 EUOT 问题的动力学形式，它是薛定谔桥 (SB) 问题的推广。在此基础上，我们从随机最优控制解释推导出 EUOT 问题的对偶公式和最优性条件。利用这些性质，我们提出了一种无模拟算法来解决 EUOT，称为无模拟 EUOT (SF-EUOT)。虽然现有的 SB 模型在训练和评估过程中需要昂贵的模拟成本，但我们的模型通过利用互易性实现了无模拟训练和一步生成。与之前的 SB 方法相比，我们的模型在生成式建模和图像到图像的转换任务中展现出显著的扩展性提升。

发布时间: 10/4/2024

查看原文