arXiv 论文列表

Takin：一组性能卓越的零样本语音生成模型

随着大数据和大型语言模型时代的到来，零样本个性化快速定制已成为一项重要趋势。本报告介绍了 Takin AudioLLM，这是一系列技术和模型，主要包括 Takin TTS、Takin VC 和 Takin Morphing，专门为有声读物制作而设计。这些模型能够进行零样本语音生成，生成与真人语音几乎无法区分的高质量语音，并帮助用户根据自己的需求定制语音内容。具体而言，我们首先介绍 Takin TTS，这是一种神经编码语言模型，它基于增强的神经语音编码器和多任务训练框架，能够以零样本的方式生成高保真自然语音。对于 Takin VC，我们主张一种有效的音调和内容联合建模方法，以提高说话人相似度，同时倡导基于条件流匹配的解码器以进一步增强其自然度和表现力。最后，我们提出了 Takin Morphing 系统，它采用了高度解耦的先进音调和韵律建模方法，使个人能够以精确且可控的方式使用自己喜欢的音调和韵律来定制语音生成。大量的实验验证了我们的 Takin AudioLLM 系列模型的有效性和鲁棒性。有关详细演示，请访问 https://everest-ai.github.io/takinaudiollm/。

发布时间: 9/24/2024

查看原文

Multi-News+: 基于大语言模型的数据标注实现成本高效的数据集清理

数据集的质量对于确保下游任务模型的最佳性能和可靠性至关重要。然而，数据集在构建过程中往往会无意中包含噪声数据。为了纠正这个问题，人们做了很多尝试，例如使用人工标注员。然而，雇佣和管理人工标注员既昂贵又耗时。作为替代方案，最近的研究正在探索使用大型语言模型 (LLM) 进行数据标注。本研究提供了一个案例研究，将基于 LLM 的数据标注应用扩展到通过清理策略来提高现有数据集的质量。具体来说，我们利用思维链和多数投票等方法来模拟人工标注，并从广泛用于多文档摘要任务的多新闻数据集 (Multi-News) 中识别无关文档。通过我们提出的清理方法，我们引入了增强的 Multi-News+。通过利用 LLM 进行数据清理，我们展示了一种高效且有效的方法来提高数据集质量，而无需依赖昂贵的人工标注工作。

发布时间: 9/24/2024

查看原文

OmniBench：迈向通用全语言模型的未来

最近在多模态大型语言模型（MLLMs）方面的进展旨在整合和解释各种模态的数据。然而，这些模型同时处理和推理多种模态的能力仍然没有得到充分探索，部分原因是缺乏全面的模态基准测试。我们引入了OmniBench，这是一个新颖的基准测试，旨在严格评估模型同时识别、解释和推理视觉、声音和文本输入的能力。我们将能够进行这种三模态处理的模型定义为全语言模型（OLMs）。OmniBench以高质量的人类注释为特色，确保准确的回答需要对所有三种模态的综合理解和推理。我们的主要发现表明：i) 大多数OLMs在三模态环境中的指令跟随和推理能力方面存在关键限制；ii) 大多数基线模型即使在提供图像或/和音频的替代文本表示时，表现也很差（准确率低于50%）。这些结果表明，在现有的MLLM训练范式中，从文本、图像和音频构建一致上下文的能力常常被忽视。我们倡导未来的研究应重点开发更强大的三模态集成技术和训练策略，以提高OLM在各种模态中的表现。代码和实时排行榜可以在https://m-a-p.ai/OmniBench找到。

发布时间: 9/24/2024

查看原文

Archon：一种用于推理时技术的架构搜索框架

推理时间技术正在成为提升大规模语言模型（LLM）能力的高效工具。然而，目前对于如何开发结合推理时间技术和一个或多个LLM的系统的最佳实践仍然理解有限，面临的挑战包括：（1）有效分配推理计算预算，（2）理解不同组合的推理时间技术之间的相互作用及其对下游性能的影响，以及（3）高效搜索模型选择、推理时间技术及其组合的庞大空间。为了解决这些挑战，我们引入了Archon，一个用于设计推理时间架构的自动化框架。Archon定义了一个可扩展的设计空间，涵盖了生成集成、多样采样、排序、融合、批判、验证和单元测试等方法。然后，它将选择和组合LLM和推理时间技术的问题转化为超参数优化目标。为了优化这一目标，我们引入了自动化推理时间架构搜索（ITAS）算法。给定目标基准、推理计算预算和可用的LLM，ITAS输出优化的架构。我们在包括MT-Bench、Arena-Hard-Auto、AlpacaEval 2.0、MixEval、MixEval Hard、MATH和CodeContests在内的广泛指令跟随和推理基准上评估了Archon架构。我们展示了Archon自动设计的推理时间架构在这些基准上优于强大的模型，如GPT-4o和Claude 3.5 Sonnet，在所有源模型和开源模型上分别实现了平均14.1和10.3个百分点的提升。我们在Github上公开了我们的代码和数据集：https://github.com/ScalingIntelligence/Archon。

发布时间: 9/24/2024

查看原文

面向API的代码生成在大型语言模型中的综合评估框架

大型语言模型（LLMs），如 GitHub Copilot 和 ChatGPT，作为代码生成的强大工具已经出现，显著提升了生产力并加速了软件开发。然而，现有的基准测试主要关注通用代码生成，而未考虑面向 API 的代码生成，即生成调用特定库 API 的代码。鉴于对面向 API 的代码生成的需求不断增长，迫切需要一种系统且自动化的方法来评估 LLM 在面向 API 的代码生成上的表现。为了解决这一问题，我们提出了 AutoAPIEval，这是一种轻量级和自动化的框架，旨在评估 LLM 在面向 API 的代码生成方面的能力。我们的框架适用于任何提供 API 文档的库，并聚焦于两个单元任务：API 推荐和代码示例生成，同时通过四个指标来评估生成的 API 和代码示例，例如任务 1 中的错误 API 推荐比例，以及任务 2 中未调用特定 API 的代码示例和无法编译/执行的代码示例比例。此外，我们对三种 LLM（ChatGPT、MagiCoder 和 DeepSeek Coder）及 Java Runtime Environment 8 进行了案例研究，以展示该框架的有效性。我们的研究结果显示，LLM 在不同任务上的表现存在显著差异，其中 ChatGPT 更好地遵循指令，而在代码示例生成方面的效果与其他模型（即 MagiCoder 和 DeepSeek Coder）相似。我们还识别了与代码质量相关的关键因素，如 API 的流行度和模型的信心，并构建了高准确率的分类器，用于检测错误的 API 推荐和错误的代码示例。检索增强生成提高了 LLM 生成代码的质量，但其有效性在不同的 LLM 之间有所不同。

发布时间: 9/24/2024

查看原文

高效调度部分填充注意力掩码的闪存注意力机制

变压器广泛应用于各种领域，其中许多生成稀疏或部分填充的注意力矩阵。例如，设计用于减少注意力二次复杂性的注意力掩码、序列打包技术以及最近的创新如用于MEDUSA快速验证的树掩码。尽管这些矩阵本质上是稀疏的，最先进的算法Flash Attention仍然以二次复杂性处理它们，仿佛它们是稠密的。在本文中，我们引入了二进制块掩码，一种高度有效的修改，增强了Flash Attention，使其具备掩码感知能力。我们进一步提出了两种优化：一种针对具有连续非零模式的掩码，另一种针对极其稀疏的掩码。我们在源自真实世界场景的注意力掩码上的实验显示了高达9倍的运行时间改进。该实现将公开发布，以促进进一步的研究和应用。

发布时间: 9/24/2024

查看原文

稀疏到密集的激光雷达点生成：通过激光雷达与相机融合实现三维物体检测

准确检测远距离的物体在依靠仅有的LiDAR传感器进行3D物体检测时仍是一个关键挑战，因为数据稀疏性固有的限制。为了解决这个问题，我们提出了LiDAR-相机增强网络(LCANet)，这是一种通过融合包含丰富语义信息的2D图像特征来重建LiDAR点云数据的创新框架，从而生成额外的点以提高检测精度。LCANet通过将图像特征投影到3D空间来融合来自LiDAR传感器和相机的数据，将语义信息整合到点云数据中。然后对这些融合的数据进行编码，生成同时包含语义和空间信息的3D特征，这些特征进一步被优化以在边界框预测之前重建最终的点。这种融合有效地弥补了LiDAR在检测远距离物体时的弱点，因为这些物体通常由稀疏的点表示。此外，由于原始数据集中许多物体的稀疏性使得点生成的有效监督具有挑战性，我们采用点云补全网络来创建一个完整的点云数据集，以监督我们网络中稠密点云的生成。在KITTI和Waymo数据集上的大量实验表明，LCANet在检测稀疏和远距离物体方面显著优于现有模型。

发布时间: 9/24/2024

查看原文

面向医学图像中任意分割的无真值评估方法

我们探索了构建一个无需真实数据的评估模型的可行性和潜力，用于评估由Segment Anything Model（SAM）及其变体生成的医学图像分割的质量。该评估模型通过分析输入图像及其对应的分割预测之间的一致性和连贯性来估计分割质量评分。基于前人的研究，我们将训练该模型的任务框架为一个回归问题，采用Dice评分（以及可选的其他指标）和均方误差来计算训练损失。模型训练使用了大量公开的医学图像数据集，以及来自SAM及其变体的分割预测。我们将此模型命名为EvanySeg（Evaluation of Any Segmentation in Medical Images）。我们对基于卷积的模型（例如ResNet）和基于变压器的模型（例如ViT）的探索表明，ViT在该任务中表现更佳。EvanySeg可以用于多种任务，包括：（1）通过检测低百分位的分割质量评分来识别分割不良的样本；（2）通过对测试样本的质量评分进行平均来在没有真实数据的情况下对分割模型进行基准测试；（3）在人机协作中通过在评分空间内应用阈值来提醒人工专家注意质量差的分割预测；（4）在测试时当有多个分割模型可用时，通过选择具有最高质量评分的预测来为每个测试样本选择最佳分割预测。模型和代码将在https://github.com/ahjolsenbics/EvanySeg上提供。

发布时间: 9/24/2024

查看原文

在函数空间嵌入知识图谱

我们介绍了一种新颖的嵌入方法，它不同于传统方法，在有限维度的函数空间中操作，而不是有限向量空间，从而显著偏离了标准的知识图谱嵌入技术。最初使用多项式函数计算嵌入，我们逐步过渡到使用具有不同层复杂度的神经网络进行更复杂的表示。我们认为，使用函数进行嵌入计算能够增强表达能力，并允许更多的自由度，从而实现诸如合成、导数和实体表示的原始操作。此外，我们详细描述了我们方法的逐步构建过程，并提供了可重复的代码，从而促进该领域的进一步探索和应用。

发布时间: 9/24/2024

查看原文

直接偏好优化的正交微调

DPO 是一种有效的偏好优化算法。然而，经过 DPO 调优的模型往往会在不受欢迎的样本上过拟合，表现为生成过长且缺乏多样性。尽管最近的正则化方法试图通过修改目标函数来缓解这一问题，但它们是以对齐性能的下降为代价实现的。在本文中，我们创新性地从权重更新的角度引入正则化来抑制对齐过拟合。通过初步实验，我们发现过拟合与超球能量波动之间存在正相关性。因此，我们通过一种权重旋转偏好优化（RoPO）方法为 DPO 引入正交微调，该方法仅对权重参数进行旋转和幅度拉伸更新，以保持超球能量不变，从而保留神经元之间角度中编码的知识。大量实验表明，我们的模型在完全符合人类偏好的同时，仅使用 0.0086% 的可训练参数就保留了原有的表达能力，表明这种方法是有效的防止过拟合的正则化方法。具体来说，RoPO 在 MT-Bench 上比 DPO 高出最多 10 分，在 AlpacaEval 2 上高出最多 2.8 分，同时在生成多样性上平均提高了 6 分。

发布时间: 9/24/2024

查看原文