arXiv 论文列表

作者: Ziyin Zhang, Jiahao Xu, Tian Liang, Xingyu Chen, Zhiwei He, Rui Wang, Zhaopeng Tu

投机解码 (SD) 已成为加速大型语言模型推理速度的一项重要技术。传统的 SD 方法采用固定的草稿长度，忽略了不同任务中令牌生成难度的差异。因此，本文针对此问题，提出了一种难度感知的动态草稿长度策略 SVIP，用于投机解码系统。基于草稿令牌接受率的理论下界及其推理时间的近似值，SVIP 根据每个草稿令牌分布的熵自适应地确定草稿序列的长度。在主流 SD 基准和框架上的实验结果证明了 SVIP 的优越性能，在 SpecBench 上比基线 SD 方法最多可实现 20% 的运行时间加速，在 MT-Bench 上对于长达 8K 个令牌的长文本生成可实现 60% 的加速。此外，SVIP 完全无需训练，并且兼容任何现有自回归生成草稿令牌的 SD 方法。实验结果还表明，SVIP 在 GliDe & CaPE 和 EAGLE-2 之上也获得了持续的运行时间改进。

发布时间: 11/28/2024

查看原文

用于心律失常分类的数据增强和迁移学习的合成ECG生成

作者: Jos\'e Fernando N\'u\~nez, Jamie Arjona, Javier B\'ejar

深度学习模型需要足够的数据才能找到其中的隐藏模式。生成模型的目的是学习数据分布，从而允许我们采样更多数据并扩充原始数据集。在生理数据，更具体地说是在心电图 (ECG) 数据的背景下，鉴于其敏感性以及昂贵的数据收集成本，我们可以利用生成模型的优势来扩大现有数据集并改进下游任务，在本例中是心律分类。在这项工作中，我们探索了使用深度学习的不同生成模型（即 Diffweave、Time-Diffusion 和 Time-VQVAE）生成的合成数据在获得两个开源多变量 ECG 数据集的更好分类结果方面的效用。此外，我们还研究了迁移学习的影响，方法是微调一个合成预训练模型，然后逐步添加越来越多的真实数据。我们的结论是，尽管合成样本类似于真实样本，但仅仅通过扩充真实数据集来提高分类效果在单个数据集上几乎不明显，但当合并两个数据集时，当使用合成样本作为扩充数据时，分类器的所有指标都显示出提高。根据微调结果，Time-VQVAE 生成模型优于其他模型，但其能力不足以达到仅使用真实数据训练的分类器的结果。此外，作为这项研究主要研究问题的附带效应，我们还探索了衡量合成数据与真实数据之间接近程度的方法和指标。

发布时间: 11/28/2024

查看原文

带噪声增强的连续自回归模型避免了误差累积

作者: Marco Pasini, Javier Nistal, Stefan Lattner, George Fazekas

自回归模型通常应用于离散标记序列，但最近的研究表明，以自回归的方式生成连续嵌入序列也是可行的。然而，这种连续自回归模型 (CAM) 由于推理过程中误差累积，在较长序列上的生成质量可能会下降。我们提出了一种新方法来解决这个问题，即在训练过程中向输入嵌入中注入随机噪声。此过程使模型能够抵抗推理过程中不同误差水平的影响。我们还通过引入低水平噪声的推理过程来减少误差累积。在音乐音频生成的实验表明，CAM 在保持较长序列音频质量的同时，大大优于现有的自回归和非自回归方法。这项工作为在纯自回归环境下生成连续嵌入铺平了道路，为实时和交互式生成应用开辟了新的可能性。

发布时间: 11/28/2024

查看原文

我的会议纪要写得好吗？使用多语言模型评估器评估质量

作者: Frederic Kirstein, Terry Ruas, Bela Gipp

大型语言模型（LLM）生成的会议摘要质量难以自动衡量。现有的指标，如ROUGE和BERTScore，与人工判断的相关性较低，且无法捕捉细微的错误。最近的研究表明，可以使用大型语言模型（LLM），其优势在于更好的上下文理解能力，并且无需大量人工偏好判断数据即可调整错误定义。然而，当前基于LLM的评估器存在掩盖错误的风险，只能作为一种弱替代方案，人工评估仍然是黄金标准，尽管成本高昂且难以跨研究进行比较。在这项工作中，我们提出了MESA，一个基于LLM的框架，它采用三步评估单个错误类型、多智能体讨论以改进决策以及基于反馈的自我训练来改进错误定义理解并与人工判断保持一致。我们表明，MESA的组件能够实现彻底的错误检测、一致的评分以及对自定义错误指南的适应性。使用GPT-4o作为其骨干，MESA在错误检测方面与人工判断的点双列相关性达到中等至高水平，在反映错误对摘要质量的影响方面，斯皮尔曼和肯德尔相关性达到中等水平，平均比以前的方法高0.25。该框架能够适应自定义错误指南的灵活性使其适用于各种只有少量人工标注数据的任务。

发布时间: 11/28/2024

查看原文

度量-DST：通过多样性引导的半监督度量学习来减轻选择偏差

作者: Yasin I. Tepeli, Mathijs de Wolf, Joana P. Goncalves

选择偏差对机器学习的公平性构成了严峻挑战，因为在代表性不足的数据上训练的模型可能会对欠代表的群体表现出不良行为。半监督学习策略，如自训练，可以通过将未标记数据纳入模型训练来减轻选择偏差，从而进一步了解总体分布。然而，传统的自训练方法力求包含高置信度的数据样本，这可能会强化现有的模型偏差并影响有效性。我们提出了Metric-DST，这是一种多样性引导的自训练策略，它利用度量学习及其隐式嵌入空间，通过包含更多样化的样本对抗基于置信度的偏差。在存在选择偏差的情况下，Metric-DST在生成的和具有诱导偏差的真实世界数据集以及具有内在偏差的分子生物学预测任务中学习到更鲁棒的模型。Metric-DST学习策略提供了一种灵活且广泛适用的解决方案，以减轻选择偏差并增强机器学习模型的公平性。

发布时间: 11/28/2024

查看原文

MM-Path：多模态、多粒度路径表示学习——扩展版

作者: Ronghui Xu, Hanyin Cheng, Chenjuan Guo, Hongfan Gao, Jilin Hu, Sean Bin Yang, Bin Yang

大型语言模型（LLM）在诸多自然语言处理任务中已取代传统方法。然而，在命名实体识别（NER）中，现有的基于LLM的方法…… 在智能交通的各个领域，开发有效的路径表示正变得越来越重要。虽然预训练的路径表示学习模型已显示出性能改进，但它们主要关注单模态数据（即道路网络）的拓扑结构，而忽略了与路径相关的图像（例如遥感图像）的几何和上下文特征。类似于人类的理解，整合来自多种模态的信息可以提供更全面的视角，从而提高表示精度和泛化能力。然而，信息粒度的差异阻碍了基于道路网络的路径（道路路径）和基于图像的路径（图像路径）的语义对齐，而多模态数据的异构性给有效融合和利用带来了巨大挑战。在本文中，我们提出了一种新颖的多模态、多粒度路径表示学习框架（MM-Path），该框架可以通过整合道路路径和图像路径的模态来学习通用的路径表示。为了增强多模态数据的对齐，我们开发了一种多粒度对齐策略，该策略系统地将节点、道路子路径和道路路径与其对应的图像块关联起来，确保详细的局部信息和更广泛的全局上下文同步。为了有效地解决多模态数据的异构性问题，我们引入了一个基于图的跨模态残差融合组件，旨在全面融合不同模态和粒度下的信息。最后，我们在两个大规模真实世界数据集上进行了大量的实验，在两个下游任务下验证了所提出的MM-Path的有效性。这是被KDD 2025接收的论文的扩展版本。

发布时间: 11/28/2024

查看原文

下一代网络安全设计可编程数据平面中学习函数的网络内最优分布

作者: Mattia Giovanni Spina, Edoardo Scalzo, Floriano De Rango, Francesca Guerriero, Antonio Iera

可编程数据平面 (PDP) 和网络内计算 (INC) 范式的兴起为开发能够执行高级计算任务的网络设备（交换机、网络接口卡等）铺平了道路。这使得可以在网络本身执行各种类型的算法，包括机器学习算法，以支持用户和网络服务。本文特别深入探讨了在网络中实现学习模型以支持分布式入侵检测系统 (IDS) 的问题。它提出了一种模型，该模型可以将源于将“强学习器”(SL) 模型细分为更轻量的分布式“弱学习器”(WL) 模型的 IDS 工作负载，最佳地分配到数据平面设备中；目标是确保完整的网络安全，而不会过度影响其正常运行。此外，提出了一种元启发式方法来减少数学模型提供的精确解所需的漫长计算时间，并对其性能进行了评估。进行的分析和获得的结果证明了所提出的新方法在创建智能数据平面方面的巨大潜力，这些智能数据平面可以有效地作为抵御网络攻击的第一道防线，同时最大限度地减少网络设备的额外工作负载。

发布时间: 11/28/2024

查看原文

ChatGPT 作为法国总统的演讲撰稿人

作者: Dominique Labb\'e, Cyril Labb\'e, Jacques Savoy

生成式人工智能提出了一些大型语言模型 (LLM) 来自动生成响应用户请求的消息。这些科学突破促进了新型写作助理的出现，但也带来了一些担忧。本研究的主要焦点是通过将 ChatGPT（一种 LLM）生成的文本与近期法国总统的讲话进行比较，来分析 ChatGPT 的写作风格。为此，我们将希拉克、萨科齐、奥朗德和马克龙撰写的年末致辞与 ChatGPT 自动生成的文本进行了比较。我们发现，ChatGPT 倾向于过度使用名词、所有格限定词和数字。另一方面，生成的讲话中动词、代词和副词的使用较少，平均而言，句子也过于标准化。从某些词语来看，可以观察到 ChatGPT 倾向于过度使用“必须”（devoir）、“继续”或词素“我们”（nous）。此外，GPT 很少使用助动词“是”（être），或情态动词“想要”（vouloir）或“不得不”（falloir）。此外，当提供简短文本作为示例给 ChatGPT 时，该机器可以生成风格接近原文的简短消息。最后，我们揭示了与真实的总统讲话相比，ChatGPT 的风格呈现出独特的特征。

发布时间: 11/28/2024

查看原文

G3Flow：用于姿态感知和泛化物体操作的生成式三维语义流

作者: Tianxing Chen, Yao Mu, Zhixuan Liang, Zanxin Chen, Shijia Peng, Qiangyu Chen, Mingkun Xu, Ruizhen Hu, Hongyuan Zhang, Xuelong Li, Ping Luo

基于扩散策略的3D机器人操作模仿学习取得了令人瞩目的进展。然而，要达到人类水平的灵巧性，需要无缝整合几何精度和语义理解。我们提出了G3Flow，一个新颖的框架，它利用基础模型构建实时语义流，这是一种动态的、以对象为中心的3D语义表示。我们的方法独特地结合了用于数字孪生创建的3D生成模型、用于语义特征提取的视觉基础模型以及用于连续语义流更新的鲁棒姿态跟踪。这种集成即使在遮挡的情况下也能实现完整的语义理解，同时消除了手动标注的需求。通过将语义流融入扩散策略，我们在终端约束操作和跨对象泛化方面都取得了显著改进。在五个模拟任务中的大量实验表明，G3Flow始终优于现有方法，在终端约束操作和跨对象泛化任务上的平均成功率分别高达68.3%和50.1%。我们的结果证明了G3Flow在增强机器人操作策略的实时动态语义特征理解方面的有效性。

发布时间: 11/28/2024

查看原文

基于多模态释义监督的自动语音识别系统

作者: Amruta Parulekar, Abhishek Gupta, Sameep Chattopadhyay, Preethi Jyothi

用于多语言口语自动语音识别的基于释义的增强方法。该方法通过基于释义的监督增强多模态自动语音识别系统，提高了包括印地语、马拉地语、马拉雅拉姆语、卡纳达语和尼亚雅语在内的多种语言的会话式语音识别效果。

发布时间: 11/28/2024

查看原文