arXiv 论文列表

作者: Elnara Galimzhanova, Cristina Ioana Muntean, Franco Maria Nardini, Raffaele Perego, Guido Rocchietti

近年来，许多研究表明，大型语言模型 (LLM) 在许多自然语言处理任务（如问答、文本摘要、编码和翻译）上能够取得最先进的性能。在某些情况下，LLM 提供的结果与人类专家的结果相当。这些模型最具颠覆性的创新是它们能够通过零样本或少样本提示执行任务。这种能力已成功地用于训练指令式 LLM，其中使用人类反馈的强化学习来指导模型直接遵循用户的请求。在本文中，我们研究了指令式 LLM 在对话式搜索中重写用户问题的能力，以提高对话式搜索的有效性。我们研究了哪些提示可以提供最具信息量的重写语句，从而带来最佳的检索性能。在公开可用的 TREC CAST 数据集上进行了可重复的实验。结果表明，使用指令式 LLM 重写对话式语句在 MRR 上取得了高达 25.2% 的显著改进，在 Precision@1 上取得了 31.7% 的显著改进，在 NDCG@3 上取得了 27% 的显著改进，在 Recall@500 上取得了 11.5% 的显著改进，优于最先进的技术。

发布时间: 10/11/2024

查看原文

当前语言模型是否支持 R 语言代码智能？

作者: ZiXiao Zhao, Fatemeh H. Fard

近年来，代码预训练语言模型（Code-PLMs）的快速发展推动了软件工程（SE）领域的进步，并在许多SE任务中取得了突破性成果。尽管这些模型在Java和Python等流行编程语言的SE任务中取得了最先进的性能，但科学软件及其相关语言，如R编程语言，很少能从中受益，甚至没有被评估。研究表明，R与其他编程语言有许多差异，需要特定的技术。在本研究中，我们首次对R的代码智能进行了深入探讨。为此，我们收集并开源了一个R数据集，并评估了Code-PLMs在代码摘要和方法名预测这两个任务中的性能，使用了几种设置和策略，包括Tidy-verse和Base R两种R风格的差异。我们的结果表明，所研究的模型在处理R编程语言代码时，性能出现了不同程度的下降，这得到了人工评估的支持。此外，即使经过多语言微调，并非所有模型在R特定任务中都表现出性能提升。R中的双语法范式显着影响了模型的性能，特别是在代码摘要任务中。此外，R代码库中固有的项目特定上下文在尝试跨项目训练时会显着影响性能。

发布时间: 10/11/2024

查看原文

结合软硬机器人与模仿学习，精通高接触任务

作者: Mariano Ram\'irez Montero, Ebrahim Shahabi, Giovanni Franzese, Jens Kober, Barbara Mazzolai, Cosimo Della Santina

软体机器人有潜力凭借其与环境建立安全、稳健和适应性交互的能力来彻底改变机器人系统的使用，但其精确控制仍然是一个挑战。相比之下，传统的刚性机器人提供高精度和可重复性，但缺乏软体机器人的灵活性。我们认为，在混合机器人平台中结合这些特性可以显著增强整体能力。这项工作提出了一种新颖的混合机器人平台，该平台将刚性机械手与完全开发的软体手臂集成在一起。该系统配备了必要的智能，可以通过模仿学习自主地执行灵活且可泛化的任务。物理柔软性和机器学习使我们的平台能够获得高度可泛化的技能，而刚性部件确保了精度和可重复性。

发布时间: 10/11/2024

查看原文

不再是满秩：现代语音识别模型的低秩权重训练

作者: Adriana Fernandez-Lopez, Shiwei Liu, Lu Yin, Stavros Petridis, Maja Pantic

本文探讨了从零开始训练基于 Conformer 的大规模语音识别模型的低秩权重训练这一未充分探索的领域。我们的研究证明了这种训练范式对于此类模型的可行性，并得出了一些值得注意的发现。首先，我们发现，仅将低秩结构应用于注意力模块，即使秩大幅降低 12%，也能意外地提高性能。相比之下，前馈层则面临更大的挑战，因为它们在秩降低 50% 时就开始出现性能下降。此外，我们发现初始化和逐层秩分配在低秩训练的成功中起着至关重要的作用。具体来说，采用 SVD 初始化和线性逐层秩映射可以显著提高低秩权重训练的有效性。基于这些见解，我们引入了从零开始的低秩语音模型 (LR-SMS)，该方法实现了与全秩训练相当的性能，同时显著减少了参数数量（至少减少 2 倍）并加快了训练速度（ASR 速度提高 1.3 倍，AVSR 速度提高 1.15 倍）。

发布时间: 10/11/2024

查看原文

游戏遍历基准：通过遍历二维游戏地图评估大型语言模型的规划能力

作者: Muhammad Umair Nasir, Steven James, Julian Togelius

大型语言模型 (LLMs) 近年来在生成和理解自然语言方面取得了巨大成功。虽然它们也展现出在自然语言领域之外的潜力，但这些 LLM 在多大程度上以及以何种方式进行规划仍是一个开放性问题。我们通过提出 GameTraversalBenchmark (GTB) 来研究它们的规划能力，这是一个由各种二维网格游戏地图组成的基准测试。如果 LLM 能够以最少的步骤数和最少的生成错误数遍历给定的目标，则它就成功了。我们在 GTB 上评估了多个 LLM，发现 GPT-4-Turbo 在 GTB\_Score (GTBS) 上取得了最高的 44.97% 的分数，GTBS 是一个综合评分，它结合了上述三个标准。此外，我们初步测试了大型推理模型，即 o1，它在 GTBS 上得分为 67.84%，表明该基准对于当前模型来说仍然具有挑战性。代码、数据和文档可在 https://github.com/umair-nasir14/Game-Traversal-Benchmark 获取。

发布时间: 10/11/2024

查看原文

HARIVO：利用文本到图像模型进行视频生成

作者: Mingi Kwon, Seoung Wug Oh, Yang Zhou, Difan Liu, Joon-Young Lee, Haoran Cai, Baqiao Liu, Feng Liu, Youngjung Uh

我们提出了一种从预训练的文本到图像（T2I）模型创建扩散式视频模型的方法。最近，AnimateDiff 提出了冻结 T2I 模型，只训练时间层。我们通过提出一个独特的架构来推进这种方法，该架构包含一个映射网络和逐帧标记，专门用于视频生成，同时保持原始 T2I 模型的多样性和创造性。主要创新包括用于时间平滑的新颖损失函数以及一种减轻梯度采样技术，确保尽管公共视频数据有限，也能生成逼真且时间一致的视频。我们已经成功地将特定于视频的归纳偏差整合到架构和损失函数中。我们的方法建立在冻结的 StableDiffusion 模型之上，简化了训练过程，并允许与 ControlNet 和 DreamBooth 等现成模型无缝集成。项目页面：https://kwonminki.github.io/HARIVO

发布时间: 10/11/2024

查看原文

**跳跃式采样**: 优化离散扩散模型的采样调度

作者: Yong-Hyun Park, Chieh-Hsin Lai, Satoshi Hayakawa, Yuhta Takida, Yuki Mitsufuji

扩散模型在连续域中取得了显著成功，促使人们开发了用于离散变量的离散扩散模型 (DDM)。尽管最近取得了进展，但 DDM 面临着采样速度慢的挑战。虽然像 $\tau$-跳跃这样的并行采样方法可以加速此过程，但它们引入了 *复合解码误差* (CDE)，其中真实分布与并行令牌生成中的近似值之间出现差异，导致样本质量下降。在这项工作中，我们提出了 *跳跃你的步骤* (JYS)，一种新方法，通过在不增加计算成本的情况下最小化 CDE 来优化离散采样时间步长的分配。更准确地说，我们推导出 CDE 的实用上限，并提出了一种用于搜索最佳采样计划的有效算法。在图像、音乐和文本生成方面的广泛实验表明，JYS 显着提高了采样质量，使其成为增强 DDM 性能以实现快速采样的通用框架。

发布时间: 10/11/2024

查看原文

使用模拟机械臂学习低层因果关系

作者: Miroslav Cibula, Matthias Kerzel, Igor Farka\v{s}

因果学习使人类能够预测其行为对已知环境的影响，并利用这些知识来规划更复杂行为的执行。这种知识还捕捉了环境的行为，可用于分析环境并推断其行为背后的原因。这种类型的知识在设计具有常识的智能机器人系统中也至关重要。在本文中，我们通过学习基于模拟机械臂生成的数据的正向模型和逆向模型来研究因果关系，该模拟机械臂参与了两个感觉运动任务。作为下一步，我们研究了用于分析正向模型的特征归因方法，该方法揭示了与机械臂关节和环境特征相关的状态向量各个特征对应的低级因果效应。这种类型的分析为状态表示的降维以及将知识聚合到更高层级因果效应的可解释性提供了坚实的基础。

发布时间: 10/11/2024

查看原文

基于多领域原型联邦微调的联邦域自适应增强

作者: Jingyuan Zhang, Yiyang Duan, Shuaicheng Niu, Yang Cao, Wei Yang Bryan Lim

联邦域适应 (FDA) 是一种联邦学习 (FL) 场景，其中模型跨多个具有独特数据域但共享类别空间的客户端进行训练，而无需传输私有数据。FDA 中的主要挑战是数据异质性，这会导致使用传统的基于平均的聚合方法时梯度更新出现显著差异，从而降低全局模型的效力。这进一步损害了域内和域外性能（在同一个联邦系统内，但在本地客户端之外）。为了解决这个问题，我们提出了一种名为 **多域原型联邦微调 (MPFT)** 的新框架。MPFT 使用多域原型微调预训练模型，即使用来自类别特定本地数据的域特定信息丰富预训练表示。这使得服务器上的监督学习能够推导出一个全局优化的适配器，随后将该适配器分发到本地客户端，而不会侵犯数据隐私。实证结果表明，MPFT 在域内和域外精度方面都显著优于传统方法，增强了 FDA 中的知识保存和适应。值得注意的是，MPFT 在单轮通信内实现收敛，大大降低了计算和通信成本。为了确保隐私，MPFT 应用差分隐私来保护原型。此外，我们开发了一种基于原型的特征空间劫持攻击来评估鲁棒性，确认即使经过大量的训练周期，原始数据样本也无法恢复。MPFL 的完整实现可在 \url{https://anonymous.4open.science/r/DomainFL/} 获取。

发布时间: 10/11/2024

查看原文

深度学习用于飞机燃油流量估算模型的泛化性能研究

作者: Gabriel Jarry, Ramon Dalmau, Philippe Very, Junzi Sun

准确估计飞机燃油流量对于评估新程序、设计下一代飞机以及监测当前航空实践的环境影响至关重要。本文研究了深度学习模型在预测燃油消耗方面的泛化能力，特别关注它们在训练数据中缺失的飞机类型上的性能。我们提出了一种新颖的方法，将神经网络架构与领域泛化技术相结合，以增强各种飞机的鲁棒性和可靠性。一个包含 101 种不同飞机类型（分为训练集和泛化集）的综合数据集，每种飞机类型集包含 1,000 次航班。我们使用飞机数据基础 (BADA) 模型进行燃油流量估计，引入了一种伪距离度量来评估飞机类型相似性，并探索了各种采样策略以优化数据稀疏区域中的模型性能。我们的结果表明，对于以前未见过的飞机类型，在飞机和发动机参数中引入噪声可以改善模型泛化。该模型能够以 2% 到 10% 的可接受平均绝对百分比误差泛化到与现有飞机相似的飞机，而对于训练集中的已知飞机，性能低于 1% 的误差。本研究强调了将领域特定见解与先进机器学习技术相结合的潜力，以开发可扩展、准确且可泛化的燃油流量估计模型。

发布时间: 10/11/2024

查看原文