arXiv 论文列表

作者: Lijie Yang, Zhihao Zhang, Zhuofu Chen, Zikun Li, Zhihao Jia

大型语言模型 (LLM) 在各种自然语言处理任务中取得了重大进展，其中长上下文模型因其处理扩展输入的能力而备受关注。然而，Transformer 架构所需的不断扩大的键值 (KV) 缓存大小加剧了内存限制，尤其是在解码阶段，造成了严重的瓶颈。现有的旨在解决此瓶颈的稀疏注意力机制存在两个局限性：（1）它们往往无法可靠地识别出最相关的注意力标记，以及 (2) 它们忽略了连续 Transformer 层中标记选择的空间一致性，这会导致性能下降和标记选择方面的巨大开销。本文介绍了 TidalDecode，这是一种简单但有效的算法和系统，通过位置持久稀疏注意力来实现快速准确的 LLM 解码。TidalDecode 利用现有稀疏注意力方法选择的标记的空间一致性，并引入了一些标记选择层，这些层执行全注意力以识别具有最高注意力分数的标记，而所有其他层则使用预选标记执行稀疏注意力。这种设计使 TidalDecode 能够大幅降低稀疏注意力的标记选择开销，而不会牺牲生成结果的质量。在一组不同的 LLM 和任务上的评估表明，TidalDecode 与全注意力方法的生成性能非常接近，同时将 LLM 解码延迟降低了高达 2.1 倍。

发布时间: 10/8/2024

查看原文

随机迭代中 $\alpha$-混合的转变及其在排队论中的应用

作者: Attila Lovas

包含外生回归量的非线性时间序列模型为计量经济学、排队论、机器学习以及其他多个学科的重要模型奠定了基础。尽管这些模型十分重要，但其统计分析框架仍不完善。相比之下，针对弱相关变量，已经建立了多种版本的强大数定律和（函数）中心极限定理。本文利用耦合论证，证明了外生回归量混合性质向响应变量的传递，从而利用这些既有结论。此外，当环境过程是非平稳的，仅具有良好的混合性质时，本文研究了随机环境下的马尔可夫链，并假设其满足合适的漂移条件和小化条件。通过一种新颖的统计估计理论方法，并利用克拉美-拉奥下界，本文还建立了函数中心极限定理。此外，本文将该框架应用于单服务器排队模型。总体而言，这些结果为一大类随机迭代模型的统计分析打开了大门。

发布时间: 10/8/2024

查看原文

FreSh：用于加速神经表示学习的频率偏移

作者: Adam Kania, Marko Mihajlovic, Sergey Prokudin, Jacek Tabor, Przemys{\l}aw Spurek

隐式神经表示（INRs）最近作为一种强大的方法引起了人们的关注，它使用多层感知器（MLP）来连续表示图像、视频和 3D 形状等信号。然而，众所周知，MLP 存在低频偏差，这限制了它们准确捕获高频细节的能力。这种局限性通常通过整合高频输入嵌入或专门的激活层来解决。在这项工作中，我们证明了这些嵌入和激活通常配置了在平均情况下表现良好的超参数，但对于所考虑的特定输入信号来说，它们并非最佳，因此需要进行代价高昂的网格搜索以确定最佳设置。我们的关键观察是，未经训练的模型输出的初始频率谱与该模型在给定目标信号上的最终性能密切相关。利用这一见解，我们提出了频率偏移（或 FreSh），这是一种方法，它选择嵌入超参数以使模型初始输出的频率谱与目标信号的频率谱对齐。我们证明了这种简单的初始化技术提高了各种神经表示方法和任务的性能，实现了与广泛的超参数扫描相当的结果，但与使用默认超参数训练单个模型相比，计算开销仅略有增加。

发布时间: 10/8/2024

查看原文

命名临床实体识别基准

作者: Wadood M Abdul, Marco AF Pimentel, Muhammad Umar Salman, Tathagata Raha, Cl\'ement Christophe, Praveen K Kanithi, Nasir Hayat, Ronnie Rajan, Shadab Khan

本技术报告介绍了一个命名临床实体识别基准，用于评估医疗保健领域中的语言模型，解决从临床叙述中提取结构化信息的至关重要的自然语言处理 (NLP) 任务，以支持自动编码、临床试验队列识别和临床决策支持等应用。排行榜提供了一个标准化平台，用于评估各种语言模型（包括编码器和解码器架构）在跨多个医疗领域识别和分类临床实体的能力。利用精选的公开可用临床数据集，涵盖疾病、症状、药物、手术和实验室测量等实体。重要的是，这些实体根据观察性医疗结果合作伙伴 (OMOP) 共同数据模型进行标准化，确保跨不同医疗保健系统和数据集的一致性和互操作性，以及对模型性能的全面评估。模型性能主要使用 F1 分数进行评估，并辅以各种评估模式，以提供对模型性能的全面见解。该报告还包括对迄今为止评估的模型的简要分析，重点介绍观察到的趋势和局限性。通过建立这个基准框架，排行榜旨在促进透明度，促进比较分析，并推动临床实体识别任务的创新，解决医疗保健 NLP 中对稳健评估方法的需求。

发布时间: 10/8/2024

查看原文

PhotoReg: 基于光度法的 3D 高斯 splatting 模型配准

作者: Ziwen Yuan, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi

构建对环境的准确表示对于智能机器人在部署期间做出决策至关重要。光影逼真的环境模型的进步使机器人能够开发出超逼真的重建，这些重建可用于生成对人类检查直观的图像。特别是，最近引入的 3DGS（用多达数百万个原始椭球体描述场景）可以实时渲染。3DGS 迅速获得了突出地位。然而，一个关键的未解决问题仍然存在：如何将多个 3DGS 合并到一个单一的连贯模型中？解决这个问题将使机器人团队能够共同构建其周围环境的 3DGS 模型。这项工作的一个关键见解是利用光影逼真的重建（从 3D 结构渲染逼真的 2D 图像）和 3D 基础模型（从图像对预测 3D 结构）之间的“对偶性”。为此，我们开发了 PhotoReg，这是一个使用 3D 基础模型注册多个光影逼真 3DGS 模型的框架。由于 3DGS 模型通常由单目相机图像构建，因此它们具有“任意比例”。为了解决这个问题，PhotoReg 通过考虑这些模型中的深度估计，主动地在不同的 3DGS 模型之间强制执行比例一致性。然后，通过细粒度的光度损失迭代地细化对齐，以生成高质量的融合 3DGS 模型。我们在标准基准数据集和我们自定义收集的数据集（包括两只四足机器人）上对 PhotoReg 进行了严格评估。代码发布在 \url{ziweny11.github.io/photoreg}。

发布时间: 10/8/2024

查看原文

分阶段先验感知神经语音相位预测

作者: Fei Liu, Yang Ai, Hui-Peng Du, Ye-Xin Lu, Rui-Chen Zheng, Zhen-Hua Ling

本文提出了一种新颖的分阶段先验感知神经语音相位预测 (SP-NSPP) 模型，该模型通过两阶段神经网络从输入幅度谱预测相位谱。在初始先验构建阶段，我们初步从幅度谱预测粗略的先验相位谱。随后的细化阶段将幅度谱转换为以先验相位为条件的细化高质量相位谱。两个阶段的网络都使用 ConvNeXt v2 模块作为主干，并通过创新地引入相位谱鉴别器 (PSD) 来采用对抗性训练。为了进一步提高细化相位的连续性，我们还在细化阶段加入了时频一体化差异 (TFID) 损失。实验结果证实，与基于神经网络的无先验相位预测方法相比，所提出的 SP-NSPP 由于引入了粗略相位先验和多样化的训练标准，因此实现了更高的相位预测精度。与迭代相位估计算法相比，我们提出的 SP-NSPP 不需要多轮分阶段迭代，从而提高了生成效率。

发布时间: 10/8/2024

查看原文

6DGS：增强方向感知高斯融合体积渲染

作者: Zhongpai Gao, Benjamin Planche, Meng Zheng, Anwesa Choudhuri, Terrence Chen, Ziyan Wu

神经辐射场 (NeRF) 和 3D 高斯散射 (3DGS) 的发展极大地促进了新颖视角合成技术的进步。然而，在不影响实时渲染的情况下实现高质量仍然是一个挑战，特别是对于具有视角相关效应的基于物理的射线追踪。最近，N 维高斯 (N-DG) 引入了 6D 空间角度表示，以更好地整合视角相关效应，但高斯表示和控制方案并非最佳。在本文中，我们重新审视了 6D 高斯函数，并引入了 6D 高斯散射 (6DGS)，它增强了颜色和不透明度表示，并利用 6D 空间中的附加方向信息来优化高斯控制。我们的方法与 3DGS 框架完全兼容，通过更好地建模视角相关效应和精细细节，显著提高了实时辐射场渲染。实验表明，6DGS 显著优于 3DGS 和 N-DG，在 PSNR 上实现了高达 15.73 dB 的改进，与 3DGS 相比，高斯点数量减少了 66.5%。

发布时间: 10/8/2024

查看原文

语言模型的激活尺度控制与解读

作者: Niklas Stoehr, Kevin Du, V\'esteinn Sn{\ae}bjarnarson, Robert West, Ryan Cotterell, Aaron Schein

给定提示“罗马位于”，我们能否仅通过将少数相关激活向量乘以标量来引导语言模型将错误的预测“法国”翻转为正确的预测“意大利”？我们认为，成功干预模型是解读其内部运作的先决条件。具体而言，我们建立了一个三项目标：成功的干预应将正确和错误的词元相互翻转（有效性），并保持其他词元不受影响（忠实度），同时保持稀疏性（最小性）。利用基于梯度的优化，该目标使我们能够学习（并随后评估）一种特定类型的有效且可解释的干预：激活缩放仅修改激活向量的符号幅度，以加强、削弱或反转模型中已编码的转向方向。在合成任务中，这种干预在有效性和忠实度方面与转向向量相当，但更具最小性，使我们能够查明可解释的模型组件。我们从不同角度评估激活缩放，比较不同数据集上的性能，并将激活标量设为激活向量本身的可学习函数，以泛化到不同长度的提示。

发布时间: 10/8/2024

查看原文

利用知识图谱和大型语言模型进行法律文章推荐：以中国刑法为例

作者: Yongming Chen, Miner Chen, Ye Zhu, Juan Pei, Siyu Chen, Yu Zhou, Yi Wang, Yifan Zhou, Hao Li, Songan Zhang

大型语言模型（LLM）已在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）中，现有的基于LLM的方法...

发布时间: 10/8/2024

查看原文

实时船舶识别与地理配准，提升海上态势感知能力

作者: Borja Carrillo Perez

在航运基础设施至关重要的时代，先进的态势感知解决方案变得越来越重要。光学相机系统的使用可以实现对海事影像的实时应用。本论文探讨了利用深度学习和计算机视觉来推进实时船舶识别和地理配准，以改善海事态势感知。论文介绍了一个新的数据集 ShipSG，包含 3,505 张图像和 11,625 个船舶掩码，以及相应的类别和地理位置。在探索最先进技术的基础上，论文为 NVIDIA Jetson AGX Xavier 嵌入式系统设计了一个定制的实时分割架构 ScatYOLOv8+CBAM。该架构在 YOLOv8 中添加了二维散射变换和注意力机制，实现了 75.46% 的 mAP 和 25.3 毫秒的每帧处理时间，比最先进的方法性能提高了 5% 以上。为了提高嵌入式系统中高分辨率图像中小型和远距离船舶的识别率，论文引入了一种增强的切片机制，将 mAP 提高了 8% 到 11%。此外，论文提出了一种地理配准方法，对距离 400 米以内的船舶的定位误差为 18 米，对距离 400 米到 1200 米的船舶的定位误差为 44 米。研究结果还应用于现实世界场景，例如异常船舶行为检测、摄像头完整性评估和 3D 重建。本论文的方法优于现有方法，并为将识别和地理配准的船舶集成到实时系统中提供了一个框架，从而提高了海事利益相关者的运营效率和决策能力。本论文通过建立船舶分割和地理配准研究的基准，证明了基于深度学习的识别和地理配准方法在实时海事监测中的可行性，为海事计算机视觉领域做出了贡献。

发布时间: 10/8/2024

查看原文