arXiv 论文列表

RAG聊天机器人是否应该忘记不重要的对话？探索重要性与遗忘的心理学见解

arXiv:2409.12524v1 公告类型: 交叉摘要: 尽管检索增强生成 (RAG) 在增强长期对话方面显示出潜力，但随着对话的进行，记忆负荷的增加会降低检索的准确性。借鉴心理学见解，我们提出了 LUFY，一种简单而有效的方法，专注于激发情感的记忆，并保留不到 10% 的对话内容。在用户实验中，参与者与三种类型的 RAG 聊天机器人进行了互动，每种类型持续 2 小时，共 4 个会话，这是迄今为止对聊天机器人长期能力的最广泛评估——比现有基准测试长四倍以上。结果表明，优先考虑激发记忆的同时遗忘大部分对话内容，显著提升了用户体验。本研究推动了长期对话的前沿，并强调了遗忘对话中不重要部分的重要性。代码和数据集: https://github.com/ryuichi-sumida/LUFY

发布时间: 9/20/2024

查看原文

PRESTI：利用文本信息预测自我承认技术债务的偿还努力

技术债务是指在软件开发过程中，为了追求短期利益而做出的次优决策所带来的后果，这些决策优先考虑短期利益而非长期可维护性。自我承认的技术债务（SATD）是一种特殊形式的技术债务，由开发者在软件制品中明确记录，如源代码注释和提交消息。由于SATD可能阻碍软件开发和维护，因此估算偿还SATD所需的努力至关重要，以便我们能够有效地进行优先排序。然而，我们目前对SATD偿还的理解不足，更重要的是，我们缺乏能够根据其文本描述自动估算SATD偿还努力的方法。为了填补这一空白，我们从1,060个Apache仓库的2,568,728次提交中整理了341,740个SATD项目，并分析了SATD与非SATD项目以及不同类型SATD项目的偿还努力。此外，我们提出了一种名为PRESTI的创新方法，用于使用文本信息预测SATD的偿还努力。我们的研究结果表明，不同类型的SATD需要不同程度的偿还努力，其中代码/设计、需求和测试债务比非SATD项目需要更多的努力，而文档债务则需要较少的努力。我们评估了我们的方法，特别是基于BERT和TextCNN的模型，这些模型在估算偿还努力方面优于传统的机器学习方法和基线。此外，我们总结了在SATD偿还过程中与不同偿还努力水平相关的关键词。我们的工作旨在增强SATD偿还的优先排序和资源分配，从而提高软件开发和可维护性。

发布时间: 9/20/2024

查看原文

Hi-SLAM：通过分层分类高斯光栅化在SLAM中扩展语义

我们提出了Hi-SLAM，一种语义3D高斯喷射SLAM方法，具有新颖的分层类别表示，能够实现精确的全局3D语义映射、扩展能力以及在3D世界中的显式语义标签预测。随着环境复杂性的增加，语义SLAM系统中的参数使用量显著增加，使得场景理解变得特别具有挑战性和成本高昂。为了解决这一问题，我们引入了一种新颖的分层表示，将语义信息以紧凑的形式编码到3D高斯喷射中，利用大型语言模型（LLMs）的能力。我们进一步引入了一种新颖的语义损失，通过层间和跨层优化来优化分层语义信息。此外，我们增强了整个SLAM系统，从而提高了跟踪和映射性能。我们的Hi-SLAM在映射和跟踪精度方面均优于现有的密集SLAM方法，同时实现了2倍的操作速度提升。此外，它在小型合成场景中的语义分割渲染方面表现出竞争性能，显著减少了存储和训练时间需求。渲染FPS在带有语义信息时达到2,000，不带语义信息时达到3,000。最值得注意的是，它展示了处理包含超过500个语义类别的复杂现实世界场景的能力，突显了其宝贵的扩展能力。

发布时间: 9/20/2024

查看原文

MA-VAE：基于多头注意力机制的变分自编码器方法在多变量时间序列异常检测中的应用——以汽车耐久性动力总成测试为例

arXiv:2309.02253v2 公告类型: 替换-交叉摘要: 随着对记录数据的关注度越来越高，人工评估的能力达到极限，应用于汽车测试的自动异常检测需求日益明显。此类真实世界的数据规模庞大、多样、多变量且具有时间性，因此需要对测试对象行为进行建模。我们提出了一种带有多头注意力机制的变分自编码器（MA-VAE），该模型在无标签数据上训练时，不仅能提供极少的误报，还能检测到大部分异常情况。此外，该方法提供了一种新颖的方式来避免文献中研究的不良绕过现象。最后，该方法还引入了一种新方法，将单个窗口重新映射到连续时间序列。结果在真实工业数据集的背景下展示，并进行了多项实验以进一步研究所提出模型的某些方面。当配置得当时，它在标记异常时仅有9%的错误率，并能发现67%的异常情况。此外，MA-VAE在仅使用一小部分训练和验证子集的情况下也有潜力表现良好，但需要更复杂的阈值估计方法来实现这一点。

发布时间: 9/20/2024

查看原文

将FP8训练扩展到万亿级令牌的大型语言模型

我们首次使用FP8精度在高达2万亿个标记的数据集上训练大型语言模型——这是之前限制的20倍增长。通过这些扩展的训练运行，我们发现了FP8训练中的关键不稳定性，这些不稳定性在早期较短时间的研究中是不可观察的。我们将这些不稳定性追溯到SwiGLU激活函数的异常放大。有趣的是，我们通过分析和实证表明，这种放大仅在长时间的训练期间发生，并将其与SwiGLU权重对齐过程联系起来。为了解决这一新发现的问题，我们引入了Smooth-SwiGLU，这是一种确保FP8训练稳定而不改变函数行为的新颖修改。我们还首次展示了Adam优化器时刻的FP8量化。结合这些创新，我们成功地在256个Intel Gaudi2加速器上使用FP8精度训练了一个7B参数的模型，实现了与BF16基线相当的结果，同时提供了高达约34%的吞吐量改进。

发布时间: 9/20/2024

查看原文

迈向弥合联邦学习性能与可解释性之间的权衡：一个可信的6G无线接入网切片用例

在第六代（6G）网络环境中，多种网络切片共存，采用AI驱动的零接触管理和编排（MANO）变得至关重要。然而，确保AI黑箱在实际部署中的可信度是一个挑战。可解释AI（XAI）工具在切片生态系统中建立透明度方面发挥着关键作用。但AI性能与可解释性之间存在权衡，这对可信的6G网络切片构成了一种困境，因为利益相关者既需要高性能的AI模型以实现高效的资源分配，又需要可解释的决策过程以确保公平性、问责性和合规性。为了平衡这一权衡并受闭环自动化和XAI方法的启发，本文提出了一种新颖的解释引导的即席联邦学习（FL）方法，其中约束资源分配模型与解释器在闭环（CL）方式下交换特征的软属性以及推理预测，以实现RAN-Edge设置下非独立同分布（non-IID）数据集的透明6G网络切片资源管理。特别是，我们通过所谓的基于归因的置信度度量来定量验证解释的忠实性，该度量作为约束条件指导运行时FL优化任务的整体训练过程。在此方面，我们使用Integrated-Gradient（IG）、Input $\times$ Gradient和SHAP生成归因，以支持我们提出的即席方案，不同方法的仿真结果证实了其在解决性能-可解释性权衡方面的成功，并优于无约束的Integrated-Gradient事后FL基线。

发布时间: 9/20/2024

查看原文

多智能体市场模型能够解释AI交易者在金融市场中的影响——GARCH模型的新微观基础

arXiv:2409.12516v1 公告类型: 交叉摘要: 金融市场中的人工智能交易者引发了对其对价格形成机制和市场波动性影响的广泛关注，这对市场稳定性和监管提出了重要问题。尽管有此兴趣，但一个全面定量评估人工智能交易者具体影响的模型仍未得到开发。本研究旨在通过在多代理框架内建模人工智能交易者对市场价格形成和波动的影响来填补这一空白，利用微观基础的概念。微观基础涉及通过个体经济代理的决策和互动来理解宏观经济现象，如市场价格形成。尽管在宏观经济学中得到广泛认可，但微观基础方法在实证金融中仍未得到探索，特别是在像GARCH模型这样的模型中，该模型捕捉了波动性聚集和肥尾等关键金融统计特性。本研究提出了一种多代理市场模型，以推导GARCH模型的微观基础，包括三类代理：噪声交易者、基本面交易者和人工智能交易者。通过数学汇总这些代理的微观结构，我们建立了GARCH模型的微观基础。我们通过多代理模拟验证了该模型，确认其能够再现金融市场的典型事实。最后，我们使用这些微观基础导出的参数分析了人工智能交易者的影响，有助于更深入地理解其在市场动态中的作用。

发布时间: 9/20/2024

查看原文

基于深度三维模拟超分辨率的近实时面部动画

我们提出了一种基于神经网络的仿真超分辨率框架，该框架能够高效且逼真地将由低成本、实时物理仿真生成的面部表现提升到接近参考质量离线仿真的细节水平，后者具有更高的分辨率（在我们的例子中，元素数量增加了26倍）和精确的物理建模。我们的方法基于我们通过仿真构建训练集的能力，该训练集包含来自低分辨率和高分辨率仿真器的配对帧，这些帧在语义上相互对应。我们以面部动画作为此类仿真领域的示例，通过在两个仿真器中设置相同的肌肉驱动控制和骨骼姿态来实现这种语义一致性。我们提出的神经网络超分辨率框架从该训练集中推广到未见过的表情，补偿由于实时仿真中的有限分辨率或成本削减近似导致的两个仿真之间的建模差异，并且除了实时仿真的结果外，不需要提供任何语义描述符或参数作为输入。我们评估了我们的流程在各种表现力强的表演中的有效性，并提供了对我们提出的方案的合理变体和替代方案的比较和消融实验。

发布时间: 9/20/2024

查看原文

LLMR：基于大型语言模型诱导奖励的知识蒸馏

arXiv:2409.12500v1 公告类型: 交叉摘要: 大型语言模型在各种自然语言处理(NLP)任务中变得越来越流行，并展示了显著的性能。然而，这些模型通常计算成本高昂，难以在资源受限的环境中部署。在本文中，我们提出了LLMR，一种基于大型语言模型诱导的奖励函数的新型知识蒸馏(KD)方法。我们在对话生成和摘要任务的多个数据集上进行了实验。实证结果表明，我们的LLMR方法在不同任务和数据集上始终优于传统的KD方法。

发布时间: 9/20/2024

查看原文

LLaMA-Adapter：零初始化注意力机制下的高效语言模型微调

我们提出了LLaMA-Adapter，一种轻量级的适应方法，用于高效地将LLaMA微调为指令跟随模型。通过使用52K条自我指令演示，LLaMA-Adapter仅在冻结的LLaMA 7B模型上引入了1.2M可学习参数，并且在8个A100 GPU上进行微调的时间不到一小时。具体来说，我们采用了一组可学习的适应提示，并将它们前置到更高Transformer层的词标记中。然后，我们提出了一种零初始化的注意力机制，带有零门控，它能够自适应地将新的指令线索注入LLaMA，同时有效地保留其预训练的知识。通过我们的高效训练，LLaMA-Adapter能够生成高质量的响应，与完全微调的7B参数的Alpaca相当。除了语言指令外，我们的方法还可以简单地扩展到多模态指令，用于学习图像条件下的LLaMA模型，在ScienceQA和COCO Caption基准测试中实现了卓越的推理性能。此外，我们还评估了零初始化的注意力机制在其他预训练模型（ViT，RoBERTa）上的微调效果，展示了我们方法的优越泛化能力。代码已在https://github.com/OpenGVLab/LLaMA-Adapter发布。

发布时间: 9/20/2024

查看原文