arXiv 论文列表

分布级特征距离：实现机器遗忘的更好权衡——在模型效用与遗忘之间的平衡

随着深度学习应用的爆炸性增长，遗忘权在各个AI行业中的需求日益增加。例如，在一个人脸识别系统中，一些个人可能希望从训练好的模型中移除在训练阶段可能使用过的图像。不幸的是，现代深度神经网络有时会意外泄露个人身份。最近的研究提出了各种机器遗忘算法，使训练好的模型可以遗忘需要被忘记的数据。虽然这些方法通常在遗忘分数方面表现良好，但我们发现可能会出现意外的模型效用下降。这种现象，我们称之为关联崩溃，发生在机器遗忘算法减少了图像特征与真实标签之间的有用关联时。为了解决这一挑战，我们提出了分布级特征距离(DLFD)，这是一种有效遗忘实例同时防止关联崩溃的新方法。我们的方法合成数据样本，使生成的数据分布在特征空间中远离被遗忘样本的分布，在单个训练周期内就能取得有效的结果。通过对人脸识别数据集的大量实验，我们证明了我们的方法显著优于最先进的机器遗忘方法。

发布时间: 9/24/2024

查看原文

A代表吸收：研究稀疏自编码器中的特征分裂与吸收

稀疏自编码器（SAEs）已成为将大型语言模型（LLMs）的激活分解成人类可解释潜变量的有前途的方法。在本文中，我们提出了两个问题。首先，SAEs在多大程度上提取了单义且可解释的潜变量？其次，改变SAE的稀疏性或大小在多大程度上影响了单义性/可解释性？通过在一个简单的首字母识别任务中研究这些问题，我们可以详细说明每个词汇中的所有标记的真实标签。关键的是，我们识别出一种我们称之为特征吸收的问题形式，在这种情况下，表面上是单义的潜变量在明显应该激活的情况下却未能激活。我们的研究表明，改变SAE的大小或稀疏性不足以解决这个问题，存在需要解决的更深层次的概念性问题。

发布时间: 9/24/2024

查看原文

基于前提导向数据增强的逻辑阅读理解思维路径对比学习

逻辑阅读理解是一项具有挑战性的任务，需要掌握文本的潜在语义并运用推理来推导出正确答案。之前的研究主要集中于通过思维链（CoT）或数据增强来提升逻辑推理能力。然而，以往构建思维链推理的工作仅关注于分析正确选项，忽略了错误选项。此外，早期通过改变上下文进行数据增强的努力依赖于基于规则的方法，导致生成的上下文缺乏多样性和连贯性。为了解决这些问题，我们提出了一种面向前提的数据增强（PODA）框架。该框架可以生成包含正确和错误选项分析的CoT推理，同时从错误候选选项中构建多样且高质量的反事实上下文。我们将总结前提和识别每个选项的前提整合到推理中。随后，我们使用多步提示与识别的前提来构建反事实上下文。为了增强模型更好地区分每个选项相关的推理过程的能力，我们引入了一种新的思路路径对比学习方法，比较原始样本和反事实样本之间的推理路径。三个代表性的大型语言模型的实验结果表明，我们的方法可以在两个具有挑战性的逻辑推理基准（ReClor和LogiQA 2.0）上显著提升基线性能。数据和代码发布在https://github.com/lalalamdbf/TPReasoner。

发布时间: 9/24/2024

查看原文

镜像故事：通过大型语言模型实现个性化叙事生成，反映多样性

本研究探讨了大型语言模型（LLMs）在创建反映和共鸣于个体读者身份的个性化“镜像故事”方面的有效性，以应对文学中显著的多样性缺失问题。我们提出了MirrorStories，一个包含1500个个性化短篇故事的语料库，这些故事通过整合姓名、性别、年龄、种族、读者兴趣和故事道德等元素生成。我们展示了LLMs能够有效地将多样化的身份元素融入叙事中，人类评估者能够高精度地识别故事中的个性化元素。通过涉及26位多样化人类评审员的全面评估，我们比较了MirrorStories与普通叙事的有效性。结果表明，个性化的LLM生成故事不仅在所有参与度指标上超过了普通人类写作和LLM生成的故事（在5分制评分中平均得分为4.22对比3.37），而且在保持预期道德的同时实现了更高的文本多样性。我们还提供了包括偏见评估和将图像整合到个性化故事中的潜力研究在内的分析。

发布时间: 9/24/2024

查看原文

感知器的更多考量

在本文中，我们介绍了门控感知器，这是一种改进的传统感知器，增加了一个通过现有输入乘积计算得到的附加输入。这使得感知器能够捕捉特征之间的非线性交互，显著提高其在复杂数据集上的分类和回归能力。我们探讨了其在使用鸢尾花数据集进行线性和非线性回归任务中的应用，以及在包括皮马印第安数据集和威斯康星乳腺癌数据集在内的二分类和多分类问题中的应用。我们的结果表明，门控感知器能够生成比传统感知器更为明显的决策区域，增强其分类能力，特别是在处理非线性数据时。性能比较显示，门控感知器在保持简单架构的同时，可以与最先进的分类器竞争。

发布时间: 9/24/2024

查看原文

KAG：通过知识增强生成提升大型语言模型在专业领域的表现

最近开发的检索增强生成（RAG）技术使得构建领域特定的应用程序变得高效。然而，它也存在一些局限性，包括向量相似性与知识推理相关性之间的差距，以及对诸如数值、时间关系、专家规则等知识逻辑的不敏感性，这些都影响了专业知识服务的效果。在这项工作中，我们介绍了一种名为知识增强生成（KAG）的专业领域知识服务框架。KAG旨在解决上述挑战，充分利用知识图谱（KG）和向量检索的优势，通过以下五个关键方面双向增强大型语言模型（LLM）和KG，以提高生成和推理性能：(1) 友好的知识表示，(2) 知识图谱与原始块之间的互相索引，(3) 逻辑形式引导的混合推理引擎，(4) 知识与语义推理的对齐，以及(5) KAG模型能力的提升。我们在多跳问答中将KAG与现有的RAG方法进行了比较，发现其显著优于当前最先进的方法，在2wiki上F1得分相对提升了19.6%，在hotpotQA上提升了33.5%。我们已成功将KAG应用于蚂蚁集团的两个专业知识问答任务，包括电子政务问答和电子健康问答，与RAG方法相比，在专业性上取得了显著提升。

发布时间: 9/24/2024

查看原文

大型语言模型会是自动驾驶的灵丹妙药吗？

人工智能 (AI) 在自动驾驶 (AD) 研究中扮演着关键角色，推动其向智能化和高效化发展。目前，AD 技术的发展主要遵循两条技术路径：模块化和端到端。模块化将驾驶任务分解为感知、预测、规划和控制等模块，并分别进行训练。由于模块之间训练目标的不一致，集成效果容易产生偏差。端到端方法试图通过利用一个单一模型直接从传感器数据映射到控制信号来解决这个问题。但这种路径在综合特征学习能力方面有限，难以应对不可预测的长尾事件和复杂的城市交通场景。面对两条路径中的挑战，许多研究人员认为，具有强大推理能力和广泛知识理解的大型语言模型 (LLMs) 可能是解决方案，期望 LLMs 能为 AD 系统提供更深层次的理解和决策能力。为了解 LLMs 是否能够增强 AD，本论文对 LLMs 在 AD 系统中的潜在应用进行了深入分析，包括探索其在模块化和端到端方法中的优化策略，特别关注 LLMs 如何解决当前解决方案中存在的问题和挑战。此外，我们探讨了一个重要问题：基于 LLM 的人工通用智能 (AGI) 能否成为实现高水平 AD 的关键？我们进一步分析了 LLMs 在推动 AD 技术发展中可能遇到的潜在限制和挑战。

发布时间: 9/24/2024

查看原文

迈向交互式和可学习的协同驾驶自动化：一种基于大语言模型的决策框架

目前，联网自动驾驶汽车（CAVs）已经开始在全球范围内进行道路测试，但它们在复杂场景中的安全性和效率表现仍然不尽如人意。协同驾驶利用CAVs的连接能力，实现整体效果大于部分之和，使其成为改善CAV在复杂场景中表现的有前途的方法。然而，缺乏互动和持续学习能力限制了当前的协同驾驶只能应用于单一场景和特定的协同驾驶自动化（CDA）。为了解决这些挑战，本文提出了CoDrivingLLM，一个互动且可学习的基于大语言模型驱动的协同驾驶框架，以实现全场景和全CDA。首先，由于大语言模型（LLM）不擅长处理数学计算，引入了环境模块来基于语义决策更新车辆位置，从而避免了直接由LLM控制车辆位置可能带来的潜在错误。其次，基于SAE J3216标准定义的四个CDA级别，我们提出了一个基于思维链（COT）的推理模块，包括状态感知、意图共享、谈判和决策，增强LLMs在多步推理任务中的稳定性。然后，通过推理过程中的冲突协调员来管理集中冲突解决。最后，通过引入记忆模块并采用检索增强生成，赋予CAVs从过去经验中学习的能力。我们通过在谈判模块上的消融实验、不同镜头经验的推理以及与其他协同驾驶方法的比较来验证所提出的CoDrivingLLM。

发布时间: 9/24/2024

查看原文

GaRField++：用于大规模3D场景重建的强化高斯辐射场

本文提出了一种基于3D高斯点云(3DGS)的大规模场景重建新框架，旨在解决现有方法面临的可扩展性和准确性挑战。为了解决可扩展性问题，我们将大场景分割成多个单元，并通过基于可见性的相机选择和渐进点云扩展来关联每个单元的候选点云和相机视角。为了增强渲染质量，我们相较于原始3DGS进行了三项重要改进，包括射线-高斯交点策略和新型高斯密度控制以提高学习效率、基于ConvKAN网络的外观解耦模块以解决大规模场景中的光照不均问题，以及包含颜色损失、深度扭曲损失和法线一致性损失的优化最终损失函数。最后，通过无缝拼接过程合并各个单元的高斯辐射场，以实现跨单元的新视角合成。对Mill19、Urban3D和MatrixCity数据集的评估表明，我们的方法在大规模场景重建的高保真渲染结果方面始终优于最先进的方法。我们进一步通过商业无人机录制的自采视频片段的渲染验证了该方法的通用性。

发布时间: 9/24/2024

查看原文

微调大型语言模型用于医学：直接偏好优化的角色和重要性

大型语言模型（LLM）的微调在医学领域尚未得到充分利用。两种最常见的微调方法是监督微调（SFT）和直接偏好优化（DPO），但很少有指导建议告知用户何时使用哪种技术。在本研究中，我们比较了SFT和DPO在医学领域五个常见自然语言任务中的性能：文本数据分类、数值数据分类、临床推理、摘要生成和临床分诊。我们发现，单独使用SFT对于文本数据分类已经足够，而DPO则能提升在临床推理、摘要生成和临床分诊这些更复杂任务中的性能。我们的研究结果确立了DPO微调在医学中的角色和重要性，并因此引起了对当前软件缺陷的关注，这些缺陷阻碍了这种技术的广泛部署。

发布时间: 9/24/2024

查看原文