arXiv 论文列表

作者: Xiaojuan Tang, Jiaqi Li, Yitao Liang, Song-chun Zhu, Muhan Zhang, Zilong Zheng

在海量语料库上训练的大型语言模型（LLM）在知识密集型任务中取得了显著成功。然而，大多数模型依赖于预先存储的知识。从特定环境中推导出新的通用知识并利用所获得的知识进行推理——即“情境归纳推理”，对于机器智能至关重要且极具挑战性。本文设计了 Mars，一个用于情境归纳推理的交互式环境。它通过修改地形、生存环境和任务依赖关系，在遵循某些原则的同时引入了反常识游戏机制。在 Mars 中，智能体需要积极地与其周围环境互动，推导出有用的规则并在特定情况下执行决策任务。我们在各种基于强化学习和基于 LLMs 的方法上进行了实验，发现它们都在这个具有挑战性的情境归纳推理基准测试中表现挣扎。此外，我们探索了“从反思中归纳”，即我们指导智能体从历史轨迹中进行归纳推理。其优越的性能突出了归纳推理在 Mars 中的重要性。通过 Mars，我们旨在推动情境归纳推理的进步，并为开发下一代能够以自适应和上下文敏感的方式进行推理的 AI 系统奠定基础。

发布时间: 10/11/2024

查看原文

基于异构图的自动编码器用于信用卡欺诈检测

作者: Moirangthem Tiken Singh, Rabinder Kumar Prasad, Gurumayum Robert Michael, N K Kaphungkui, N. Hemarjit Singh

数字革命对金融交易产生了重大影响，导致信用卡使用量显著增加。然而，这种便利性也带来了权衡：欺诈活动大幅增加。传统的机器学习方法在欺诈检测方面往往难以捕捉金融数据中固有的相互关联性。本文提出了一种新颖的信用卡欺诈检测方法，该方法利用图神经网络（GNN）和注意力机制，应用于金融数据的异构图表示。与同构图不同，异构图捕捉了金融生态系统中各种实体（如持卡人、商户和交易）之间的复杂关系，为欺诈分析提供了更丰富、更全面的数据表示。为了解决欺诈数据中固有的类别不平衡问题（真实交易远远多于欺诈交易），所提出的方法集成了一个自动编码器。该自动编码器在真实交易上进行训练，学习一个潜在的表示，并在重建过程中标记偏差作为潜在的欺诈。本研究调查了两个关键问题：（1）当应用于异构图时，带有注意力机制的 GNN 能否有效地检测和防止信用卡欺诈？(2) 带有注意力机制的自动编码器的有效性与传统方法相比如何？结果很有希望，表明所提出的模型优于 Graph Sage 和 FI-GRL 等基准算法，实现了 0.89 的 AUC-PR 和 0.81 的 F1 分数。本研究通过利用带有注意力机制的 GNN 和通过自动编码器解决类别不平衡问题，显著促进了欺诈检测系统和金融交易的整体安全性。

发布时间: 10/11/2024

查看原文

Optima：优化基于大型语言模型的多智能体系统的有效性和效率

作者: Weize Chen, Jiarui Yuan, Chen Qian, Cheng Yang, Zhiyuan Liu, Maosong Sun

基于大型语言模型 (LLM) 的多智能体系统 (MAS) 在协作问题解决方面展现出非凡的潜力，但它们仍然面临着严峻的挑战：低通信效率、可扩展性差以及缺乏有效的参数更新优化方法。我们提出了 Optima，一个新颖的框架，通过 LLM 训练来显著提高基于 LLM 的 MAS 的通信效率和任务有效性，从而解决这些问题。Optima 采用了一种迭代生成、排序、选择和训练范式，其奖励函数平衡了任务性能、令牌效率和通信可读性。我们探索了各种 RL 算法，包括监督微调、直接偏好优化及其混合方法，并提供了关于它们在有效性-效率权衡方面的见解。我们集成了受蒙特卡罗树搜索启发的技术来生成 DPO 数据，将对话轮次视为树节点以探索不同的交互路径。在常见的多个智能体任务（包括信息不对称问答和复杂推理）上进行评估，Optima 表现出比单智能体基线和基于 Llama 3 8B 的普通 MAS 持续且显著的改进，在需要大量信息交换的任务中，性能提升高达 2.8 倍，令牌使用量不到 10%。此外，Optima 的效率提升为更有效地利用推理计算开辟了新的可能性，从而导致推理时间缩放定律得到改善。通过解决基于 LLM 的 MAS 中的基本挑战，Optima 展示了构建可扩展、高效且有效 MAS 的潜力 (https://chenweize1998.github.io/optima-project-page)。

发布时间: 10/11/2024

查看原文

基于受限嵌入的鲁棒性 AI 生成文本检测

作者: Kristian Kuznetsov, Eduard Tulchinskii, Laida Kushnareva, German Magai, Serguei Barannikov, Sergey Nikolenko, Irina Piontkovskaya

随着人工智能生成文本的数量和质量不断增长，检测这类内容变得越来越困难。在大多数现实场景中，生成数据的领域（风格和主题）以及生成模型事先未知。在本研究中，我们关注基于分类器的 AI 生成文本检测器的鲁棒性，即它们在未见过的生成器或语义领域上的迁移能力。我们研究了基于 Transformer 的文本编码器嵌入空间的几何形状，并表明清除有害的线性子空间有助于训练一个鲁棒的分类器，忽略特定于领域的虚假特征。我们研究了几种子空间分解和特征选择策略，并在跨域和跨生成器迁移方面取得了显著的改进。我们针对 RoBERTa 和 BERT 嵌入分别采用逐头和基于坐标的子空间移除方法，在特定配置下，平均异分布 (OOD) 分类得分分别提高了 9% 和 14%。我们发布了我们的代码和数据：https://github.com/SilverSolver/RobustATD

发布时间: 10/11/2024

查看原文

主动傅里叶审计器：用于估计机器学习模型分布属性

作者: Ayoub Ajarra, Bishwamittra Ghosh, Debabrota Basu

随着机器学习 (ML) 模型在现实世界应用中的广泛部署，验证和审计 ML 模型的属性已成为一项核心关注点。在这项工作中，我们重点关注三个属性：鲁棒性、个体公平性和群体公平性。我们讨论了两种审计 ML 模型属性的方法：使用和不使用目标模型重建的估计方法。虽然第一种方法在文献中已有研究，但第二种方法仍未得到探索。为此，我们开发了一个新的框架，该框架根据待审计 ML 模型的傅里叶系数量化不同的属性，但不会参数化地重建它。我们提出了主动傅里叶审计器 (AFA)，它根据 ML 模型的傅里叶系数查询样本点，并进一步估计属性。我们推导出 AFA 估计值的高概率误差界限，以及审计它们的样本复杂度的最坏情况下界。我们在多个数据集和模型上的数值演示表明，与基线相比，AFA 在估计感兴趣属性方面更准确且样本效率更高。

发布时间: 10/11/2024

查看原文

大型语言模型机器遗忘机制的深入研究

作者: Xiaojian Yuan, Tianyu Pang, Chao Du, Kejiang Chen, Weiming Zhang, Min Lin

大型语言模型 (LLMs) 可能会记忆敏感或受版权保护的内容，从而引发隐私和法律问题。由于从头开始重新训练成本过高，研究人员试图采用机器遗忘来从 LLMs 中删除特定内容，同时保留整体性能。本文讨论了 LLM 机器遗忘中的几个问题，并对可能的方法提出了见解。为了解决遗忘后模型输出评估不足的问题，我们引入了三个额外的指标来评估词元多样性、句子语义和事实正确性。然后，我们将遗忘方法分为非目标遗忘和目标遗忘，并分别讨论了它们的问题。具体而言，非目标遗忘试图逼近的行为是不可预测的，可能涉及幻觉，而现有的正则化不足以用于目标遗忘。为了缓解这些问题，我们建议使用最大化熵 (ME) 的目标来进行非目标遗忘，并为目标遗忘加入答案保留 (AP) 损失作为正则化。在三种场景（即虚构遗忘、持续遗忘和真实世界遗忘）中的实验结果表明了我们方法的有效性。代码可在 https://github.com/sail-sg/closer-look-LLM-unlearning 获取。

发布时间: 10/11/2024

查看原文

知识图谱能使大型语言模型更可信吗？一项关于开放式问答的实证研究

作者: Yuan Sui, Bryan Hooi

近年来，将知识图谱（KGs）与大型语言模型（LLMs）相结合的研究取得了进展，有效提升了LLMs的推理准确性。然而，现有的基准测试主要集中在封闭任务上，在评估更复杂、更贴近实际场景方面存在差距。这种差距也模糊了评估KGs在缓解LLMs幻觉问题方面的潜力。为了填补这一差距，我们引入了OKGQA，一个专门为评估在开放式、现实世界问答场景下增强了KGs的LLMs而设计的新的基准测试。OKGQA旨在通过来自不同类型的问题，密切反映实际应用的复杂性，并结合特定的指标来衡量幻觉的减少和推理能力的增强。为了考虑KGs可能存在不同程度错误的场景，我们进一步提出了另一个实验设置OKGQA-P，以评估当KGs的语义和结构被故意扰乱和污染时，模型的性能。OKGQA旨在（1）探索KGs是否能够在开放式环境下使LLMs更加可靠，以及（2）进行比较分析，以阐明利用KGs来减少LLMs幻觉的方法和未来方向。我们相信，这项研究可以促进更全面的性能比较，并鼓励将KGs与LLMs相结合的持续改进。

发布时间: 10/11/2024

查看原文

打包分析：打包更适合大型模型或数据集的监督微调

作者: Shuhe Wang, Guoyin Wang, Jiwei Li, Eduard Hovy, Chen Guo

在预训练阶段首次使用的打包是一种优化技术，旨在通过组合不同的训练序列来适应模型的最大输入长度，从而最大限度地提高硬件资源效率。尽管它在预训练阶段已被证明有效，但在监督微调 (SFT) 阶段仍缺乏对以下方面的全面分析：（1）打包是否能够在保持性能的同时有效地提高训练效率，（2）使用打包方法进行微调的模型和数据集的合适大小，以及（3）打包不相关或相关的训练样本是否会导致模型过度忽视或过度依赖上下文。本文对使用填充和打包的 SFT 方法进行了广泛的比较，涵盖了从 69K 到 120 万的 SFT 数据集和从 80 亿到 700 亿的模型。这提供了对打包与填充的优缺点以及在各种训练场景中实施打包的实际考虑因素的首次全面分析。我们的分析涵盖了各种基准，包括知识、推理和编码，以及基于 GPT 的评估、时间效率和其他微调参数。我们还开源了我们的微调和评估代码，并提供了在不同大小的数据集上微调的检查点，旨在推动未来对打包方法的研究。代码可在以下地址获取：https://github.com/ShuheWang1998/Packing-Analysis?tab=readme-ov-file。

发布时间: 10/11/2024

查看原文

基于遗忘学习的神经解释

作者: Ching Lam Choi, Alexandre Duplessis, Serge Belongie

基于梯度的解释方法通常需要一个比较基点来避免在计算特征重要性时的饱和。我们发现，当前使用静态函数（常量映射、平均或模糊）定义的基线会注入有害的颜色、纹理或频率假设，这些假设偏离了模型的行为。这导致不规则梯度的累积，从而导致偏差、脆弱且可操纵的归因图。我们从静态方法出发，提出了 UNI，通过将输入扰动到最陡上升的去学习方向来计算一个（不可）学习的、无偏的和自适应的基线。我们的方法发现了可靠的基线，并成功地消除了显著特征，从而局部平滑了高曲率决策边界。我们的分析表明，去学习是生成忠实、高效和鲁棒解释的有希望途径。

发布时间: 10/11/2024

查看原文

教学启发式集成提示框架：增强大型语言模型推理能力的新方法

作者: Wenting Tan, Dongxiao Chen, Jieting Xue, Zihao Wang, Taijie Chen

大型语言模型 (LLMs) 在各个领域都表现出惊人的性能，但在算术推理任务方面仍然存在挑战。最近的研究表明，提示设计方法在增强推理能力方面非常有效。然而，这些方法忽略了成功解决大多数算术推理问题所需的关键要素，即对特定概念、定理和技巧的先验知识。为了解决这个问题，我们提出了一种新颖且有效的教学启发式集成框架，该框架模拟了教师指导学生的教学过程。该方法为 LLMs 提供基本概念、相关定理以及具有类似解决方案方法的类似问题，从而促进推理能力的提升。此外，我们还引入了两个新的中文数据集，MathMC 和 MathToF，这两个数据集都包含详细的解释和答案。我们对九个基准进行了实验，结果表明我们的方法提高了 LLMs 的推理准确性。使用 GPT-4 和我们的框架，我们在四个数学基准（AddSub、SVAMP、Math23K 和 AQuA）上取得了新的最先进性能，准确率分别为 98.2% (+3.3%)、93.9% (+0.2%)、94.3% (+7.2%) 和 81.1% (+1.2%)。我们的数据和代码可在 https://github.com/SallyTan13/Teaching-Inspired-Prompting 获取。

发布时间: 10/11/2024

查看原文