arXiv 论文列表

作者: Minchong Li, Feng Zhou, Xiaohui Song

arXiv:2406.13555v3 宣布类型：替换交叉摘要：近年来，大规模语言模型（LLMs）在各种自然语言处理（NLP）任务中展现了卓越的能力。然而，这种令人印象深刻的性能往往伴随着参数量的增加，这给广泛应用带来了巨大的挑战。知识蒸馏（KD）提供了一种解决方案，通过将大型教师模型的知识转移到较小的学生模型上。在本文中，我们探索了LLMs在logit级别上针对特定任务的知识蒸馏。我们的研究表明，微调后的LLM的logits表现出比视觉模型更极端的长尾分布，并且长尾中的隐藏“噪声”会影响蒸馏性能。此外，现有的logits蒸馏方法往往难以有效利用logits内部的排序信息。为了解决这些问题，我们提出了双向logits差异（BiLD）损失。BiLD损失通过仅使用top-$k$教师和学生的logits过滤掉长尾噪声，并通过构建logits差异来利用内部排序信息。为了评估BiLD损失，我们在13个数据集上使用了两种类型的LLMs进行了全面实验。结果显示，仅使用top-8 logit的BiLD损失在蒸馏方法中表现出色，优于监督微调（SFT）、朴素的KL损失以及来自NLP和CV领域的其他五种蒸馏方法。

发布时间: 2/19/2025

查看原文

文本去学习给人一种虚假的去学习感

作者: Jiacheng Du, Zhibo Wang, Jie Zhang, Xiaoyi Pang, Jiahui Hu, Kui Ren

arXiv:2406.13348v2 宣告类型: 替换-交叉摘要：语言模型（LMs）容易“记住”训练数据，包括大量敏感的用户信息。为了减轻隐私风险并保障被遗忘权，机器遗忘已作为一种有前景的方法，使LMs能够高效地“忘记”特定的文本。然而，尽管有良好的意图，文本遗忘真的像预期的那样有效和可靠吗？为了解决这一问题，我们首先提出了文本遗忘似然比攻击+（U-LiRA+），这是一种严格的文本遗忘审计方法，并发现即使在遗忘后，也能够以极高的置信度检测到被遗忘的文本。进一步地，我们在部署环境下对文本遗忘机制的隐私风险进行了深入调查，并提出了文本遗忘泄漏攻击（TULA），以及在黑盒和白盒场景下的其变种。我们展示了文本遗忘机制可能会更多地揭示被遗忘文本的信息，使其面临显著的成员身份推断和数据重建风险。我们的研究结果突显了现有文本遗忘实际上给人一种虚假的遗忘感，强调了需要更 robust 和安全的遗忘机制的必要性。

发布时间: 2/19/2025

查看原文

探究败血症潜在原因的贝叶斯网络结构学习

作者: Bruno Petrungaro, Neville K. Kitson, Anthony C. Constantinou

arXiv:2406.09207v2 宣告类型: replace-cross 摘要：脓毒症是一种威胁生命且严重的全球健康问题。本研究结合知识与可用的医院数据，探讨政策决策可能影响的脓毒症潜在原因。通过结合临床专业知识以及基于评分、约束和混合结构学习算法，我们研究了该问题的潜在因果结构。实施了一种新的模型平均方法和基于知识的约束方法，以达成共识结构来支持因果推断。结构学习过程突出了在临床专业知识的同时探索数据驱动方法的重要性。这包括从临床角度看发现意想不到但有道理的关系。对慢性阻塞性肺疾病、酒精依赖和糖尿病的假设干预措施表明，患者存在的任何这些风险因素都增加了发生脓毒症的可能性。这一发现及其对脓毒症这些风险因素效果的衡量具有潜在的政策意义。认识到预测对改善与脓毒症相关的健康结果的重要性，该模型也被评估其预测脓毒症的能力，通过评估准确性、灵敏度和特异度来进行。这三个指标的结果约为70%，AUC为80%，这意味着，在仅使用用于资助目的的数据进行训练的情况下，模型的因果结构是合理准确的。

发布时间: 2/19/2025

查看原文

NYU CTF 基准: 一个可扩展的开源基准数据集，用于评估在进攻性安全领域中的语言模型

作者: Minghao Shao, Sofija Jancheska, Meet Udeshi, Brendan Dolan-Gavitt, Haoran Xi, Kimberly Milner, Boyuan Chen, Max Yin, Siddharth Garg, Prashanth Krishnamurthy, Farshad Khorrami, Ramesh Karri, Muhammad Shafique

arXiv:2406.05590v3 通告类型: 替换交叉摘要：大型语言模型（LLMs）今天正被部署在各个领域。然而，它们在解决网络安全领域中的捕获旗帜（CTF）挑战方面的能力尚未得到充分评估。为了解决这个问题，我们开发了一种新的方法来评估LLMs在解决CTF挑战方面的性能，通过创建一个专为此类应用设计的可扩展、开源基准数据库。该数据库包含了LLM测试和自适应学习的元数据，汇集了来自流行竞赛的多样化的CTF挑战。利用LLMs先进的函数调用能力，我们构建了一个完全自动化的系统，具有增强的工作流程和对外部工具调用的支持。我们的基准数据集和自动化框架使我们能够评估五种LLMs的表现，涵盖黑盒和开源模型。这项工作为未来研究提高LLMs在交互式网络安全任务和自动化任务规划方面的效率奠定了基础。通过提供一个专门的基准测试，我们的项目为开发、测试和改进基于LLM的方法提供了理想的平台，这些方法用于脆弱性检测和解决。在这些挑战上评估LLMs并将其性能与人类表现进行比较，可以为我们理解AI驱动的网络安全解决方案在实现现实威胁管理方面的潜力提供见解。我们已将基准数据集开源，并可通过以下链接访问：https://github.com/NYU-LLM-CTF/NYU_CTF_Bench。同时，我们的游乐场自动化框架也已开源，可通过以下链接访问：https://github.com/NYU-LLM-CTF/llm_ctf_automation。

发布时间: 2/19/2025

查看原文

RU-AI：一种大规模多模态数据集，用于检测机器生成内容

作者: Liting Huang, Zhihao Zhang, Yiran Zhang, Xiyue Zhou, Shoujin Wang

arXiv:2406.04906v3 生成类型：replace-cross 摘要：近期生成型人工智能模型在生成真实且类人内容方面的能力，正在显著改变人们的沟通方式、创作方式和工作方式。机器生成的内容是一把双刃剑。一方面，如果使用得当，它可以造福社会。另一方面，它也可能误导人们，对社会构成威胁，尤其是在与人类创作的自然内容混合时。因此，开发有效的检测机器生成内容的方法变得十分迫切。然而，缺乏对齐的多模态数据集限制了此类方法的发展，特别是在三模态设置（例如，文本、图像和语音）中。在本文中，我们引入了RU-AI，一种新的大规模多模态数据集，用于在文本、图像和语音中对机器生成内容进行稳健和有效的检测。我们的数据集基于三个大型公共可用数据集：Flickr8K、COCO 和 Places205 构建，并添加了相应的AI副本，总共包括1,475,370个实例。此外，我们还创建了一个额外的数据集变体以测试检测模型的鲁棒性。我们在我们的数据集上使用当前的SOTA检测方法进行了广泛的实验。结果显示，现有的模型在我们的数据集上仍难以实现准确和稳健的检测。我们希望这个新的数据集能够促进机器生成内容检测领域的研究，促进生成型人工智能的负责任使用。源代码和数据集可在 https://github.com/ZhihaoZhang97/RU-AI 获取。

发布时间: 2/19/2025

查看原文

大型语言模型中类别性和层次性概念的几何学

作者: Kiho Park, Yo Joong Choe, Yibo Jiang, Victor Veitch

arXiv:2406.01506v3 宣告类型: replace-cross 摘要: 线性表示假设是非正式的想法，认为语义概念在大型语言模型（LLMs）的表示空间中以线性方向的形式编码。先前的工作已经展示了如何将这一概念应用于表示具有自然对比的概念（例如，{男性，女性}）到表示空间中的方向，使之更加精确。然而，许多自然概念并没有自然的对比（例如，输出是否涉及动物）。在本文中，我们展示了如何将线性表示假设的形式化扩展到将特征（例如，is_animal）表示为向量。这使得我们能够立即将分类概念的表示形式化为表示空间中的多面体。此外，我们使用形式化来证明概念的层次结构与其表示的空间几何之间的关系。我们在Gemma和LLaMA-3大型语言模型上验证了这些理论结果，使用WordNet中的数据估计了900多个层次相关概念的表示。

发布时间: 2/19/2025

查看原文

AdvLoRA: 视觉-语言模型的对抗低秩适应

作者: Yuheng Ji, Yue Liu, Zhicheng Zhang, Zhao Zhang, Yuting Zhao, Xiaoshuai Hao, Gang Zhou, Xingwei Zhang, Xiaolong Zheng

arXiv:2404.13425v2 宣告类型: replace-cross 摘要：视觉-语言模型（VLMs）在人工智能通用智能（AGI）的发展中扮演着至关重要的角色。随着AGI的迅速发展，如何应对安全问题已成为VLMs面临的最大挑战之一。在本文中，我们进行了大量实验，揭示了传统VLMs适应方法的脆弱性，强调了重要的安全风险。此外，随着VLMs规模的增长，传统对抗适应技术的应用会带来巨大的计算成本。为了解决这些问题，我们基于低秩适应提出了一种参数高效的对抗适应方法，称为**AdvLoRA**。我们探讨并揭示了VLMs对抗适应中存在的固有低秩特性。与LoRA不同，我们通过引入一种新的参数重新参数化方法来增强对抗适应的效率和鲁棒性，该方法利用了参数聚类和对齐。此外，我们还提出了一种自适应参数更新策略，进一步增强了鲁棒性。这些创新使我们的AdvLoRA能够在模型安全和资源浪费方面减轻问题。大量的实验验证了AdvLoRA的有效性和效率。

发布时间: 2/19/2025

查看原文

相对表示 reinforcement learning 中的相对表示法

作者: Antonio Pio Ricciardi, Valentino Maiorca, Luca Moschella, Riccardo Marin, Emanuele Rodol\`a

arXiv:2404.12917v3 更换交叉摘要：视觉强化学习是一种流行而强大的框架，充分利用了深度学习的突破。已知输入域的变化（例如，由于季节变化导致的不同全景颜色）或任务域的变化（例如，改变汽车的目标速度）会干扰智能体的表现，这需要对每个变化进行新的训练。近年来，在表示学习领域的进展展示了将来自不同神经网络的组件以零样本的方式组合成新模型的可能性。在本文中，我们构建了相对表示框架，该框架将编码器嵌入映射到一个通用空间。我们将这个框架应用到视觉强化学习设置中，允许组合智能体组件以创建能够有效处理未在训练期间遇到的新视觉任务对的新智能体。我们的研究结果突显了模型复用的潜力，显著减少了重新训练的需求，从而大大减少了所需的时间和计算资源。

发布时间: 2/19/2025

查看原文

生成式AI搜索中敏感用户查询的分类与分析

作者: Hwiyeol Jo, Taiwoo Park, Hyunwoo Lee, Nayoung Choi, Changbong Kim, Ohjoon Kwon, Donghyeon Jeon, Eui-Hyeon Lee, Kyoungho Shin, Sun Suk Lim, Kyungmi Kim, Jihye Lee, Sun Kim

arXiv:2404.08672v2 宣布类型: replace-cross 摘要: 尽管各行各业对企业在其服务中整合生成式大语言模型 (LLM) 表现出日益浓厚的兴趣，但有限的经验和资源的稀缺性仍然是推出和提供大规模 LLM 基础服务的障碍。在这篇论文中，我们分享了我们在国家级搜索引擎中开发和运行生成式 AI 模型的经验，特别关注用户查询的敏感性。我们提出了敏感搜索查询的分类体系，概述了我们的方法，并提供了来自实际用户的敏感查询的全面分析报告。我们认为，我们在推出生成式 AI 搜索系统方面的经验可以有助于降低构建生成式 LLM 基础服务的障碍。

发布时间: 2/19/2025

查看原文

零-shot 生成分类器驱动的数学文本自主数据选择

作者: Yifan Zhang, Yifan Luo, Yang Yuan, Andrew Chi-Chih Yao

arXiv:2402.07625v4 宣告类型: 替换-交叉摘要：我们提出了自主数据选择（AutoDS），这是一种方法，利用基础语言模型本身作为零-shot“生成分类器”，自动筛选高质量的数学文本。与需要人工注释或训练专用数据过滤器的先前方法不同，AutoDS仅依赖模型的logits来确定给定段落是否具有数学信息和教育价值。通过将AutoDS整合到连续的预训练管道中，我们在使用比以前方法少得多的标记的情况下，显著提升了具有挑战性的数学基准测试（MATH、GSM8K和BBH）的下游性能。从经验上讲，我们的方法在预训练标记效率上大约实现了两倍的改进，突显了自我引导的数据选择在增强数学推理方面的潜力。我们发布了我们的精选AutoMathText数据集，以促进未来在自动化领域特定数据整理方面的研究。AutoMathText数据集可在https://huggingface.co/datasets/math-ai/AutoMathText获取。代码可在https://github.com/yifanzhang-pro/AutoMathText获取。

发布时间: 2/19/2025

查看原文