arXiv 论文列表

作者: Xiaoqun Liu, Jiacheng Liang, Luoxi Tang, Muchao Ye, Weicheng Ma, Zhaohan Xi

arXiv:2410.02220v4 宣布类型: 替换-交叉摘要：大规模语言模型（LLMs）通过微调广泛应用于下游应用，这一过程称为自定义。然而，最近的研究发现，在这个过程中存在一个漏洞，即恶意样本可以损害LLMs的稳健性并放大有害行为——这种攻击通常称为狱霸攻击。为应对这一挑战，我们提出了一种适应性的数据策展方法，允许任何文本被策展，以增强其在自定义过程中的有效性，对抗有害样本。为避免需要额外的防御模块，我们进一步引入了一个覆盖自定义生命周期全程的综合缓解框架：在自定义之前，使LLMs免疫以对抗未来的狱霸攻击尝试；在自定义过程中，减轻风险；在自定义之后，恢复受损害的模型。实验结果表明，狱霸攻击效应显著减少，生成安全响应的成功率达到100%。通过将适应性数据策展与基于生命周期的缓解策略相结合，这项工作代表了缓解狱霸攻击风险并确保LLMs安全自适应的重要一步。

发布时间: 2/19/2025

查看原文

RLEF: 在强化学习中通过执行反馈对代码LLM进行约束

作者: Jonas Gehring, Kunhao Zheng, Jade Copet, Vegard Mella, Quentin Carbonneaux, Taco Cohen, Gabriel Synnaeve

arXiv:2410.02089v2 宣告类型: replace-cross 摘要：部署为代理的大语言模型（LLMs）在多个步骤中解决用户指定的任务，同时将所需的手动参与降到最低。关键的是，这样的LLMs需要将其生成内容与获得的任何反馈相结合，以可靠地实现预期的结果。我们提出了一种端到端的强化学习方法，用于在代码合成领域使模型能够利用执行反馈，而在该领域，最先进的LLMs难以通过迭代改进代码，与独立采样相比。我们在竞争编程任务中进行了基准测试，使用小规模（8B参数）和大规模（70B）模型分别取得了最先进的成果，并将所需样本量减少了数量级。我们对推理时行为的分析表明，我们的方法产生了能够有效利用多步骤自动反馈的LLMs。

发布时间: 2/19/2025

查看原文

Sable：一个高性能、高效且可扩展的多智能体 reinforcement 学习序列模型

作者: Omayma Mahjoub, Sasha Abramowitz, Ruan de Kock, Wiem Khlifi, Simon du Toit, Jemma Daniel, Louay Ben Nessir, Louise Beyers, Claude Formanek, Liam Clark, Arnu Pretorius

arXiv:2410.01706v3 宣告类型: replace-cross 摘要: 随着多智能体强化学习（MARL）朝着解决更大和更复杂的问题方向发展，算法展现出（1）强大的性能，（2）内存效率和（3）可扩展性变得越来越重要。在本文中，我们介绍了 Sable，这是一种高性能、内存高效的可扩展序列建模方法来解决 MARL 问题。Sable 通过将 Retentive Networks（Sun et al., 2023）中的保留机制进行适应，从而实现多智能体观测数据在长时间上下文记忆下的高效计算处理。通过在六个不同环境中的广泛评估，我们展示了 Sable 能够在大量多样任务（45 个测试任务中的 34 个）中显著优于现有最先进的方法。此外，当扩展智能体数量时，Sable 保持了性能，能够处理超过一千个智能体的环境，并表现出内存使用量的线性增长。最后，我们进行了消融研究以孤立 Sable 性能增益的来源，并确认了其高效的计算内存使用。

发布时间: 2/19/2025

查看原文

DLP-LoRA：高效的任务特定LoRA融合插件，具有动态轻量级插件的大语言模型

作者: Yuxuan Zhang, Ruizhe Li

arXiv:2410.01497v2 宣宣告类型: 替换交叉摘要： recent advancements in Large Language Models (LLMs) 已在多样化的任务中实现了稳健的表现，但对于特定领域进行微调仍然消耗大量资源。Parameter-Efficient Fine-Tuning (PEFT) 方法，如 Low-Rank Adaptation (LoRA)，通过微调一小部分参数来解决这一挑战。然而，现有方法在融合多个 LoRAs 时缺乏基于上下文输入的动态融合，且经常由于标记级别的操作增加推理时间。我们提出了一种名为 DLP-LoRA 的动态轻量级插件，该插件仅使用一个包含500万个参数的迷你MLP模块，在句子级别使用 top-p 取样策略动态融合多个 LoRAs。这种方法通过利用并行计算将推理时间减少到单个 LoRA 推理时间的两倍以内。在包括多项选择题和问答在内的26项任务的评估中，DLP-LoRA 在多项选择数据集上实现了92.34%的平均准确率，并在问答数据集上显著提高了 BLEU 和 ROUGE 分数，在综合任务设置中超越了不同的 LLM 主干模型。DLP-LoRA 有效平衡了性能和效率，使之成为 LLM 中动态多任务适应的一种实用解决方案。我们的代码可在 https://github.com/MeCuping/DLP-LoRA 获取。

发布时间: 2/19/2025

查看原文

SEAL: 通过技能驱动的 adversarial 学习面向闭环场景生成的安全自主驾驶

作者: Benjamin Stoler, Ingrid Navarro, Jonathan Francis, Jean Oh

arXiv:2409.10320v2 通知类型: 替换-交叉摘要：自动驾驶(AD)系统和组件的验证与验证越来越重要，因为该技术在现实世界中的应用越来越广泛。关键场景生成是通过闭环训练增强AD策略鲁棒性的关键方法。然而，现有的场景生成方法依赖于简化的目标，导致生成过于激进或不具反应性的对抗行为。为了生成多样化且现实的对抗场景，我们提出SEAL，一种利用学习到的目标函数和对抗、似人的技能的场景扰动方法。SEAL扰动后的场景比当前最佳基线更为现实，导致在现实世界、分布内和分布外场景中自我任务成功率提高超过20%。为了促进未来的研究，我们发布了我们的代码和工具：https://github.com/cmubig/SEAL

发布时间: 2/19/2025

查看原文

什么样的迷宫看起来像迷宫？

作者: Joy Hsu, Jiayuan Mao, Joshua B. Tenenbaum, Noah D. Goodman, Jiajun Wu

arXiv:2409.08202v2 通知类型: replace-cross 摘要：人类视觉理解的一个独特方面是灵活解释抽象概念的能力：获取解释它们象征意义的提升规则，跨越熟悉的和不熟悉的上下文落地这些概念，以及对它们进行预测或推理。尽管现成的视觉-语言模型在进行图像的字面解释方面表现出色（例如，识别树干等对象类别），但在理解这种视觉抽象方面仍然存在问题（例如，树干的排列如何形成迷宫的墙壁）。为了解决这一挑战，我们介绍了深度结构对接（DSG）框架，该框架利用视觉抽象的显式结构化表示来进行对接和推理。DSG的核心在于模式——抽象概念的依赖图描述，将它们分解为更基本层次的符号。DSG 使用大型语言模型提取模式，然后使用视觉-语言模型分层级地将模式的具体组件对接到图像中。对接后的模式用于增强对视觉抽象的理解。我们系统地评估了DSG和不同的方法在我们新的视觉抽象数据集上的推理表现，该数据集包含由人类标注的真实世界中多样的抽象概念及其相应的问答对。我们展示了DSG显著提高了视觉-语言模型对视觉抽象的理解能力，并朝着与人类对齐的视觉抽象理解迈出了重要一步。

发布时间: 2/19/2025

查看原文

条件激活引导中的编程拒绝

作者: Bruce W. Lee, Inkit Padhi, Karthikeyan Natesan Ramamurthy, Erik Miehling, Pierre Dognin, Manish Nagireddy, Amit Dhurandhar

arXiv:2409.05907v3 宣告类型: replace-cross 摘要：大型语言模型显示出了令人 remarkable 的能力，但精确控制其响应行为仍然具有挑战性。现有的激活 steering 方法会不加选择地改变 LLM 的行为，限制了其在需要选择性响应的场景中的实用应用，例如内容审核或特定领域助手。在本文中，我们提出了条件激活 steering（CAST），该方法在推理过程中分析 LLM 的激活模式，并根据输入上下文有选择地应用或不应用激活 steering。我们的方法基于这样一个观察：不同类别的提示会在模型的隐藏状态中激活不同的模式。使用 CAST，可以根据类似“如果输入内容涉及仇恨言论或成人内容，拒绝；如果输入内容不涉及法律建议，拒绝”的规则系统地控制 LLM 的行为。这使得可以对特定内容进行选择性修改，同时对其他内容保持正常的响应，而无需进行权重优化。我们已在 github.com/IBM/activation-steering 上发布了我们框架的开源实现。

发布时间: 2/19/2025

查看原文

使用大型语言模型识别用户情绪的对话系统研究

作者: Hiroki Tanioka, Tetsushi Ueta, Masahiko Sano

arXiv:2408.07982v2 公告类型: replace-cross 摘要：ChatGPT\copyright{}和其他大型语言模型的性能得到了显著提升，它们在在线环境中越来越有可能被用于各种情况下，如网页上的聊天机器人、利用语音交互的呼叫中心操作以及使用代理的对话功能。在离线环境中，通过平板终端使用人工智能代理（AI代理）提供指导以及机器人上安装的大规模语言模型对话系统等多模态对话功能也正在实现。在多模态对话中，AI与用户之间的相互情感识别将会变得重要。到目前为止，已有方法用于表达AI代理的情感或通过用户的陈述或语音信息来识别这些情感，但对于AI代理通过捕获用户的面部表情来识别用户情感的方法尚未进行研究。在这项研究中，我们通过使用相机捕捉对话中的用户、从面部表情来识别情感并将其情感信息添加到提示中，来检验基于LLM的AI代理能否根据用户的情感状态进行交互。结果证实，对于情感评分较高的状态（如快乐和愤怒），AI代理能够根据用户的情感状态进行对话。

发布时间: 2/19/2025

查看原文

贝叶斯低秩学习(Bella): 贝叶斯神经网络的一种实用方法

作者: Bao Gia Doan, Afshar Shamsi, Xiao-Yu Guo, Arash Mohammadi, Hamid Alinejad-Rokny, Dino Sejdinovic, Damien Teney, Damith C. Ranasinghe, Ehsan Abbasnejad

arXiv:2407.20891v5 宣布类型: replace-cross 摘要：贝叶斯学习的计算复杂性阻碍了其在实际大规模任务中的应用。尽管非贝叶斯方法在提高鲁棒性和对未见过或分布外输入的抗干扰性方面表现出显著的优势，但在实际应用中的使用率几乎降至不重要。在本研究中，我们提出了一个创新框架来缓解贝叶斯神经网络（BNNs）的计算负担。我们遵循基于深度集的贝叶斯技术原则，但通过多个预先训练神经网络参数的低秩扰动，显著降低了其成本。传统的集成版本以及先前被认为对于大型模型不切实际的更复杂的方案，如利用Stein变分梯度下降（SVGD）的贝叶斯学习，都可以无缝地在所提出的框架中实现，称为贝叶斯低秩学习（Bella）。简而言之，i) Bella 实现了对近似贝叶斯后验所需的可训练参数数量的大幅减少；ii) 它不仅维护了传统的贝叶斯学习方法和非贝叶斯基线方法的性能，而在某些情况下甚至超过了它们。我们对于大型任务（如 ImageNet、CAMELYON17、DomainNet、CLIP 的 VQA、LLaVA）的实验结果证明了 Bella 在构建高扩展性和实用的贝叶斯深度模型方面的有效性及灵活性，以满足实际应用的需求。

发布时间: 2/19/2025

查看原文

我不再信任你！——学生使用大语言模型对高等教育中讲师-学生信任的影响

作者: Simon Kloker, Matthew Bazanya, Twaha Kateete

arXiv:2406.14871v2 通告类型: replace-cross 摘要：信任在讲师-学生-协作中扮演着关键角色，涵盖教学和研究方面。随着像Open AI的ChatGPT这样的平台引入大型语言模型（LLMs），以及它们的经济高效性和高质量结果，它们在大学生中的快速采用已成为可能。然而，区分学生的真正输入与LLM生成的输出给讲师带来了挑战。这一困境危及了讲师与学生之间的信任关系，可能影响大学后续活动，特别是协作研究项目的推进。尽管试图制定学生使用LLM的指导方针，但高等教育中对讲师和学生都有利的明确框架仍然难以捉摸。本研究探讨的问题是：学生使用LLM如何影响信息公平性和程序公平性，进而影响团队信任和团队预期绩效？从方法上讲，我们应用了基于量表的定量构建调查，并使用结构方程建模（PLS-SEM）技术来考察这些构建之间的潜在关系。基于从恩德杰大学获得的23份有效回答的结果，我们的发现表明，讲师不那么关注LLM使用本身的公平性，而更关注学生使用透明度，这对其它团队信任有显著的积极影响。本研究对整合和调节教育中的LLM及其后续模型的全球讨论做出了贡献。我们建议应该支持LLM的使用，并在讲师-学生协作中增强透明度，以培养团队信任和绩效。该研究为制定促进教育中道德和透明的LLM使用的政策提供了宝贵的见解，以确保协作学习环境的有效性。

发布时间: 2/19/2025

查看原文