arXiv 论文列表

作者: Daniel P. Jeong, Zachary C. Lipton, Pradeep Ravikumar

arXiv:2407.02694v2 宣告类型: replace-cross 摘要：在本文中，我们展示了大规模语言模型（LLMs）的一项令人惊讶的能力：仅给定输入特征名称和预测任务的描述，它们就能够选择最具预测性的特征，其性能与数据科学中的标准工具相当。更令人惊讶的是，这些模型在各种查询机制中都表现出这种能力。例如，我们对LLM进行零 Shot 提示，使其输出一个特征（如“血压”）在预测目标结果（如“心力衰竭”）中的数值重要性得分，没有任何额外的背景信息。特别是，我们发现最新的模型，如GPT-4，能够在不同的查询机制和各种提示策略下一致地识别出最具预测性的特征。我们通过在实际数据上的大量实验来说明这些发现，在这些实验中，我们展示了基于LLM的特征选择在下游训练数据从未见过的情况下始终能够实现与数据驱动方法（如LASSO）相当的强劲表现。我们的研究结果表明，LLMs不仅可以用于选择训练的最佳特征，还可以用于决定首先收集哪些特征。这在数据收集成本高昂的领域，如医学和社会科学中，将对从业人员大有裨益。

发布时间: 4/21/2025

查看原文

NeuroNAS：通过硬件感知的脉冲神经架构搜索提升智能移动代理的神经形态存内计算效率

作者: Rachmad Vidya Wicaksana Putra, Muhammad Shafique

arXiv:2407.00641v3 宣传类型: replace-cross 摘要: 智能移动代理（例如，UGVs和UAVs）在解决基于机器学习（ML）的任务时通常需要低功率/能耗，因为它们通常由具有有限容量的便携式电池供电。一种潜在的解决方案是采用神经形态计算和突触神经网络（SNNs），这利用事件驱动的计算来实现超低功率/能耗的ML算法。为了最大化SNN推理的性能效率，可以采用基于内存计算（IMC）的硬件加速器，如新兴器件技术（例如，RRAM）。然而，SNN模型通常是在不考虑应用程序和底层IMC硬件约束的情况下开发的，从而阻碍了SNN在性能和效率上达到其全部潜力。为了解决这个问题，我们提出了一种名为NeuroNAS的新框架，用于利用硬件感知的突触神经网络架构搜索（NAS）方法，为智能移动代理开发能效神经形态IMC，即通过快速找到在给定约束条件下（例如，内存、面积、延迟和能耗）提供高精度的SNN架构。其关键步骤包括：优化SNN操作以实现高效NAS，采用量化以最小化内存占用，开发一种有助于有效学习的SNN架构，以及设计一种系统性的硬件感知搜索算法以满足约束条件。与现有技术相比，NeuroNAS在6.6倍的搜索时间加速下快速找到具有8位权重精度的SNN架构，保持了高精度，同时实现了高达92%的面积节省、1.2倍的延迟改善，在不同数据集（即，CIFAR-10、CIFAR-100和TinyImageNet-200）上实现了84%的能耗节省，而现有技术无法同时满足所有约束条件。

发布时间: 4/21/2025

查看原文

通过大型语言模型的对抗风格增强用于稳健的假新闻检测

作者: Sungwon Park, Sungwon Han, Xing Xie, Jae-Gil Lee, Meeyoung Cha

arXiv:2406.11260v3 Announce Type: replace-cross 摘要：假新闻的传播对个人造成了伤害，并且提出了一个必须解决的关键社会挑战。尽管开发了许多算法和洞察力特征来检测假新闻，但许多这些特征可以通过风格变换攻击被操纵，特别是在先进语言模型出现之后，使得将假新闻与真实新闻区分开变得更加困难。本文提出了一种对抗性风格增强方法 AdStyle，旨在训练一个对各种风格变换攻击具有鲁棒性的假新闻检测器。主要机制涉及战略性使用大语言模型自动生成多样且连贯的风格变换攻击提示，增强检测器生成特别具有挑战性的提示的能力。实验表明，我们的增强策略在评估假新闻基准数据集时，显著提高了鲁棒性和检测性能。

发布时间: 4/21/2025

查看原文

在_CONTEXT_学习对于LLMs执行指令足够吗?

作者: Hao Zhao, Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion

arXiv:2405.19874v3 文本类型: 替换-交叉摘要：上下文学习（ICL）允许LLMs从示例中学习而不需要改变其权重：这对于可以从多个示例中学习的长上下文LLMs尤其具有潜力。最近，林等人（2024）提出了一种名为URIAL的方法，仅使用三个上下文示例来对基础LLMs进行对齐，达到了非平凡的指令遵循性能。在本研究中，我们展示尽管有效，但使用URIAL进行ICL对齐在标准基准MT-Bench上的表现仍然不及指令微调，尤其是使用更强大的基础LLMs时。然后，我们揭示了成功ICL对齐中最重要的元素，发现了解码参数的关键作用。根据这些见解，我们展示可以通过添加高质量的、可能通过贪婪搜索精心选择的上下文示例，来改进URIAL的方法，从而接近指令模型的表现。最后，我们提供了第一条，据我们所知，ICL和指令微调（IFT）在低数据情况下的系统比较，ICL在低数据情况下可以作为IFT的可行替代方案。总体而言，我们的研究推进了对ICL作为一种对齐技术及其与IFT关系的理解。我们已经将我们的代码发布在 https://github.com/tml-epfl/icl-alignment。

发布时间: 4/21/2025

查看原文

MallowsPO：使用偏好分散性微调你的LLM

作者: Haoxian Chen, Hanyang Zhao, Henry Lam, David Yao, Wenpin Tang

arXiv:2405.14953v5 通知类型: 替换-交叉摘要: 直接偏好优化（DPO）最近已成为一种流行的改进强化学习与人类反馈（RLHF）的方法，从而更好地对大型语言模型（LLM）进行微调。然而，DPO的一个弱点在于其无法表征人类偏好的多样性。受Mallows偏好排序理论的启发，我们在这篇论文中提出了一种新的方法，即MallowsPO。该方法的一个特点是具有一个分散指数，该指数反映了人类偏好对提示的分散程度。我们展示了现有的DPO模型可以归约为此分散指数的特殊情况，从而与MallowsPO统一。更重要的是，我们通过实验证明了如何使用这个分散指数来增强DPO在一系列基准任务中的性能，从合成臂部选择到可控生成和对话，同时仍保持强大的泛化能力。MallowsPO还与其他最新离线偏好优化方法兼容，在用作微调Llama3-Instruct插件时，其额外提升了约2%的LC获胜率。

发布时间: 4/21/2025

查看原文

从零开始照看一个语言模型：通过试验和示范进行交互式语言学习

作者: Ziqiao Ma, Zekun Wang, Joyce Chai

arXiv:2405.13828v2 更新类型: 替换-交叉摘要：人类是高效的语言学习者，也是社会性生物。我们的语言发展很大程度上受到社会互动的影响，例如照顾者的行为演示和反馈。与人类语言学习相反，近期的大规模语言模型主要采用非互动的训练 paradigm，并通过反馈进行预训练模型的细化。在本工作中，我们探讨了互动中的纠正性反馈如何影响从头开始的神经语言获取，并通过系统控制的实验来评估这种反馈是否有助于语言模型词汇学习的效率。我们引入了一种试错-演示（TnD）学习框架，该框架包含三个不同的组件：学生试错、教师演示以及基于不同发育阶段的语言能力的奖励。我们的实验揭示了TnD方法可以加速参数数量相同甚至较小的学生模型的词汇获取，我们强调了试错和演示的重要性。我们进一步表明，教师的选择性词汇影响了学生的特定词汇学习效率，并且试错中的词汇频率与它们的学习曲线之间存在强烈的相关性，显示出一种熟能生巧的效果。我们的研究结果表明，带有教师演示和活跃试错的互动语言学习可以促进语言模型中的高效词汇学习。

发布时间: 4/21/2025

查看原文

论辩性大规模语言模型用于可解释和可争议的声明验证

作者: Gabriel Freedman, Adam Dejl, Deniz Gorur, Xiang Yin, Antonio Rago, Francesca Toni

arXiv:2405.02079v3 通告类型: replace-cross 摘要：大语言模型（LLMs）中编码的知识丰富以及它们能够在各种场景下零样本应用这些知识的能力，使它们成为决策支持的有前途的候选工具。然而，它们目前受限于无法提供可以忠实解释和有效辩论以纠正错误的输出。在本文中，我们通过引入**论证性大语言模型（ArgLLMs）**来尝试解决这些优点和弱点，ArgLLMs是一种增强LLMs的方法，能够添加论证性推理。具体而言，ArgLLMs构建论证框架，这些框架随后作为支持决策的正式推理的基础。这些论证框架和正式推理的可解释性意味着任何由ArgLLMs做出的决策都可以进行解释和辩论。我们通过实验评估ArgLLMs在声明验证决策任务中的性能，与最先进的技术进行比较。我们还定义了新的特性来表征可辩论性，并以这些特性为依据正式评估ArgLLMs。

发布时间: 4/21/2025

查看原文

使用简单自适应攻击破解领先的安全对齐大型语言模型

作者: Maksym Andriushchenko, Francesco Croce, Nicolas Flammarion

arXiv:2404.02151v4 安全公告类型: 替换-交叉摘要: 我们展示了即使是最新的安全对齐的大语言模型（LLM）也无法抵御简单的适应性逃狱攻击。首先，我们展示了如何利用访问logprobs来逃狱：我们最初设计了一个攻击性的提示模板（有时根据目标LLM进行调整），然后我们在后缀上应用随机搜索以最大化目标logprob（例如，“Sure”这个token的logprob），并且可以进行多次重启。通过这种方式，我们实现了对GPT-4作为评判依据的Vicuna-13B、Mistral-7B、Phi-3-Mini、Nemotron-4-340B、Llama-2-Chat-7B/13B/70B、Llama-3-Instruct-8B、Gemma-7B、GPT-3.5、GPT-4o和HarmBench上对抗GCG攻击的训练过的R2D2模型的100%攻击成功率。我们还展示了如何通过转移或填充攻击来对所有Claude模型进行逃狱，并且成功率为100%。此外，我们展示了如何使用受限token集合上的随机搜索来在受污染模型中找到特洛伊字符串——这是一个与逃狱任务有很多相似之处的任务——这是我们首次在SaTML'24特洛伊木马检测竞赛中获得第一名的算法。这些攻击的共同主题是：适应性至关重要：不同的模型对不同的提示模板（例如，R2D2对上下文学习提示非常敏感）有不同的易感性，有些模型的API具有独特的漏洞（例如，Claude的预填充攻击），并且在某些情景下，基于先验知识限制token搜索空间是至关重要的（例如，对于特洛伊木马检测）。为了再现实验，我们在https://github.com/tml-epfl/llm-adaptive-attacks提供了JailbreakBench格式的代码、日志和逃狱补丁。

发布时间: 4/21/2025

查看原文

答案在哪里？探究语言模型知识提取中的位置偏见

作者: Kuniaki Saito, Kihyuk Sohn, Chen-Yu Lee, Yoshitaka Ushiku

arXiv:2402.12170v3 Announce Type: replace-cross 摘要：大型语言模型需要进行更新以保持最新或通过使用新文档进行微调来适应新的领域。关键在于以一种可以通过查询提示提取的方式记忆最新的信息。然而，尽管在微调过程中尽力减少文档困惑度，语言模型在通过提示句提取信息时仍然存在困难。在新的知识获取与提取中，我们发现了一个非常有趣的事实：语言模型能够准确回答关于第一句话的问题，但在微调过程中使用的文档中间或末尾描述的信息提取方面却存在问题。我们的研究建议自回归训练导致了这一问题；每个标记依赖于所有之前的标记进行提示，这妨碍了模型通过问题提示回想起训练文档中的信息。为了进行深入研究，我们公开了合成和真实数据集，使我们能够评估答案在文档中的相应位置与QA性能的关系。我们的研究显示，即使大型模型也遭受困惑度诅咒，但诸如去噪自回归损失的正则化措施可以增强对不同位置信息的提取。这些发现将是（i）提高从语言模型中提取知识的关键，以及（ii）讨论在将语言模型适应新领域时RAM和微调之间的权衡时的新元素。

发布时间: 4/21/2025

查看原文

LLM抽样理论：部分描述性和部分规范性

作者: Sarath Sivaprasad, Pramod Kaushik, Sahar Abdelnabi, Mario Fritz

arXiv:2402.11005v3 替换-交叉摘要：大规模语言模型（LLMs）越来越多地被用于自主决策，在这种情况下，它们会从庞大的动作空间中抽取选项。然而，指导这一抽样过程的启发式方法仍处于探索阶段。我们研究了这种抽样行为，并表明其中内在的启发式方法与人类决策过程相似，包含了描述性成分（反映统计规范）和处方性成分（蕴含在LLM中的隐含理想）。我们展示了这种样本从统计规范向处方性成分的偏差在公共健康、经济趋势等不同现实世界领域中的概念中始终保持一致。为了进一步阐明这一理论，我们证明LLM中的概念原型会受处方性规范的影响，类似于人类概念中的正常性。通过案例研究和与人类研究的比较，我们阐明，在实际应用中，LLM输出中样本向理想值的转变可能导致显著的偏差决策，引发伦理问题。

发布时间: 4/21/2025

查看原文