LLM2D

arXiv 论文列表

我们系统地评估了七种大型语言模型在使用各种提示策略、编程语言和任务难度生成编程代码方面的性能。GPT-4 显著优于其他大型语言模型,包括 Gemini Ultra 和 Claude 2。GPT-4 的编码性能在不同的提示策略下差异很大。在本研究中评估的大多数 LeetCode 和 GeeksforGeeks 编码竞赛中,使用最佳提示策略的 GPT-4 超过了 85% 的人类参与者。此外,GPT-4 在不同编程语言之间翻译代码和从过去的错误中学习方面表现出强大的能力。GPT-4 生成的代码的计算效率与人类程序员相当。这些结果表明,GPT-4 有潜力作为编程代码生成和软件开发中的可靠助手。
发布时间: 10/8/2024
查看原文
作者: Craig W. Schmidt, Varshini Reddy, Haoran Zhang, Alec Alameddine, Omri Uzan, Yuval Pinter, Chris Tanner
分词是自然语言处理 (NLP) 任务中的一个基础步骤,它连接了原始文本和语言模型。现有的分词方法,如字节对编码 (BPE),起源于数据压缩领域,并且有人认为 BPE 的有效性源于它将文本压缩成相对较少数量的标记的能力。我们通过引入 PathPiece,一个新的分词器,它将文档的文本分割成给定词汇表所需的最小数量的标记,来检验较少标记会导致更好的下游性能的假设。通过广泛的实验,我们发现这个假设并不成立,这让人对有效分词原因的理解产生了怀疑。为了检验哪些其他因素起作用,我们评估了分词所有三个阶段的设计决策:预分词、词汇构建和分割,为有效分词器的设计提供了新的见解。具体来说,我们说明了预分词的重要性以及使用 BPE 初始化词汇构建的好处。我们训练了 64 个具有不同分词的语言模型,其大小从 3.5 亿到 24 亿个参数不等,所有这些模型都已公开发布。
发布时间: 10/8/2024
查看原文
作者: Zhenting Qi, Hanlin Zhang, Eric Xing, Sham Kakade, Himabindu Lakkaraju
检索增强生成(RAG)通过在测试时整合外部知识来改进预训练模型,从而实现定制化适应。我们研究了基于检索上下文 RAG 的语言模型(LM)中数据存储泄露的风险。我们表明,攻击者可以利用 LM 的指令遵循能力,通过提示注入轻松地从使用指令微调的 LM 构建的 RAG 系统的数据存储中逐字提取文本数据。这种漏洞存在于 Llama2、Mistral/Mixtral、Vicuna、SOLAR、WizardLM、Qwen1.5 和 Platypus2 等各种现代 LM 中,并且随着模型规模的扩大,可利用性也随之加剧。我们还研究了 RAG 设置对数据可提取性的多种影响,表明遵循意外指令来重复数据可能是现代 LM 在有效利用上下文中失败的结果,并进一步表明,通过位置偏差消除策略可以极大地缓解这种漏洞。将我们的研究扩展到生产 RAG 模型 GPTs,我们设计了一种攻击,可以在最多 2 个查询的情况下,对 25 个随机选择的定制 GPTs 实现 100% 的数据存储泄露成功率,并且通过仅使用 100 个由它们自己生成的查询来提示 GPTs,我们以 41% 的比率从一本 77,000 字的书籍中提取逐字文本数据,并以 3% 的比率从一个 1,569,000 字的语料库中提取逐字文本数据。
发布时间: 10/8/2024
查看原文
现有的模型在对长序列建模时,在平衡性能和计算效率方面遇到了瓶颈。虽然状态空间模型(SSM)在处理长序列任务方面取得了显著成功,但它仍然面临着参数数量庞大的问题。为了进一步提高SSM的效率,我们提出了一种基于多输入多输出SSM的新型状态空间层,称为高效SSM(eSSM)。我们的eSSM建立在多输入多输出(MIMO)SSM的卷积表示之上。我们提出了一系列有效的策略来提高计算效率。系统矩阵的对角化首先解耦了原始系统。然后,基于快速傅里叶变换提出了一种快速张量卷积。此外,SSM的块对角化进一步减少了模型参数,提高了模型灵活性。大量的实验结果表明,所提出的模型在多个数据库上的性能与最先进的模型(如S4)相当,并且明显优于Transformers和LSTM。在模型效率基准测试中,eSSM的参数仅为LSTM的12.89%和Mamba的13.24%。eSSM的训练速度比LSTM快3.94倍,比Mamba快1.35倍。代码可在以下地址获取:\href{https://github.com/leonty1/essm}{https://github.com/leonty1/essm}。
发布时间: 10/8/2024
查看原文
作者: Wendi Zhou, Tianyi Li, Pavlos Vougiouklis, Mark Steedman, Jeff Z. Pan
识别和理解用户意图是电子商务中一项关键任务。尽管它在产品推荐和商业用户画像分析中发挥着重要作用,但意图理解尚未得到一致的定义或准确的基准测试。本文重点关注预测性用户意图,即“客户如何使用产品”,并将意图理解定义为一项自然语言推理任务,独立于产品本体。我们确定了 FolkScope(最先进的电子商务意图知识图谱)的两个弱点:类别僵化和属性模糊。它们限制了 FolkScope 将用户意图与具有最理想属性的产品紧密匹配的能力,以及跨不同类别推荐有用产品的能力。基于这些观察结果,我们引入了一个产品恢复基准,它包含一个新颖的评估框架和一个示例数据集。我们进一步在这个基准上验证了上述 FolkScope 的弱点。我们的代码和数据集可在 https://github.com/stayones/Usgae-Centric-Intent-Understanding 获取。
发布时间: 10/8/2024
查看原文
可控音乐生成在人机协同创作音乐中起着至关重要的作用。虽然大型语言模型 (LLM) 在生成高质量音乐方面展现出潜力,但它们对自回归生成的关注限制了其在音乐编辑任务中的效用。为了解决这一差距,我们提出了一种新方法,利用参数高效的异构适配器结合掩码训练方案。这种方法使自回归语言模型能够无缝地解决音乐修复任务。此外,我们的方法集成了帧级基于内容的控制,方便了曲目条件的音乐细化和谱面条件的音乐编排。我们将此方法应用于对 MusicGen 的微调,MusicGen 是一个领先的自回归音乐生成模型。我们的实验表明,在多个音乐编辑任务中取得了令人鼓舞的结果,为未来的 AI 驱动的音乐编辑工具提供了更灵活的控制。源代码和展示我们工作的演示页面可在 https://kikyo-16.github.io/AIR 获取。
发布时间: 10/8/2024
查看原文
作者: Ziqiao Shang, Bin Liu, Fengmao Lv, Fei Teng, Tianrui Li
面部动作单元 (AU) 检测长期以来面临着在 AU 激活时检测细微特征差异的挑战。现有方法通常依赖于对 AU 的像素级信息的编码,这不仅编码了额外的冗余信息,而且导致模型复杂度增加,泛化能力有限。此外,AU 检测的准确性受到每个 AU 类型类别不平衡问题以及噪声和错误 AU 标签的存在的负面影响。在本文中,我们介绍了一种新颖的对比学习框架,旨在用于 AU 检测,该框架结合了自监督和监督信号,从而增强了判别特征的学习,以实现准确的 AU 检测。为了解决类别不平衡问题,我们采用了一种负样本重新加权策略,该策略调整了更新少数类和多数类样本参数的步长。此外,为了应对噪声和错误 AU 标签带来的挑战,我们采用了一种采样技术,该技术包含三种不同的正样本对类型。这使我们能够将自监督信号注入监督信号中,有效地减轻了噪声标签的不利影响。我们对四个广泛使用的基准数据集(BP4D、DISFA、GFT 和 Aff-Wild2)进行的实验评估表明,与最先进的 AU 检测方法相比,我们的方法具有优越的性能。我们的代码可在 \url{https://github.com/Ziqiao-Shang/AUNCE} 获取。
发布时间: 10/8/2024
查看原文
通过代理奖励建模从人类反馈中学习已被用于使大型语言模型 (LLM) 与人类价值观保持一致。然而,通过该代理奖励模型 (RM) 实现可靠的训练并非易事,其行为仍然是一个黑箱。在本文中,我们通过将可解释的特征组合成一个白盒奖励函数,通过“反向奖励工程”研究了代理奖励在 LLM 对齐中的作用。我们的目标是通过在强化学习 (RL) 中使用代理奖励训练模型后,在代理奖励信号和黄金奖励信号之间实现单调关系,从而复制地面真实(黄金)奖励信号。我们的发现表明,成功地模拟黄金奖励需要生成对开放式问题的足够长度的相关响应,同时还要确保对封闭式问题的响应一致性。此外,优化我们设计的白盒奖励的模型在对齐基准测试中表现出与强大的开源 RM 相当的性能。我们强调了它作为 LLM 对齐的简单但强大的奖励基线的潜在用途,不需要显式的人类反馈数据集和 RM 训练。我们的代码可在 https://github.com/naver-ai/rethinking-proxy-reward 获取。
发布时间: 10/8/2024
查看原文
作者: Junjie Chu, Zeyang Sha, Michael Backes, Yang Zhang
大型语言模型,以 GPT 模型为代表,近年来取得了重大进展。用户经常与云托管的 GPT 模型进行多轮私人对话以优化任务。然而,这种操作范式引入了额外的攻击面,特别是在定制 GPT 和劫持的聊天会话中。本文介绍了一种简单而有效的对话重建攻击。该攻击针对 GPT 模型与良性用户之间先前对话的内容,即良性用户在与 GPT 模型交互期间的输入内容。攻击者可以通过向 GPT 模型查询设计好的恶意提示来诱使它们泄露此类内容。我们对 GPT 模型在该攻击下交互过程中的隐私风险进行了全面审查,发现 GPT-4 具有相当的抵抗力。我们提出了两种针对改进过去对话重建的先进攻击,证明了在这些先进技术下所有模型都存在重大隐私泄露。评估各种防御机制后,我们发现它们对这些攻击无效。我们的研究结果突出了在与 GPT 模型交互过程中隐私很容易被泄露的程度,呼吁社区采取措施防范对这些模型能力的潜在滥用。
发布时间: 10/8/2024
查看原文
作者: Rohin Manvi, Samar Khanna, Marshall Burke, David Lobell, Stefano Ermon
大型语言模型 (LLM) 本身就包含着训练语料库中的偏见,这会导致社会危害的延续。随着这些基础模型的影响力不断增长,理解和评估它们的偏见对于实现公平性和准确性至关重要。我们建议通过地理视角来研究 LLM 对我们所处世界的认知。这种方法特别有效,因为人类生活的众多方面(如文化、种族、语言、政治和宗教)都以有意义的方式投射到地理空间中,而这些方面都有客观真实性。我们展示了各种有问题的地理偏见,我们将其定义为地理空间预测中的系统性错误。首先,我们证明 LLM 能够进行准确的零样本地理空间预测,形式为评分,这些评分与客观真实性(Spearman 的 $\rho$ 最高可达 0.89)显示出强烈的单调相关性。然后,我们展示了 LLM 在一系列客观和主观主题上表现出常见的偏见。特别是,LLM 在各种敏感的主观主题(如吸引力、道德和智力)上,明显地对社会经济状况较低的地区(例如非洲大部分地区)存在偏见(Spearman 的 $\rho$ 最高可达 0.70)。最后,我们引入了一个偏见评分来量化这种现象,并发现现有 LLM 的偏见程度存在显著差异。代码可在项目网站上获取:https://rohinmanvi.github.io/GeoLLM
发布时间: 10/8/2024
查看原文