arXiv:2407.01749v2 宣告类型: replace-cross
摘要:不变风险最小化(IRM)方法旨在通过训练跨多个环境不变的特征表示来解决领域泛化的挑战。然而,在噪声环境中,IRM相关技术,如IRMv1和VREx可能无法达到最优的IRM解决方案,主要原因是存在错误的优化方向。为了解决这个问题,我们引入了ICorr(亦称为不变相关),这是一种旨在解决噪声环境中上述挑战的新方法。此外,我们还对一个案例进行了深入研究,以分析为什么以前的方法可能会失败,而ICorr却能成功。通过理论视角,特别是从因果性角度,我们阐明了在噪声环境中,特征表示与标签之间的不变相关是达到最优不变预测器的必要条件,而其他方法的优化动机可能不是。此外,我们通过在多种噪声数据集上与其他领域泛化方法进行比较,实证地证明了ICorr的有效性。代码可以在https://github.com/Alexkael/ICorr获得。
arXiv:2407.00936v3 更新类型: replace-cross
摘要:知识表示学习(KRL)对于通过将知识事实投影到向量空间中,使知识图谱(KGs)的符号知识能够应用于下游任务至关重要。尽管KRL方法在建模KG结构信息方面表现出色,但它们面临着KG稀疏性的问题。基于Transformer架构构建的大语言模型(LLMs)的兴起为通过引入文本信息来增强KRL并解决KG中的信息稀疏性提供了前景。增强了大语言模型的KRL方法包括三种关键方法:利用详细上下文信息的编码器基方法、利用统一seq2seq模型进行全面编码和解码的编码器-解码器基方法,以及利用大量语料库中广泛应用的知识的解码器基方法,这些方法在应对各种下游任务方面显著提升了KRL的有效性和泛化能力。本文在提供对下游任务广泛概述的同时,也指出了这些不断发展的领域中的新兴研究方向。
arXiv:2406.18449v2 Announce Type: replace-cross
摘要:从长文档中生成事件图是一项具有挑战性的任务,主要由于其中涉及的多重任务的固有复杂性,例如检测事件、识别其关系以及解决无结构输入与结构化图之间的矛盾。最近的研究通常将所有事件视为同等重要,未能区分对于理解叙述至关重要的关键事件。本文介绍了一种因果级联大型语言模型框架——CALLMSAE,用于生成关键事件图,该框架利用了大型语言模型的能力,并消除了成本高昂的人工注释需求。我们首先通过提示大型语言模型生成摘要,从摘要中识别出关键事件。接下来,我们开发了一种迭代的代码精炼提示策略,以生成事件关系图,移除假想的关系并恢复缺失的边。得益于CALLMSAE,我们展示了NYT-SEG,这是一个大型自动注释事件图数据集,可以用作远程监督信号。在NYT-SEG上微调上下文图生成模型优于在CAEVO数据上训练的模型。在人工注释测试集上的结果显示,所提出的方法生成了更关键、更准确的图,并优于竞争性基线。
arXiv:2406.16672v3 Announce Type: replace-cross
摘要:作者身份验证(Authorship Verification, AV)(两份文档是否有相同的作者?)在许多实际应用中至关重要。AV 在许多需要离线专用模型的数据敏感领域中被广泛使用,而这些模型通常部署在本地环境,因此将这些模型作为公共在线模型(API)提供的选择往往是次优的。然而,当前的离线AV模型由于准确率较低(例如传统语体学AV系统)以及缺乏可访问的后验解释而具有较低的下游用途。在这项工作中,我们通过开发一个训练有素且离线的模型 CAVE(可控作者身份验证解释)来解决上述挑战。CAVE 生成以自由文本形式的可控AV解释,这些解释(1)易于访问(具有统一结构,可以分解成与相关语言特征紧密结合的小解释),并且(2)易于验证以确保解释标签的一致性。我们使用基于提示的方法 Prompt-CAVE 生成了符合期望语言特征的银标准培训数据。然后,我们基于一种新的一致性度量 Cons-R-L 对数据进行过滤,以确保理由标签的一致性。最后,我们使用此数据对一个小且离线的模型(Llama-3-8B)进行微调,以创建我们的模型 CAVE。在三个具有挑战性的AV数据集上的结果表明,CAVE 生成了高质量的解释(根据自动和人工评估进行测量),并且在任务准确度方面具有竞争力。
arXiv:2406.14302v3 宣告类型: replace-cross
摘要:识别潜在表示或因果结构对于良好的泛化能力和下游任务性能至关重要。然而,这两个领域却相对独立地发展着。我们观察到,在表示学习和因果结构学习的多个方法中,都依赖于相同的数据生成过程(DGP),即互换性但不是i.i.d.(独立同分布)的数据。我们提供了一个统一体系,称为可识别互换机制(IEM),用于互换性条件下表示和结构学习。IEM 提供了新的见解,使我们能够放松互换性非i.i.d.数据中因果结构识别的必要条件。我们还证明了可识别表示学习中存在的对偶条件,从而产生了新的可识别性结果。我们希望这项工作能够为因果表示学习进一步研究奠定基础。
arXiv:2406.11927v4 公告类型: replace-cross
摘要:代码LLMs已经在代码生成任务中得到了广泛应用,但它们在处理具有复杂上下文依赖性的仓库级代码生成方面的能力仍然鲜有探索。我们的工作强调了利用仓库级上下文生成可执行且功能正确的代码的重要性。我们提出了RepoExec,这是一种新的基准测试,旨在评估仓库级代码生成,重点关注三个方面:可执行性、通过全面的测试用例生成确保功能正确性以及准确利用跨文件上下文。我们的研究考察了开发者指定关键代码依赖性(上下文)的受控场景,挑战模型有效整合这些依赖性。此外,我们引入了一个指令调优数据集,以增强代码LLMs利用依赖性的能力,同时还引入了一个新的度量标准——依赖调用率(DIR),以量化上下文的利用情况。实验结果表明,虽然预训练的大语言模型在正确性方面表现出色,但指令调优模型在上下文利用和调试能力方面更为出色。RepoExec提供了一个全面的评估框架,用于评估代码功能性和与开发者意图的一致性,从而推进更可靠的代码LLMs的实际应用开发。数据集和源代码可从https://github.com/FSoft-AI4Code/RepoExec获得。
arXiv:2406.11044v2 宣告类型: 替换-交叉
摘要:大型语言模型(LLMs)正在迅速发展并影响各种领域,这需要开发有效的评估和比较其性能的方法。目前大多数性能评估方法要么基于固定、领域特定的问题,缺乏许多实际应用所需的高度灵活性,要么依赖于人类输入,使其无法扩展。为了解决这些问题,我们提出了一种基于LLM之间辩论的自动化基准测试框架,由另一个LLM进行评判。这种方法不仅评估领域知识,还评估诸如论辩推理和不一致识别等技能。我们使用辩论框架对各种最先进的LLM进行了性能评估,并实现了与基于人类输入的流行排名高度一致的排名,从而消除了昂贵的人类外包的需要。
arXiv:2406.10181v2 宣告类型: replace-cross
摘要:微调大量语言模型(LLMs)需要大量的内存,往往超过了单个GPU的容量。解决这一内存挑战的常见方法是将计算和数据从GPU卸载到CPU。然而,这种方法受到商用硬件带宽有限的限制,这限制了CPU和GPU之间的通信,并且CPU上的矩阵乘法速度较慢。
在这篇论文中,我们提出了一个卸载框架LSP-Offload,通过学习稀疏投影器在商用硬件上实现接近原生速度的LLM微调。我们的数据驱动方法涉及学习高效的稀疏压缩器,以最小化通信并减少精度损失。此外,我们引入了一种新的逐层通信调度方法,以最大化通信和计算之间的并行性。因此,我们的框架可以在4GB笔记本GPU上微调一个1.3亿参数的模型,在24GB NVIDIA RTX 4090 GPU上微调一个6.7亿参数的模型。与最先进的卸载框架相比,当达到相同准确度时,我们的方法将端到端微调时间减少了33.1%-62.5%。我们开源了我们的框架,地址为 https://github.com/gulang2019/LSP-Offload。
arXiv:2406.09496v3 宣告类型: replace-cross
摘要:我们介绍了世界万维菜谱,其中提出了一个文化意识和参与性的数据收集框架,并由此产生了地区多样的世界万维菜肴评估数据集。我们还分析了偏见的操作化,以突出当前系统在多个维度上的表现不佳:准确性和误代表性,以及文化敏感性和不敏感性,并附有来自定性社区观察和定量自动化工具的证据。我们发现,这些从文本到图像(T2I)模型通常不生成特定于各种地区的菜肴质量输出。即使对于通常被认为在训练数据方面更为资源丰富的美国,也是如此——尽管美国菜肴的生成表现优于调查的非洲国家。这些模型展示了生成不准确、文化误代表性、单一化和不敏感输出的倾向。这些表现性偏见有可能进一步强化刻板印象,并不成比例地导致地区背景下的抹除。数据集和代码可在 https://github.com/oxai/world-wide-dishes 获取。
arXiv:2406.09043v3 宣告类型: replace-cross
摘要:纵横填字谜是一种需要解谜者展示高度自然语言理解、文字游戏、推理以及世界知识水平的词谜形式,同时还需遵守字数和字符长度的限制。在本文中,我们探讨了使用大规模语言模型(LLMs)解决纵横填字谜的挑战。我们展示了当前一代语言模型在解读隐喻填字谜线索方面表现出显著的能力,并且在相关基准测试中,其性能比之前报告的最先进的(SoTA)结果提高了2-3倍。我们还开发了一种搜索算法,以这种性能为基础,首次使用开箱即用的LLMs解决完整填字谜网格问题,实现了在《纽约时报》填字谜上的准确率为93%。此外,我们还展示了语言模型具有良好的泛化能力,能够支持具有可靠依据的答案。