arXiv 论文列表

作者: Xiaobao Wu, Liangming Pan, William Yang Wang, Anh Tuan Luu

知识编辑将知识更新注入语言模型，以保持其正确性和最新性。然而，目前对其的评估与实际应用存在显著偏差：它们的知识更新仅包含来自精心制作的数据集的结构化事实，而不是来自实际来源——如新闻文章等非结构化文本，并且它们经常忽略实际的现实世界知识更新。为了解决这些问题，本文提出了 AKEW（评估现实世界中的知识编辑），一个新的针对知识编辑的实用基准。AKEW 涵盖了知识更新的三种编辑设置：结构化事实、非结构化文本作为事实以及提取的三元组。它还引入了包含反事实和现实世界知识更新的新数据集。通过大量的实验，我们证明了最先进的知识编辑方法与实际场景之间存在相当大的差距。我们的分析进一步强调了关键见解，以激励未来针对实用知识编辑的研究。

发布时间: 10/11/2024

查看原文

具有思维链的LLM有多大可能模仿人类推理？

作者: Guangsheng Bao, Hongbo Zhang, Cunxiang Wang, Linyi Yang, Yue Zhang

链式思维（CoT）是一种很有前景的技术，可以从大型语言模型（LLM）中引出推理能力。然而，它并不总是能提高任务性能或准确地代表推理过程，这使得围绕其使用的一些问题尚未解决。在本文中，我们通过将 LLMs 的推理过程与人类进行比较，使用因果分析来理解 LLMs 和人类中问题指令、推理和答案之间的关系，从而诊断其潜在机制。我们的实证研究表明，LLMs 经常偏离因果链，导致虚假相关性和潜在的一致性错误（不一致的推理和答案）。我们还考察了影响因果结构的各种因素，发现使用示例进行的上下文学习会加强因果结构，而监督微调和基于人类反馈的强化学习等训练后技术会削弱因果结构。令我们惊讶的是，因果结构无法通过扩大模型规模来加强，这促使人们研究新的技术。我们希望这项初步研究能够为理解和进一步改进 LLMs 中的推理过程提供启示。

发布时间: 10/11/2024

查看原文

基于一致性预测的安全多机器人语言指令任务规划

作者: Jun Wang, Guocheng He, Yiannis Kantaros

本文探讨了语言指令型机器人团队的任务规划问题。任务以自然语言（NL）表达，要求机器人应用其能力在不同位置和语义对象上执行操作。近年来，一些研究通过利用预训练的大型语言模型（LLMs）来设计有效的多机器人计划，从而解决了类似的规划问题。然而，这些方法缺乏任务完成的保证。为了解决这一挑战，我们提出了一种新的基于分布式 LLMs 的规划器，称为 S-ATLAS（用于语言指令型代理团队的安全规划），该规划器能够实现用户定义的任务成功率。这是通过利用保形预测（CP）来实现的，CP 是一种黑盒模型中无分布的置信度量化工具。CP 允许提出的多机器人规划器以分布式的方式推理其固有的不确定性，使机器人能够在足够确定的情况下做出独立决策，否则寻求帮助。我们从理论和经验上都表明，所提出的规划器能够在最大限度地减少总体帮助请求数量的同时实现用户指定的任务成功率。我们提供了与相关工作的比较实验，表明我们的方法在计算效率方面明显更高，并且实现了更低的帮助率。随着机器人团队规模的增加，我们的算法相对于基线的优势变得更加明显。

发布时间: 10/11/2024

查看原文

揭秘大型语言模型在实体对齐中的力量

作者: Xuhui Jiang, Yinghan Shen, Zhichao Shi, Chengjin Xu, Wei Li, Zixuan Li, Jian Guo, Huawei Shen, Yuanzhuo Wang

实体对齐 (EA) 对于整合不同的知识图谱 (KG) 数据至关重要，在数据驱动的 AI 应用中发挥着关键作用。传统的 EA 方法主要依赖于比较实体嵌入，但其有效性受到有限的输入 KG 数据和表示学习技术的局限性的制约。在此背景下，我们引入了 ChatEA，这是一个创新的框架，它结合了大型语言模型 (LLMs) 来改进 EA。为了解决有限输入 KG 数据的限制，ChatEA 引入了一个 KG 代码翻译模块，将 KG 结构翻译成 LLM 可理解的格式，从而允许 LLM 利用其广泛的背景知识来提高 EA 准确性。为了克服对实体嵌入比较的过度依赖，ChatEA 实施了一个两阶段的 EA 策略，利用 LLM 在对话格式中进行多步推理的能力，从而提高准确性并保持效率。我们的实验结果验证了 ChatEA 的优越性能，突出了 LLM 在促进 EA 任务方面的潜力。

发布时间: 10/11/2024

查看原文

PEDANTS：廉价但有效的答案等价性

作者: Zongxia Li, Ishani Mondal, Yijun Liang, Huy Nghiem, Jordan Lee Boyd-Graber

问答 (QA) 只有在我们知道答案是否正确的情况下才能取得进展，但当前的答案正确性 (AC) 指标难以处理来自大型语言模型 (LLMs) 的冗长、自由格式的答案。当前的短格式 QA 评估存在两个挑战：缺乏多样化的评估数据风格以及过度依赖昂贵且缓慢的 LLMs。基于 LLMs 的评分者与人类的关联度更高，但这项昂贵的任务只在有限的 QA 数据集上进行了测试。我们通过提供从 Trivia 社区借鉴的机器 QA 评估的评分标准和数据集来纠正这些问题。我们还提出了一种高效且可解释的 QA 评估，该评估比精确匹配和神经方法 (BERTScore) 更稳定。

发布时间: 10/11/2024

查看原文

SAGMAN：图神经网络在流形上的稳定性分析

作者: Wuxinlin Cheng, Chenhui Deng, Ali Aghdaei, Zhiru Zhang, Zhuo Feng

现代图神经网络 (GNNs) 对输入图结构和节点特征的变化很敏感，这可能导致不可预测的行为和性能下降。本文介绍了一种名为 SAGMAN 的谱框架，用于检查 GNNs 的稳定性。该框架评估了 GNNs 在输入和输出流形之间进行非线性映射时产生的距离扭曲：当输入流形上的两个相邻节点被映射（通过 GNN 模型）到输出流形上的两个相距较远的节点时，这意味着存在较大的距离扭曲，因此 GNN 稳定性较差。我们提出了一种距离保持图降维 (GDR) 方法，该方法利用谱图嵌入和概率图模型 (PGMs) 来创建低维输入/输出图流形，以便进行有意义的稳定性分析。我们的实证评估表明，SAGMAN 在受到各种边或特征扰动时能够有效地评估每个节点的稳定性，为评估 GNNs 的稳定性提供了一种可扩展的方法，并扩展到推荐系统中的应用。此外，我们还说明了它在后续任务中的实用性，特别是在增强 GNN 稳定性和促进对抗性目标攻击方面。

发布时间: 10/11/2024

查看原文

MOMENT：一系列开源时间序列基础模型

作者: Mononito Goswami, Konrad Szafer, Arjun Choudhry, Yifu Cai, Shuo Li, Artur Dubrawski

我们引入了 MOMENT，一个用于通用时间序列分析的开源基础模型家族。由于 (1) 缺乏大型且一致的公共时间序列库，以及 (2) 多样化的时间序列特征使得多数据集训练变得繁重，在时间序列数据上预训练大型模型具有挑战性。此外，(3) 用于评估这些模型的实验基准，尤其是在资源、时间和监督有限的情况下，仍处于起步阶段。为了应对这些挑战，我们编制了一个大型且多样化的公共时间序列集合，称为时间序列堆，并系统地解决时间序列特定挑战以解锁大规模多数据集预训练。最后，我们借鉴了最近的研究成果，设计了一个基准来评估时间序列基础模型在有限监督设置下的不同任务和数据集上的表现。在这个基准上的实验表明，我们的预训练模型在最少数据和特定任务微调的情况下，具有很高的有效性。最后，我们还介绍了关于大型预训练时间序列模型的一些有趣的经验观察结果。预训练模型 (AutonLab/MOMENT-1-large) 和时间序列堆 (AutonLab/Timeseries-PILE) 可在 Huggingface 上获取。

发布时间: 10/11/2024

查看原文

帕拉马努：面向印度语言的一系列高效新型生成式基础语言模型

作者: Mitodru Niyogi, Arnab Bhattacharya

我们提出了“Paramanu”，一个针对印度语系的全新语言模型（LM）系列，包含从头开始预训练的自回归单语、双语和多语模型。目前，它涵盖了 10 种语言（阿萨姆语、孟加拉语、印地语、孔卡尼语、迈地利语、马拉地语、奥里亚语、梵语、泰米尔语、泰卢固语），跨越 5 种文字系统（孟加拉语、天城体、奥里亚语、泰米尔语、泰卢固语）。这些模型在单个 GPU 上进行预训练，上下文大小为 1024，参数规模从 1329 万 (M) 到 3.675 亿 (M) 不等。我们提出了一种 RoPE 嵌入缩放方法，使我们能够以比典型 GPU 内存允许的更大的序列长度上下文大小从头开始预训练语言模型。我们还引入了一种新颖的、高效的印度语分词器“mBharat”，它结合了 BPE 和 Unigram，实现了最低的生育率得分，并能够对相同文字系统和罗马文字系统中的未见语言进行分词。我们还针对多语模型提出了语言特定的分词方法，以及针对单语模型提出了领域特定的分词方法。为了解决我们 mParamanu 模型中的“多语性诅咒”，我们在基于相同文字系统内的类型学分组的相当语料库上进行了预训练。我们的研究结果表明，在相同文字系统和类型学内的语言中，从低资源语言到高资源语言存在语言迁移现象。针对开放式文本生成的的人工评估表明，尽管 Paramanu 模型的规模小 20 到 64 倍，但它们的表现优于几种大型语言模型。我们创建了指令微调数据集，并在各自的语言中使用 23,000 条指令对我们的模型进行了指令微调。跨各种自然语言 (NL) 理解、NL 推理和阅读理解基准与多语大型语言模型的比较突出了我们模型的优势；得出的结论是，高质量的生成式语言模型可以在没有大量计算能力和海量参数的情况下实现。

发布时间: 10/11/2024

查看原文

LLaMP：赋能大语言模型，实现高保真材料知识检索与蒸馏

作者: Yuan Chiang, Elvis Hsieh, Chia-Hong Chou, Janosh Riebesell

大型语言模型 (LLM) 在许多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法……

发布时间: 10/11/2024

查看原文

语言模型作为层次编码器

作者: Yuan He, Zhangdie Yuan, Jiaoyan Chen, Ian Horrocks

大型语言模型 (LLMs) 在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLMs 的方法...

发布时间: 10/11/2024

查看原文