图表问答 (ChartQA) 任务在解释和提取可视化图表中的见解方面起着至关重要的作用。虽然 GPT-4o 等多模态大型语言模型 (MLLM) 在图表字幕等高级 ChartQA 任务中表现出了前景,但它们在低级 ChartQA 任务(例如识别相关性)中的有效性仍未得到充分探索。在本文中,我们通过使用新整理的数据集 ChartInsights 评估 MLLM 在低级 ChartQA 上的表现来解决这一差距,该数据集包含 22,347 个(图表、任务、查询、答案)涵盖 7 种图表类型的 10 个数据分析任务。我们系统地评估了 19 个高级 MLLM,包括 12 个开源模型和 7 个闭源模型。这些模型的平均准确率为 39.8%,GPT-4o 的准确率最高,达到 69.17%。为了进一步探索 MLLM 在低级 ChartQA 中的局限性,我们进行了改变图表视觉元素(例如,更改配色方案、添加图像噪声)的实验,以评估它们对任务有效性的影响。此外,我们提出了一种新的文本提示策略,即 Chain-of-Charts,专门针对低级 ChartQA 任务,该策略将性能提升了 14.41%,准确率达到 83.58%。最后,通过引入将注意力引导到相关视觉元素的视觉提示策略,准确率进一步提高到 84.32%。
利用大型语言模型生成代码在软件开发革命中展现出巨大的潜力。尽管通用大型语言模型展现出智能,但由于自然语言和不同编程语言之间存在的语法差距和词汇不匹配,它们在代码生成方面的特异性仍有提升空间。本文提出 CodeGRAG,一个图形检索增强代码生成框架,旨在提升大型语言模型的性能。CodeGRAG 基于代码块的控制流和数据流构建代码块的图形视图,以弥合编程语言和自然语言之间的差距,从而帮助基于自然语言的大型语言模型更好地理解代码语法,并作为不同编程语言之间的桥梁。为了将提取的结构化知识纳入基础模型,我们提出了 1) 一个硬元图提示模板,将具有挑战性的图形表示转换为信息丰富的知识,用于无调优模型;以及 2) 一个软提示技术,通过使用预训练的 GNN 专家模型微调模型,将编程语言的领域知识注入模型参数中。在包括 C++ 和 Python 语言在内的四个数据集上进行了各种实验和消融研究,以验证硬元图提示、软提示技术以及预训练 GNN 专家目标的有效性。CodeGRAG 提高了大型语言模型的代码生成能力,甚至可以为跨语言代码生成提供性能提升。该实现可在 https://anonymous.4open.science/r/Code-5970/ 获取。
测试条件独立性在贝叶斯网络学习和因果发现等领域具有广泛的应用。现有的测试方法多种多样,但它们通常无法处理仅有离散观测数据的情况。具体而言,假设 $X_1$,$\tilde{X}_2$ 和 $X_3$ 是观测变量,其中 $\tilde{X}_2$ 是潜在变量 $X_2$ 的离散化结果。将现有的测试方法应用于 $X_1$,$\tilde{X}_2$ 和 $X_3$ 的观测数据可能会导致关于变量 $X_1$,$X_2$ 和 $X_3$ 的潜在条件独立性的错误结论。针对这一问题,我们提出了一种专门针对离散化情况的条件独立性检验方法。为了实现这一目标,我们设计了桥接方程来恢复反映潜在连续变量统计信息的参数。我们还推导出了在条件独立性零假设下的适当检验统计量及其渐近分布。理论结果和经验验证均表明了我们提出的测试方法的有效性。
本文评估了大型语言模型 (LLM) 在战略场景中是否能像人类一样做出偏好判断,并与已知的实证结果进行了比较。结果表明,Solar 和 Mistral 在价值观驱动的偏好方面表现出与人类一致的稳定性,并在囚徒困境(包括赌注大小效应)和旅行者困境(包括惩罚大小效应)中表现出与人类相似的合作偏好。我们建立了模型规模、价值观驱动的偏好和肤浅性之间的关系。最后,本文结果表明,那些倾向于更不容易崩溃的模型依赖于滑动窗口注意力机制,这暗示了潜在的联系。此外,我们还贡献了一种从任意 LLM 中构建偏好关系的新方法,并为旅行者困境中的人类行为假说提供了支持。
大型语言模型(LLMs)从不同时间戳收集的大量数据快照中获取知识。然后,通常使用静态基准评估它们的知识。然而,事实知识通常会随时间发生变化,而静态基准无法解决这些情况。我们提出了一种方法,使用维基数据(一个公开可用的最新知识图)动态评估 LLMs 中的知识及其对时间的敏感性。我们评估了 24 个私有和开源 LLMs 的时间敏感知识,以及四种编辑方法在更新过时事实方面的有效性。我们的结果表明:1)过时是一个跨越最先进 LLMs 的关键问题;2)LLMs 在使用略微不同的问题提示进行提示时会输出不一致的答案;3)最先进的知识编辑算法的性能非常有限,因为它们无法减少过时和输出不一致的情况。
本研究提出了一种新颖的学习方法,旨在增强大型语言模型 (LLM) 的数学推理和问题解决能力。我们专注于整合思维链 (CoT) 和思维程序 (PoT) 学习,假设优先学习数学推理能力有助于增强问题解决能力。因此,使用 CoT 进行的初始学习对于解决具有挑战性的数学问题至关重要。为此,我们提出了一种名为 SAAS(解决能力放大策略)的顺序学习方法,该方法战略性地从 CoT 学习过渡到 PoT 学习。我们使用多个基准进行的广泛性能比较的实证研究表明,我们的 SAAS 实现了最先进 (SOTA) 的性能。结果强调了我们的顺序学习方法的有效性,标志着 LLM 数学推理领域的一项重大进步。
多智能体强化学习 (MARL) 的出现正在显著改变自动驾驶汽车网络等各个领域。然而,现实世界中的多智能体系统通常包含多个角色,并且这些系统的规模会动态波动。因此,为了实现零样本可扩展的协作,策略必须能够根据规模灵活更新,这对当前的 MARL 框架来说仍然是一个挑战。为了解决这个问题,我们提出了一种名为可扩展异构近端策略优化 (SHPPO) 的新型 MARL 框架,将异构性集成到基于参数共享 PPO 的 MARL 网络中。我们首先利用一个潜在网络来自适应地学习每个智能体的策略模式。其次,我们在决策网络中引入了一个异构层,其参数由学习到的潜在变量专门生成。我们的方法是可扩展的,因为所有参数都是共享的,除了异构层,并且获得了个体间和时间异构性,使 SHPPO 能够有效地适应不同的规模。SHPPO 在星际争霸多智能体挑战 (SMAC) 和谷歌研究足球 (GRF) 等经典 MARL 环境中表现出优越的性能,展示了增强的零样本可扩展性,并通过可视化提供了对学习到的潜在变量对团队性能的影响的见解。
在这项工作中,我们对从输入文本中自动创建知识图谱(KGC)的方法感兴趣。大型语言模型(LLMs)的进步促使人们进行了一系列最近的研究,将它们应用于 KGC,例如通过零样本/少样本提示。尽管在小型特定领域数据集上取得了成功,但这些模型在扩展到许多现实世界应用中常见的文本时面临着困难。一个主要问题是,在先前的方法中,KG 模式必须包含在 LLM 提示中以生成有效的三元组;更大更复杂的模式很容易超过 LLMs 的上下文窗口长度。此外,在某些情况下,没有固定的预定义模式,我们希望该方法能够构建具有简洁的自生成模式的高质量 KG。为了解决这些问题,我们提出了一个名为提取-定义-规范化(EDC)的三阶段框架:开放信息提取,随后是模式定义和事后规范化。EDC 的灵活之处在于它可以应用于存在预定义目标模式和不存在目标模式的情况;在后一种情况下,它会自动构建模式并应用自规范化。为了进一步提高性能,我们引入了一个经过训练的组件,用于检索与输入文本相关的模式元素;这以类似于检索增强生成的方式提高了 LLMs 的提取性能。我们在三个 KGC 基准上证明了 EDC 能够提取高质量的三元组,无需任何参数调整,并且与以前的工作相比,模式要大得多。EDC 的代码可在 https://github.com/clear-nus/edc 获得。
在自然语言推理(NLI)领域,特别是在涉及多个输入文本分类的任务中,交叉熵损失度量被广泛用作错误测量的标准。然而,这种度量在有效评估模型理解语言蕴涵的能力方面存在不足。在本研究中,我们提出了一种为斯坦福自然语言推理(SNLI)数据集生成对比集的创新技术。我们的策略涉及用同义词自动替换动词、副词和形容词,以保留句子的原始含义。该方法旨在评估模型的性能是基于真正的语言理解还是仅仅基于模式识别。我们使用 ELECTRA-small 模型进行了分析。该模型在传统的 SNLI 数据集上取得了 89.9% 的准确率,但在我们的对比集上准确率下降至 72.5%,下降了 17%。这一结果促使我们对模型的学习行为进行了详细的检查。在此之后,我们通过使用专门为 SNLI 设计的对比增强训练数据集对模型进行微调,提高了模型的鲁棒性,使其在对比集上的准确率提升至 85.5%。我们的研究结果强调了将不同的语言表达纳入 NLI 任务数据集的重要性。我们希望我们的研究能够鼓励创建更具包容性的数据集,从而有助于开发更复杂、更有效的 NLI 模型。
大型语言模型 (LLM) 已经在许多自然语言处理任务中取代了传统方法。然而,在命名实体识别 (NER) 中,现有的基于 LLM 的方法...