arXiv 论文列表

作者: Xingrui Gu, Guanren Qiao, Chuyi Jiang, Tianqing Xia, Hangyu Mao

强化学习在鲁棒性和可解释性方面面临着各种环境的挑战。传统的 Q 学习算法无法有效地做出决策并利用历史学习经验。为了克服这些局限性，我们提出了认知信念驱动的 Q 学习 (CBDQ)，它将主观信念建模整合到 Q 学习框架中，通过赋予智能体类似人类的学习和推理能力来提高决策准确性。从认知科学中汲取灵感，我们的方法在行动期望上维护一个主观信念分布，利用基于聚类的主观信念模型，使智能体能够推理与每个决策相关的潜在概率。CBDQ 通过将历史经验与当前上下文信息相结合，有效地减轻了高估现象并优化了决策策略，模仿了人类决策的动态。我们在各种复杂环境中对离散控制基准任务进行了评估。结果表明，CBDQ 在处理这些环境时表现出更强的适应性、鲁棒性和类似人类的特征，优于其他基线。我们希望这项工作能为研究人员提供一个新的视角来理解和解释 Q 学习。

发布时间: 10/3/2024

查看原文

理解 LLM 后训练中合成数据的理论基础：逆瓶颈视角

作者: Zeyu Gan, Yong Liu

由于高质量、特定数据的稀缺性，合成数据已成为大型语言模型 (LLM) 后训练任务中不可或缺的资源。虽然已经开发出各种生成合成数据的技术，但在合成数据的实际效果和理论理解之间仍然存在明显的差距。为了解决这一挑战，我们首先对普遍的合成数据生成过程进行了详细的建模。在此模型的基础上，我们证明了后训练模型的泛化能力由生成模型的信息增益决定，这一点可以通过新的反瓶颈视角进行分析。此外，我们引入了通过互信息 (GGMI) 的泛化增益的概念，并阐明了泛化增益与信息增益之间的关系。该分析为合成数据生成提供了理论基础，并进一步突出了其与后训练模型泛化能力的联系，为合成数据生成技术的設計和后训练过程的优化提供了理解。我们通过匿名 GitHub 存储库 (https://anonymous.4open.science/r/Understanding-Synthetic) 公开发布了我们的代码。

发布时间: 10/3/2024

查看原文

CreDes：基于大型语言模型的因果推理增强与双端搜索解决长程推理问题

作者: Kangsheng Wang, Xiao Zhang, Hao Liu, Songde Han, Huimin Ma, Tianyu Hu

大型语言模型（LLMs）在处理涉及长程推理的组合优化问题方面表现出局限性，部分原因在于因果幻觉和巨大的搜索空间。针对因果幻觉，即推理与相应状态转换之间不一致的问题，本文引入了因果关系增强 (CRE) 机制，该机制结合了因果干预和个体处理效应 (ITE)，以确保推理和状态转换每一步之间的因果正确性。针对长因果范围和巨大搜索空间限制了现有模型的性能（这些模型具有单向搜索的特点），本文提出了双端搜索 (DES) 方法，通过同时从因果概率树的初始状态和目标状态开始来寻找解决方案。通过整合 CRE 和 DES（CreDes），我们的模型实现了多步推理，绕过了像思维链 (CoT) 那样级联多个单步推理带来的低效。实验表明，在长程推理任务中，CreDes 在准确性和时间效率方面显著优于现有的最先进 (SOTA) 解决方案。

发布时间: 10/3/2024

查看原文

大型语言模型涌现能力背后的 U 形和倒 U 形缩放规律

作者: Tung-Yu Wu, Pei-Yu Lo

大型语言模型 (LLM) 在一些下游任务中展现出涌现能力，即性能在最初停滞不前，然后随着规模超过阈值而急剧且不可预测地提高。通过根据平均性能将数据集中的问题划分为不同难度级别，我们观察到对于困难问题，缩放呈现 U 形趋势，而对于简单问题，缩放呈现倒 U 形趋势，之后稳定提高。此外，涌现阈值大致与简单问题的性能从逆缩放转变为标准缩放的点一致。利用在简单和困难问题上可观察到的相反缩放趋势，我们提出了一种简单而有效的管道，称为“切片和夹心”，用于预测涌现阈值和模型性能。

发布时间: 10/3/2024

查看原文

视觉问答与推理中语境的重要性：面向视觉语言模型的语义干预

作者: Kenza Amara, Lukas Klein, Carsten L\"uth, Paul J\"ager, Hendrik Strobelt, Mennatallah El-Assady

生成式 AI 的各种局限性，例如幻觉和模型故障，使得理解不同模态在视觉语言模型 (VLM) 预测中的作用至关重要。我们的工作研究了图像和文本模态信息的整合如何影响 VLM 在视觉问答 (VQA) 和推理任务中的性能和行为。我们通过答案准确性、推理质量、模型不确定性和模态相关性来衡量这种影响。我们研究了文本和图像模态在不同配置下的相互作用，其中视觉内容对于解决 VQA 任务至关重要。我们的贡献包括：(1) 语义干预 (SI)-VQA 数据集，(2) 在不同模态配置下对各种 VLM 架构进行基准研究，以及 (3) 交互式语义干预 (ISI) 工具。SI-VQA 数据集是基准研究的基础，而 ISI 工具提供了一个界面来测试和应用图像和文本输入中的语义干预，从而实现更细粒度的分析。我们的结果表明，模态之间互补的信息提高了答案和推理质量，而矛盾的信息则损害了模型性能和置信度。图像文本注释对准确性和不确定性的影响很小，略微提高了图像相关性。注意力分析证实了图像输入在 VQA 任务中比文本起主导作用。在这项研究中，我们评估了最先进的 VLM，这些 VLM 允许我们提取每个模态的注意力系数。一个关键发现是 PaliGemma 的有害过度自信，与 LLaVA 模型相比，它存在更高的沉默失败风险。这项工作为严格分析模态集成奠定了基础，并得到了为此目的专门设计的数据集的支持。

发布时间: 10/3/2024

查看原文

思维扰乱：通过错字症揭示大型语言模型的心理学

作者: Miao Yu, Junyuan Mao, Guibin Zhang, Jingheng Ye, Junfeng Fang, Aoxiao Zhong, Yang Liu, Yuxuan Liang, Kun Wang, Qingsong Wen

大型语言模型（LLM）在处理现实世界中的复杂任务方面展现出巨大潜力，其外部行为和内部机制的研究成果令人瞩目。研究表明，像 GPT-4 这样的强大 LLM 正在开始展现出类似人类的认知能力，包括规划、推理和反思。本文提出了一种名为“LLM 心理学”的研究方向和方法，借鉴人类心理学实验来探究 LLM 的认知行为和机制。我们从心理学领域引入“字形错乱现象”，以探索 LLM 的“思维”。与人类大脑依赖上下文和词语模式来理解打乱的文本不同，LLM 使用不同的编码和解码过程。通过在字符、词语和句子级别进行字形错乱实验，我们观察到：(I) LLM 在宏观层面上表现出类似人类的行为，例如任务准确率降低，标记/时间消耗增加；(II) LLM 对打乱的输入表现出不同的鲁棒性，使字形错乱成为模型评估的基准，无需新的数据集；(III) 不同的任务类型对 LLM 的影响不同，复杂的逻辑任务（如数学）在打乱形式下更具挑战性；(IV) 每个 LLM 在不同任务中都拥有独特的且一致的“认知模式”，揭示了其心理学过程中的通用机制。我们对隐藏层进行了深入分析，以解释这些现象，为未来 LLM 心理学研究和更深层次的可解释性铺平道路。

发布时间: 10/3/2024

查看原文

基于深度强化学习寻找图中路径和循环计数公式

作者: Jason Piquenot, Maxime B\'erar, Pierre H\'eroux, Jean-Yves Ramel, Romain Raveaux, S\'ebastien Adam

本文介绍了语法强化学习（GRL），这是一种强化学习算法，它利用蒙特卡洛树搜索（MCTS）和一个在无上下文语法（CFG）框架内模拟下推自动机（PDA）的变换器架构。以高效地计算图中路径和循环的问题为例，这是网络分析、计算机科学、生物学和社会科学中的一个关键挑战，GRL 发现了用于路径/循环计数的新矩阵公式，与最先进的方法相比，计算效率提高了两到六倍。我们的贡献包括：（i）生成在 CFG 内运行的语法变换器的框架；（ii）开发用于优化语法结构内公式的 GRL；（iii）发现用于图子结构计数的新公式，从而显著提高了计算效率。

发布时间: 10/3/2024

查看原文

带链接学习的迭代局部搜索

作者: Renato Tin\'os, Michal W. Przewozniczek, Darrell Whitley, Francisco Chicano

在伪布尔优化中，变量交互图将变量表示为顶点，将变量对之间的交互表示为边。在黑盒优化中，可以通过使用经验链接学习技术至少部分地发现变量交互图。这些方法从不报告错误的变量交互，但它们在计算上很昂贵。最近提出的带有链接学习的局部搜索将部分变量交互图作为迭代局部搜索的副作用发现。然而，算法没有学习关于交互强度的信息。我们提出了带有链接学习 2 的局部搜索，它构建了一个加权变量交互图，该图存储关于变量之间交互强度的信息。加权变量交互图可以提供关于优化问题和优化器行为的新见解。对 NK 景观、背包问题和特征选择的实验表明，带有链接学习 2 的局部搜索能够有效地构建加权变量交互图。特别是，特征选择实验表明，加权变量交互图可用于可视化机器学习中的特征交互。此外，可以设计利用变量之间交互的新变换算子。我们通过为迭代局部搜索提出一个新的扰动算子来说明这种能力。

发布时间: 10/3/2024

查看原文

MedQA-CS：利用人工智能能力评估框架对大型语言模型临床技能进行基准测试

作者: Zonghai Yao, Zihao Zhang, Chaolong Tang, Xingyu Bian, Youxia Zhao, Zhichao Yang, Junda Wang, Huixue Zhou, Won Seok Jang, Feiyun Ouyang, Hong Yu

医疗保健领域的人工智能 (AI) 和大型语言模型 (LLM) 需要先进的临床技能 (CS)，但目前的基准测试无法全面评估这些技能。我们引入了 MedQA-CS，这是一个受医学教育的客观结构化临床考试 (OSCE) 启发的 AI-SCE 框架，旨在填补这一空白。MedQA-CS 通过两个指令遵循任务来评估 LLM，分别是 LLM-as-medical-student 和 LLM-as-CS-examiner，旨在反映真实的临床场景。我们的贡献包括开发 MedQA-CS，这是一个具有公开可用数据和专家注释的综合评估框架，并提供 LLM 作为 CS 评估中可靠评判者的定量和定性评估。我们的实验表明，与传统的单选题 QA 基准测试 (例如 MedQA) 相比，MedQA-CS 是一个更具挑战性的评估临床技能的基准测试。与现有基准测试相结合，MedQA-CS 可以对开放源代码和闭源 LLM 的临床能力进行更全面的评估。

发布时间: 10/3/2024

查看原文

从奖励塑形到 Q-塑形：利用 LLM 引导知识实现无偏学习

作者: Xiefeng Wu

Q-shaping 是 Q-值初始化的扩展，作为奖励塑造的替代方案，用于将领域知识融入加速代理训练，从而通过直接塑造 Q-值来提高样本效率。这种方法在各种任务中既通用又稳健，允许立即评估影响，同时保证最优性。我们使用大型语言模型（LLM）作为启发式提供者，在 20 个不同的环境中评估了 Q-shaping。结果表明，Q-shaping 显着提高了样本效率，在每个环境中比最佳基线提高了 **16.87%**，与基于 LLM 的奖励塑造方法相比提高了 **253.80%**。这些发现表明，Q-shaping 是强化学习中传统奖励塑造的一种更优越、无偏的替代方案。

发布时间: 10/3/2024

查看原文