arXiv 论文列表

微调很好，如果经过校准

作者: Zheda Mai, Arpita Chowdhury, Ping Zhang, Cheng-Hao Tu, Hong-You Chen, Vardaan Pahuja, Tanya Berger-Wolf, Song Gao, Charles Stewart, Yu Su, Wei-Lun Chao

微调可以说是将预训练模型（例如基础模型）调整到下游应用的最直接方法，但它也存在着丢失模型在预训练过程中学习到的宝贵知识的风险。例如，将能够识别大量类别的预训练分类器微调以掌握手头的类别子集，会导致模型在之前学习过的其他类别上的准确率急剧下降。因此，当微调后的模型遇到超出微调数据的类别时，很难进一步使用它。在本文中，我们系统地剖析了这个问题，旨在回答一个基本问题：“微调后的模型中哪些部分受到了损坏？”令我们惊讶的是，我们发现微调后的模型既没有忘记其他类别之间的关系，也没有降低识别这些类别的特征。相反，微调后的模型通常会为这些其他类别生成更具辨别性的特征，即使这些特征在微调过程中缺失！{真正影响准确率的是微调类别和其他类别之间的对数几率尺度差异}，这意味着简单的后处理校准将恢复预训练模型的能力，同时揭示所有类别的特征改进。我们进行了广泛的实证研究，以证明我们发现的稳健性，并提供了对这些发现的初步解释，为未来的理论分析指明了新的方向。我们的代码可在 https://github.com/OSU-MLB/Fine-Tuning-Is-Fine-If-Calibrated 获取。

发布时间: 10/3/2024

查看原文

时间MoE：基于专家混合的十亿级时间序列基础模型

作者: Xiaoming Shi, Shiyu Wang, Yuqi Nie, Dianqi Li, Zhou Ye, Qingsong Wen, Ming Jin

近年来，时间序列预测的深度学习取得了显著进展。然而，尽管大规模预训练在语言和视觉领域取得了成功，但预训练的时间序列模型在规模上仍然有限，并且运行成本高昂，阻碍了现实世界应用中更大能力的预测模型的开发。为了应对这一挑战，我们引入了 Time-MoE，这是一种可扩展且统一的架构，旨在预训练更大、更强大的预测基础模型，同时降低推理成本。通过利用稀疏专家混合 (MoE) 设计，Time-MoE 通过仅为每个预测激活网络的子集来提高计算效率，从而在保持高模型容量的同时降低计算负荷。这使得 Time-MoE 能够有效地扩展，而不会造成推理成本的相应增加。Time-MoE 包含一系列仅解码器的 Transformer 模型，这些模型以自回归的方式运行，并支持具有不同输入上下文长度的灵活预测范围。我们使用我们新引入的大规模数据 Time-300B 对这些模型进行了预训练，该数据涵盖了 9 个领域，包含超过 3000 亿个时间点。我们首次将时间序列基础模型扩展到 24 亿个参数，显著提高了预测精度。我们的结果验证了时间序列预测中训练代币和模型大小的扩展定律的适用性。与具有相同数量的激活参数或等效计算预算的密集模型相比，我们的模型始终以较大优势胜过它们。这些进步使 Time-MoE 成为解决现实世界时间序列预测挑战的最新解决方案，具有卓越的能力、效率和灵活性。

发布时间: 10/3/2024

查看原文

步步为营：可观察和模块化的思维链

作者: Cassandra A. Cohen, William W. Cohen

我们提出了一种名为“程序轨迹提示”的思维链（CoT）提示变体，它在保留 CoT 的强大功能、通用性和灵活性的同时，使解释更加可观察。在我们的方法中，少样本 CoT 演示被包装在一个基于 Python 的形式语法中，每个提示：识别和命名步骤；定义步骤的输入/输出行为；并用相同示例上这些形式化步骤的链替换上下文中示例的 CoT 解释。程序轨迹提示适用于许多任务，在 BIG-Bench Hard 基准的 23 个不同任务中取得了强劲的结果。更重要的是，通过以这种方式对解释进行仪器化，我们能够进行新的类型分析。特别是，我们确定了“非局部错误”（对应于错误地学习演示中说明的推理方法）作为 CoT 学习中尚未解决的问题，并且我们提出了验证 CoT 解释中步骤的模块化的方法。

发布时间: 10/3/2024

查看原文

大型语言模型医疗知识掌握的可靠且多元化评估

作者: Yuxuan Zhou, Xien Liu, Chen Ning, Xiao Zhang, Ji Wu

掌握医学知识对于医疗领域的大型语言模型至关重要。然而，尽管存在像 MedQA 这样的医学基准，但仍然缺乏一个统一的框架，能够充分利用现有的知识库来评估大型语言模型对医学知识的掌握程度。在本研究中，我们提出了一种新颖的框架 PretexEval，它可以动态生成可靠且多样化的测试样本，以评估大型语言模型对任何给定医学知识库的掌握程度。我们注意到，直接通过模板或大型语言模型从知识库中生成的测试样本可能会引入事实错误，并且缺乏多样性。为了解决这些问题，我们在提出的评估框架中引入了新的模式，该模式采用谓词等效变换来为任何给定的医学知识点生成一系列变体。最后，这些生成的谓词变体被转换为文本语言，从而产生一系列可靠且多样的测试样本，以评估大型语言模型是否完全掌握了给定的医学事实知识点。在这里，我们使用提出的框架，基于两个对临床诊断和治疗至关重要的知识库，系统地调查了 12 个知名大型语言模型对医学事实知识的掌握情况。评估结果表明，尽管在一些著名的公开基准上取得了相当大的成功，但当前的大型语言模型在完全掌握医学知识方面仍然存在重大缺陷。这些新发现为开发医疗领域的大型语言模型提供了宝贵的见解，强调了当前的大型语言模型迫切需要加强其对医学知识的全面和深入掌握，才能应用于现实世界的医疗场景。

发布时间: 10/3/2024

查看原文

时间序列预测的测试时学习

作者: Panayiotis Christou, Shichu Chen, Xupeng Chen, Parijat Dube

时间序列预测随着多头注意力等标记预测机制的引入取得了重大进展。然而，这些方法在性能上往往难以与语言模型相媲美，主要原因在于其二次计算成本以及在时间序列数据中捕捉长程依赖关系的复杂性。状态空间模型 (SSM)，例如 Mamba，已展现出解决这些挑战的潜力，通过提供高效的解决方案，利用线性 RNN 能够对具有更大上下文窗口的长序列进行建模。然而，在准确性和可扩展性方面仍有提升空间。我们提出在并行架构中使用测试时训练 (TTT) 模块来提高长期时间序列预测的性能。通过对标准基准数据集进行大量实验，我们证明 TTT 模块始终优于最先进的模型，包括基于 Mamba 的 TimeMachine，特别是在涉及扩展序列和预测长度的场景中。我们的结果表明，均方误差 (MSE) 和平均绝对误差 (MAE) 有显著改善，尤其是在电力、交通和天气等大型数据集上，这突出了 TTT 在捕获长程依赖关系方面的有效性。此外，我们探讨了 TTT 框架内的各种卷积架构，结果表明，即使是简单的配置，例如带有小型滤波器的 1D 卷积，也能取得具有竞争力的结果。这项工作为时间序列预测设定了新的基准，并为可扩展、高性能预测模型的未来研究奠定了基础。

发布时间: 10/3/2024

查看原文

CA-BERT：利用上下文感知增强多轮聊天交互

作者: Minghao Liu, Mingxiu Sui, Yi Nan, Cangqing Wang, Zhijie Zhou

在自动化聊天系统中，有效的沟通取决于理解和响应语境的能力。传统的模型通常难以确定何时需要额外的语境来生成合适的响应。本文介绍了上下文感知 BERT (CA-BERT)，这是一种专门针对此挑战进行微调的基于 Transformer 的模型。CA-BERT 创新性地应用深度学习技术来识别多轮聊天互动中的上下文必要性，从而提高响应的相关性和准确性。我们描述了 CA-BERT 的开发过程，它采用 BERT 的强大架构，并通过针对聊天对话的专门数据集进行新的训练方案。该模型在识别上下文必要性的能力方面进行了评估，证明了其在准确性和效率方面优于基线 BERT 模型。此外，CA-BERT 的实现展示了训练时间和资源使用量的显著减少，使其适用于实时应用。结果表明，CA-BERT 可以通过对上下文进行细致入微的理解，有效地增强聊天机器人的功能，从而改善自动化系统中的用户体验和交互质量。这项研究不仅推动了 NLP 在聊天应用中的发展，也为未来对上下文敏感的 AI 开发研究提供了一个框架。

发布时间: 10/3/2024

查看原文

基于启发式语义依存查询网络的事件因果关系识别进展

作者: Haoran Li, Qiang Gao, Hongmei Wu, Li Huang

事件因果关系识别 (ECI) 侧重于从文本中提取事件之间的因果关系。现有的 ECI 方法主要依赖于因果特征和外部知识。然而，这些方法在两个方面存在不足：(1) 文本中事件之间的因果特征往往缺乏明确的线索，(2) 外部知识可能会引入偏差，而特定问题需要定制分析。为了解决这些问题，我们提出了 SemDI——一种简单有效的用于 ECI 的语义依赖查询网络。SemDI 使用统一的编码器捕获上下文中的语义依赖关系。然后，它利用 Cloze 分析器基于对上下文的全面理解生成一个填空标记。最后，使用该填空标记来查询两个事件之间的因果关系。大量的实验表明了 SemDI 的有效性，在三个广泛使用的基准测试中超越了最先进的方法。代码可在 https://github.com/hrlics/SemDI 获取。

发布时间: 10/3/2024

查看原文

视频-大型语言模型插值：一种无训练的实现更长序列 LLM 的方法

作者: Yuzhang Shang, Bingxin Xu, Weitai Kang, Mu Cai, Yuheng Li, Zehao Wen, Zhen Dong, Kurt Keutzer, Yong Jae Lee, Yan Yan

大型语言模型 (LLM) 的进步激发了各种将视频模态整合的策略。一种关键方法是视频-LLM，它包含一个可优化接口，将复杂的视频编码器与 LLM 连接起来。然而，由于计算和数据限制，这些视频-LLM 通常经过预训练，只能处理短视频，限制了它们在理解更长视频内容方面的更广泛应用。此外，对视频-LLM 进行微调以处理更长的视频成本高昂。因此，探索在完全无训练环境下对视频-LLM 进行插值至关重要。在本文中，我们首先确定了对视频-LLM 进行插值的主要挑战： (1) 视频编码器和模态对齐投影器是固定的，无法将额外的帧集成到视频-LLM 中，以及 (2) LLM 主干的内容长度能力有限，这使得处理增加的视频标记数量变得复杂。为了解决这些挑战，我们为视频-LLM 提出了一个专门的 INTerPolation 方法 (INTP-Video-LLMs)。我们介绍了一种替代的视频标记重排技术，该技术绕过了固定视频编码器和对齐投影器带来的限制。此外，我们介绍了一种无训练的 LLM 上下文窗口扩展方法，使视频-LLM 能够理解相应增加的视觉标记数量。

发布时间: 10/3/2024

查看原文

通过分解提取记忆训练数据

作者: Ellen Su, Anu Vellore, Amy Chang, Raffaele Mura, Blaine Nelson, Paul Kassianik, Amin Karbasi

大型语言模型 (LLM) 在社会中的广泛应用给开发人员、组织和最终用户都带来了新的信息安全挑战。LLM 在大量数据上进行训练，它们容易泄露源训练数据集的具体内容，从而带来安全风险。虽然目前的校准程序限制了常见的风险行为，但它们并不能完全阻止 LLM 泄露数据。先前的工作表明，LLM 可能被诱骗使用分布外查询或对抗性技术来泄露训练数据。在本文中，我们展示了一种简单的基于查询的分解方法，用于从两个前沿 LLM 中提取新闻文章。我们使用指令分解技术来逐步提取训练数据的片段。在 3723 篇《纽约时报》文章中，我们从 73 篇文章中提取了至少一句逐字句，从 6 篇文章中提取了超过 20% 的逐字句。我们的分析表明，该方法成功地诱使 LLM 生成文本，这些文本是新闻文章的可靠复制品，这意味着它们很可能源于源训练数据集。这种方法简单、可推广，并且不需要微调或更改生产模型。如果可以大规模复制，这种训练数据提取方法可能会暴露新的 LLM 安全漏洞，包括隐私风险和未经授权的数据泄露。这些影响需要从模型开发到其最终用途的仔细考虑。

发布时间: 10/3/2024

查看原文

E2Map：基于语言模型的自我反思机器人导航的经验与情感地图

作者: Chan Kim, Keonwoo Kim, Mintaek Oh, Hanbi Baek, Jiyang Lee, Donghwi Jung, Soojin Woo, Younkyung Woo, John Tucker, Roya Firoozi, Seung-Woo Seo, Mac Schwager, Seong-Woo Kim

大型语言模型 (LLMs) 在引导具身代理执行跨多种任务的语言指令方面展现出巨大潜力，包括机器人操作和导航。然而，现有方法主要针对静态环境设计，并没有利用代理自身经验来改进其初始计划。鉴于现实世界环境本质上是随机的，仅基于 LLMs 的一般知识的初始计划可能无法实现其目标，这与静态场景不同。为了解决这一局限性，本研究引入了经验与情绪地图 (E2Map)，它不仅整合了 LLM 知识，还整合了代理的现实世界经验，从人类的情绪反应中汲取灵感。所提出的方法通过基于代理经验更新 E2Map 来实现一次性行为调整。我们在随机导航环境中的评估，包括模拟和现实世界场景，表明与现有的基于 LLMs 的方法相比，所提出的方法在随机环境中显著提高了性能。代码和补充材料可在 https://e2map.github.io/ 获取。

发布时间: 10/3/2024

查看原文