arXiv 论文列表

作者: Joseph D. Ramsey, Bryan Andrews, Peter Spirtes

我们提出了一种新的非参数点态一致统计检验（马尔可夫检验），用于在给定数据集的情况下检验有向无环图 (DAG) 或完成的部分有向无环图 (CPDAG) 模型的马尔可夫条件。我们还引入了跨算法节俭搜索 (CAFS) 来拒绝不通过马尔可夫检验或非边缘最小的 DAG 模型。边缘最小化先前由 Raskutti 和 Uhler 作为非参数简单性准则使用，但 CAFS 容易推广到其他简单性条件。CAFS 不需要参考真实值，因此它有助于找到因果结构学习算法和调整参数设置，以从给定数据集中输出近似真实的因果模型。我们提供了一个软件工具来进行此分析，该工具适用于相当大或密集的模型，前提是有一个足够快的条件独立性点态一致检验。此外，我们在模拟中表明，CAFS 过程可以在不知道真实值的情况下选择近似正确的模型。

发布时间: 10/1/2024

查看原文

利用 GPT-2 模型模拟自然阅读的认知过程

作者: Bruno Bianchi, Alfredo Umfurer, Juan Esteban Kamienkowski

自然语言处理领域的进步使得开发出具有强大文本生成能力的语言模型成为可能。近年来，神经科学一直在利用这些模型来更好地理解认知过程。在之前的研究中，我们发现像 Ngrams 和 LSTM 网络这样的模型可以部分地模拟可预测性，当用作协变量来解释读者的眼球运动时。在本研究中，我们通过使用基于 GPT-2 的模型，进一步推动了这一研究方向。结果表明，这种架构比其前身取得了更好的成果。

发布时间: 10/1/2024

查看原文

万亿词元 (1TT) 平台：大型语言模型中高效数据共享与补偿的新框架

作者: Chanjun Park, Hyunsoo Ha, Jihoo Kim, Yungi Kim, Dahyun Kim, Sukyung Lee, Seonghoon Yang

本文提出了一个名为“万亿令牌平台”（1TT 平台）的新框架，旨在促进数据共享，并采用透明且公平的利润分成机制。该平台促进了数据贡献者（提供原本未公开的数据集）和数据消费者（利用这些数据集来增强其自身服务）之间的合作。数据贡献者以货币形式获得补偿，从数据消费者服务的收入中获得分成。数据消费者承诺根据预定义的利润分成安排，与贡献者分享一部分收入。通过将透明的利润分成模式纳入其中，以激励大规模数据共享，1TT 平台创造了一个协作环境，推动 NLP 和 LLM 技术的进步。

发布时间: 10/1/2024

查看原文

非英语环境下小型不平衡数据集的放射学文本分类

作者: Vincent Beliveau, Helene Kaas, Martin Prener, Claes N. Ladefoged, Desmond Elliott, Gitte M. Knudsen, Lars H. Pinborg, Melanie Ganz

在医疗领域，自然语言处理 (NLP) 在涉及小数据集、非英语语言、少量标记样本和类别不平衡的现实世界应用中可能会表现不佳。目前还没有关于如何解决这个问题的共识。我们使用三个丹麦语（一种资源匮乏的语言）癫痫患者磁共振图像放射学报告数据集，评估了一组 NLP 模型，包括类 BERT 变换器、使用句子变换器 (SetFit) 的少样本学习以及提示大型语言模型 (LLM)。我们的结果表明，目前在放射学报告目标领域预训练的类 BERT 模型为此场景提供了最佳性能。值得注意的是，与类 BERT 模型相比，SetFit 和 LLM 模型表现不佳，其中 LLM 表现最差。重要的是，所研究的模型都没有足够准确，无法在没有任何监督的情况下进行文本分类。但是，它们显示出数据过滤的潜力，这可以减少所需的手动标记量。

发布时间: 10/1/2024

查看原文

超大语言模型的激进后训练压缩

作者: Zining Zhang, Yao Chen, Bingsheng He, Zhenjie Zhang

大型语言模型（LLM）日益庞大且复杂，给其在个人电脑和移动设备上的部署带来了挑战。为了减小模型尺寸，必须采取积极的模型压缩技术，但这通常会导致显著的精度损失。为了应对这一挑战，我们提出了一种新颖的网络剪枝技术，它利用超过 0.7 的稀疏度和低于 8 位的量化。我们的方法能够在几个小时内压缩流行的 LLM，同时保持相对较小的精度损失。在实验评估中，我们的方法证明了其有效性和实际部署的潜力。通过使 LLM 在家用设备上可用，我们的工作可以推动自然语言处理应用的新时代，并带来广泛的影响。

发布时间: 10/1/2024

查看原文

用于不规则时间序列预测的连续时间线性位置嵌入

作者: Byunghyun Kim, Jae-Gil Lee

在实际应用中，不规则采样时间序列预测，其特点是时间间隔不均匀，十分普遍。然而，以往的研究主要集中在规则时间序列预测，通常依赖于 Transformer 架构。为了将 Transformer 扩展到处理不规则时间序列，我们重点关注了用于表示数据时间信息的positional embedding。我们提出了 CTLPE，一种学习连续线性函数来编码时间信息的方法。通过学习连续时间函数和简洁的position表示，解决了不规则时间序列的两个挑战：不一致的观测模式和不规则的时间间隔。此外，通过学习基于神经控制微分方程的positional embedding，实证表明线性连续函数优于其他连续函数，并且从理论上证明了理想positional embedding的性质。CTLPE 在各种不规则采样时间序列数据集上优于现有技术，展示了其增强的有效性。

发布时间: 10/1/2024

查看原文

基于无监督认知的知识发现

作者: Alfredo Ibias, Hector Antona, Guillem Ramirez-Miranda, Enric Guinovart

知识发现是理解和解释数据集以及发现其组成部分之间潜在关系的关键。无监督认知是一种新颖的无监督学习算法，专注于对学习到的数据进行建模。本文提出了三种在已训练的无监督认知模型上进行知识发现的技术。具体来说，我们提出了一种模式挖掘技术、一种基于先前模式挖掘技术的特征选择技术，以及一种基于先前特征选择技术的降维技术。最终目标是区分相关特征和无关特征，并利用它们构建一个模型，从中提取有意义的模式。我们通过实证实验评估了我们的提案，发现它们在知识发现方面超越了现有技术。

发布时间: 10/1/2024

查看原文

零样本跨语言新闻情感分析训练策略的评估与解释

作者: Luka Andren\v{s}ek, Boshko Koloski, Andra\v{z} Pelicon, Nada Lavra\v{c}, Senja Pollak, Matthew Purver

我们研究了零样本跨语言新闻情感检测，旨在开发可以在多种语言中部署的鲁棒情感分类器，而无需目标语言训练数据。我们引入了几种资源较少的语言的新型评估数据集，并尝试了各种方法，包括机器翻译的使用；大型语言模型的上下文学习；以及各种中间训练机制，包括一种利用段落级信息的新型任务目标 POA。我们的结果表明，与现有技术相比，性能有了显著提升，其中上下文学习通常表现最佳，但新颖的 POA 方法在计算开销低得多的情况下提供了一种具有竞争力的替代方案。我们还表明，语言相似性本身不足以预测跨语言迁移的成功，但语义内容和结构的相似性也同样重要。

发布时间: 10/1/2024

查看原文

缓解推荐系统中大型语言模型的倾向性偏差

作者: Guixian Zhang, Guan Yuan, Debo Cheng, Lin Liu, Jiuyong Li, Shichao Zhang

大型语言模型（LLM）的快速发展为推荐系统创造了新的机遇，特别是通过利用这些模型生成的侧边信息（例如，项目的描述和分析）。然而，将这些侧边信息与来自历史交互的协同信息进行对齐带来了重大挑战。LLM 中固有的偏差会扭曲推荐，导致扭曲和潜在的不公平的用户体验。另一方面，倾向偏差会导致侧边信息的对齐方式，使其往往倾向于在低维子空间中表示所有输入，从而导致一种被称为维度坍缩的现象，这严重限制了推荐系统捕获用户偏好和行为的能力。为了解决这些问题，我们引入了一个名为反事实 LLM 推荐 (CLLMR) 的新框架。具体来说，我们提出了一种基于频谱的侧边信息编码器，它将历史交互中的结构信息隐式地嵌入到侧边信息表示中，从而避免了维度坍缩的风险。此外，我们的 CLLMR 方法探索了 LLM 基推荐系统中固有的因果关系。通过利用反事实推理，我们抵消了 LLM 引入的偏差。大量实验表明，我们的 CLLMR 方法始终如一地提高了各种推荐模型的性能。

发布时间: 10/1/2024

查看原文

超越评分：基于模块化检索增强生成系统的自动简短答案评分与反馈

作者: Menna Fateen, Bo Wang, Tsunenori Mine

自动简短答案评分（ASAS）有助于减轻教育工作者的评分负担，但通常缺乏详细的可解释反馈。现有的带有反馈的 ASAS（ASAS-F）方法依赖于对有限数据集进行语言模型的微调，这资源密集且难以跨上下文泛化。最近使用大型语言模型 (LLM) 的方法侧重于评分，无需进行广泛的微调。然而，它们往往严重依赖于提示工程，要么无法生成详细的反馈，要么没有充分评估反馈。在本文中，我们提出了一种基于模块化检索增强生成的 ASAS-F 系统，该系统在严格的零样本和少样本学习场景下对答案进行评分并生成反馈。我们设计了系统，使其能够适应各种教育任务，而无需使用自动提示生成框架进行广泛的提示工程。结果表明，与微调相比，在看不见的问题上的评分准确率提高了 9%，提供了一种可扩展且经济高效的解决方案。

发布时间: 10/1/2024

查看原文