arXiv 论文列表

GSM-Infinite：当上下文长度和推理复杂性无限增加时，你的大模型会如何表现？

作者: Yang Zhou, Hongyi Liu, Zhuoming Chen, Yuandong Tian, Beidi Chen

arXiv:2502.05252v1 类型: cross 摘要: 长上下文大语言模型（LLMs）最近在信息检索和长文档问答任务中展示了强大的性能。然而，为了应对最复杂的知识性问题，LLMs 必须有效地在长而复杂的上下文中进行推理（例如，前沿数学研究）。研究LLMs如何处理不断增加的推理复杂性和上下文长度至关重要，而现有的基准缺乏用于定量评估的坚实基础。受到GSM-8K问题抽象为计算图的启发，以及通过增加不必要的节点和边引入噪声的能力，我们开发了一个小学数学问题生成器，能够在细粒度控制下生成具有无限难度和上下文长度的算术问题。使用我们新合成的GSM-Infinite基准，我们全面评估了现有的LLMs。我们发现推理性能随复杂性的增加呈现出一致的Sigmoid下降趋势，并且系统性的推理扩展趋势是：指数增加的推理计算仅带来线性的性能提升。这些发现突显了当前长上下文LLMs的基本局限性以及扩展推理能力的关键挑战。我们的GSM-Infinite基准提供了用于系统研究和推进LLMs在长而复杂上下文中的推理能力的可扩展且可控制的测试床。

发布时间: 2/11/2025

查看原文

大规模语言模型中的人格特质评估：心理问卷的见解

作者: Pranav Bhandari, Usman Naseem, Amitava Datta, Nicolas Fay, Mehwish Nasim

arXiv:2502.05248v1 型别: cross 摘要：心理评估工具长期以来帮助人类理解行为模式。尽管大型语言模型（LLMs）可以生成与人类相媲美的内容，但我们探讨了它们是否展现出个性特征。为了实现这一目标，本文将心理评估工具应用于不同场景中的LLMs，以生成个性特征概览。通过使用基于特质的问卷调查（如五大性格维度问卷）并应对训练数据污染的可能性，我们考察了五大核心人格维度——开放性、尽责性、外向性、宜人性和神经质性——在不同模型家族中的维度变化和主导特征。我们的研究发现，即使在同一模型家族中，LLMs也表现出独特的主导特征、变化特征和不同的个性特征概览。

发布时间: 2/11/2025

查看原文

SEER: 大型语言模型表示的自我解释增强

作者: Guanxu Chen, Dongrui Liu, Tao Luo, Jing Shao

arXiv:2502.05242v1 通知类型: 交叉摘要: 解释大型语言模型（LLMs）的隐藏表示是从理解LLMs的内在推理逻辑和提高其在应用场景中的可靠性这一角度出发的一个视角。然而，以前的方法引入了外部的“黑盒”模块来解释“黑盒”LLMs，这增加了潜在的不确定性并未能提供忠实的解释。本文中，我们提出了一种自解释方法SEER，通过在表示空间中聚合相同的概念并分离不同的概念，增强LLMs的可解释性。通过这种方式，SEER能够同步LLMs的输出和忠实的解释。此外，我们还在相关的可信性任务（例如，安全风险分类和去毒任务）中展示了SEER的应用，其中自解释的LLMs在可解释性和性能方面都取得了持续的改进。更为关键的是，我们通过最优传输理论理论分析了SEER在提高LLMs的泛化能力方面的改进。

发布时间: 2/11/2025

查看原文

增强知识图谱构建：侧重于幻觉、遗漏和图相似性指标的评估

作者: Hussam Ghanem (ICB, UB), Christophe Cruz (ICB, UB)

arXiv:2502.05239v1 Announce Type: cross 摘要：近年来，大规模语言模型在从无结构文本自动生成知识图谱方面展现出了巨大的潜力。本文在我们之前的工作[16]基础上进行，该工作使用精确度、召回率、F1 值、三元组匹配和图匹配等指标评估了各种模型，并提出了一种改进的方法来解决幻觉和遗漏的关键问题。我们提出了一种增强的评估框架，其中包含 BERTScore 作为图相似性指标，并为图匹配设定了一个实际阈值为 95%。我们的实验集中在 Mistral 模型上，比较了其原始版本和微调版本在零样本和少样本设置下的表现。我们进一步使用 KELM-sub 训练数据集中的示例扩展了我们的实验，说明了微调模型在提高知识图谱构建准确率、减少确切幻觉和遗漏方面显着改善了表现。然而，我们的研究结果还表明，微调模型在 KELM-sub 数据集的一般化任务中的表现较差。本研究强调了在文本数据的知识图谱构建领域推进先进水平的重要性，需要综合评估指标。

发布时间: 2/11/2025

查看原文

Progressive Schema Learning with 多粒度语义进展化的文本到SQL

作者: Zhuopan Yang, Yuanzhen Xie, Ruichao Zhong, Yunzhi Tan, Enjie Liu, Zhenguo Yang, Mochi Gao, Bo Hu, Zang Li

arXiv:2502.05237v1 类型: cross 摘要：将自然语言（NL）问题转换为可执行的结构化查询语言（SQL）查询以进行文本到SQL任务具有挑战性，这主要是由于数据库模式中的冗余性众多，这妨碍了语义学习，并且自然语言（NL）与SQL之间的领域差异。现有的模式链接工作主要关注表级别，并且只进行一次链接，忽略了模式的多粒度语义和链接的循环性。本文中，我们提出了一种渐进式多粒度模式链接（PSM-SQL）框架，以减少用于文本到SQL的冗余数据库模式。通过使用多粒度模式链接（MSL）模块，PSM-SQL在列、表和数据库级别学习模式语义。更具体地，在列级别使用三元组损失来学习嵌入，而在数据库级别通过微调LLMs进行模式推理。MSL使用分类器和相似度分数来建模表级别模式链接的模式交互。特别是，PSM-SQL采用链循环策略，通过连续减少冗余模式的数量来降低模式链接任务的难度。在文本到SQL数据集上进行的实验表明，所提出的PSM-SQL方法在准确率上高于现有方法1-3个百分点。

发布时间: 2/11/2025

查看原文

Koel-TTS：通过偏好对齐和分类器免费引导增强基于LLM的语音生成

作者: Shehzeen Hussain, Paarth Neekhara, Xuesong Yang, Edresson Casanova, Subhankar Ghosh, Mikyas T. Desta, Roy Fejgin, Rafael Valle, Jason Li

arXiv:2502.05236v1 Announce Type: 跨域摘要：虽然自回归语音令牌生成模型能够生成具有显著多样性和自然性的语音，但由于其固有的可控性缺乏，往往会导致幻听、不符合条件输入的非期望语音等问题。我们引入了Koel-TTS，这是一个通过结合自动语音识别和说话人验证模型引导的偏好对齐技术来解决这些挑战的增强型编码器-解码器Transformer TTS模型。此外，我们还引入了无分类器引导方法，进一步提高合成语音对转录文本和参考说话人音频的依从性。我们的实验表明，这些优化显著增强了合成语音的目标说话人相似度、可听性和自然度。值得注意的是，尽管Koel-TTS是在一个显著较小的数据集上训练的，但在上述指标上，它仍然优于最先进的TTS模型。我们网站上提供了音频样本和演示。

发布时间: 2/11/2025

查看原文

语言模型中多样本推理优化温度参数

作者: Weihua Du, Yiming Yang, Sean Welleck

arXiv:2502.05234v1 类型: cross 摘要：多样本聚合策略，如大多数投票和N中选最优，广泛应用于当代大型语言模型（LLMs），以提高各种任务的预测准确性。在这个过程中，温度的选择是一个关键挑战，对模型性能有显著影响。现有的方法要么依赖于固定的默认温度，要么需要标注的验证数据进行调整，而这些数据往往稀缺且难以获取。本文通过使用多样本聚合策略，自动识别不同LLMs的（近）最优温度，而不依赖于特定任务的验证数据。我们对温度在性能优化中所起的作用进行了全面分析，考虑了模型架构、数据集、任务类型、模型大小和预测准确性之间的变化。此外，我们还提出了一种新的基于熵的自动温度优化度量标准，该标准在固定温度基准上表现更优。此外，我们引入了一个随机过程模型，以增强可解释性，提供对温度与模型性能之间关系的更深入洞察。

发布时间: 2/11/2025

查看原文

对齐编码器：自我注意力变换器可以成为自我转换器

作者: Adam Stooke, Rohit Prabhavalkar, Khe Chai Sim, Pedro Moreno Mengibar

arXiv:2502.05232v1 Announce Type: cross 摘要：现代自动语音识别系统，包括循环神经网络译码器（RNN-Transducer）和基于注意力的编码解码器（AED），设计时使得编码器不必改变音频序列中的信息时间位置到嵌入；对齐到最终文本输出是在解码过程中处理的。我们发现，最近几年使用的基于变压器的编码器实际上在前向传递过程中就可以内部执行对齐操作，即在解码之前进行对齐。这一新现象使得一种更简单且更高效的模型——"对齐编码器"成为可能。为了训练它，我们放弃了RNN-T中的动态规划，转而使用AED的帧间交叉熵损失，同时解码器使用RNN-T更轻量级的仅文本循环，而不使用学习到的交叉注意力——它只是从头开始扫描嵌入帧，依次产生一个词，直到预测到消息结束。我们进行了实验，证明其性能与最新技术水平相近，包括一个特别的推理配置，允许长格式识别。在一项代表性比较中，我们测量我们的模型的总推理时间为RNN-T的2倍快，AED的16倍快。最后，我们发现音频-文本对齐明显体现在某一层的自注意力权重中，可以称其为“自翻译”。

发布时间: 2/11/2025

查看原文

薄环翼作为提高推进器前方气流的一种手段

作者: Vladimir Sluchak

arXiv:2502.05231v1 交叉公告类型摘要：目前有许多设备旨在减少推进器上游流的不规则性，从而通过这种方式减少推进器引起的振动和噪声。其中许多设备是翼形旋涡发生器，它们通过其诱导的（即被动的）纵向旋涡来影响流场。本文的主题是将环形翼用作高效的被动旋涡发生器，它能使流场控制更接近推进器叶片的负荷较重区域。通过线性方法解决了具有不规则（不对称）几何形状的薄环形翼在不规则稳态流中的问题，并利用该解估计了流场不规则性和环形翼几何形状对诱导纵向旋涡强度的影响。将该装置在拖曳水槽中的试验结果与理论模型很好地吻合，证实了该设备的有效性。还考虑了将环形翼集成到稳定器结构中的一些额外优势。

发布时间: 2/11/2025

查看原文

DiffNMR2：基于扩散模型不确定性引导的核磁共振采样 acquisition 通过核磁共振指导采样获取

作者: Etienne Goffinet, Sen Yan, Fabrizio Gabellieri, Laurence Jennings, Lydia Gkoura, Filippo Castiglione, Ryan Young, Idir Malki, Ankita Singh, Thomas Launey

arXiv:2502.05230v1 Announce Type: cross 摘要：核磁共振（NMR）光谱仪使用电频脉冲来探测化合物核的共振现象，然后通过分析来确定其结构。高分辨率NMR光谱的获取时间仍然是一个显著的瓶颈，特别是在蛋白质等复杂的生物样品中。在这项研究中，我们提出了一种基于训练于蛋白质NMR数据上的扩散模型的新颖而高效的子采样策略。我们的方法在迭代重建欠采样光谱的同时，利用模型的不确定性来指导后续的采样，从而显著缩短了获取时间。与当前最先进的策略相比，我们的方法在重建精度上提高了52.9%，减少了55.6%的假象峰，并在复杂NMR实验中节省了60%的时间。这一进展在药物发现、材料科学等领域具有巨大的应用潜力，特别是在需要快速进行高分辨率光谱分析的情况下。

发布时间: 2/11/2025

查看原文