arXiv 论文列表

作者: Keano De Vos, Gert de Cooman

arXiv:2502.06249v1 宣告类型: cross 摘要: 我们可以通过测量来了解量子系统所处的状态(更多)。我们研究如何在执行此类测量的情况下描述对量子系统状态的不确定性。我们展示了通过利用可取性、相干性和不关心之间的相互作用，可以推导出一般的条件化规则。然后我们将此规则应用于基于测量结果的条件化，并展示了如何将其推广到基于一组测量结果的条件化。

发布时间: 2/11/2025

查看原文

信心提高了LLM的自我一致性

作者: Amir Taubenfeld, Tom Sheffer, Eran Ofek, Amir Feder, Ariel Goldstein, Zorik Gekhman, Gal Yona

arXiv:2502.06233v1 交叉类型论文摘要：自我一致性解码通过采样多种推理路径并选择出现频率最高的答案，从而增强了语言模型在推理任务中的表现。然而，这种方法计算成本较高，因为需要采样许多这些（冗长的）路径，以增加正确答案作为最频繁出现的答案的机会。为了解决这个问题，我们引入了可信度支持的自我一致性（CISC）。CISC 基于模型直接获得的信任度分数进行加权多数投票。通过优先考虑高信任度路径，它可以以显著较小的样本量识别出正确答案。在对九个模型和四个数据集进行测试时，CISC 在几乎所有配置下均优于自我一致性，平均将所需推理路径的数量减少了超过40%。此外，我们展示了标准评估方法是不善于预测区分相同问题的正确和错误答案的成功程度的，因此引入了问题内部信任度评估的概念。实际上，最校准的信任度方法对于CISC来说效果最差。最后，除了这些实际意义之外，我们的结果和分析显示语言模型可以有效地评估其自身输出的正确性，这为这一话题正在进行的辩论做出了贡献。

发布时间: 2/11/2025

查看原文

考察推理扩展对数学推理中假阳性的影响

作者: Yu Wang, Nan Yang, Liang Wang, Furu Wei

arXiv:2502.06217v1 类型: cross 摘要：最近在语言模型方面的进展在各种基准测试中显著提高了数学推理能力。然而，大多数这些基准测试依赖于自动评估方法，只通过启发式方法比较最终答案，而不验证背后的原因步骤。这一限制导致了虚假正解解决方案，即模型可能产生正确的最终答案，但推理路径存在缺陷。在这篇论文中，我们系统地考察了语言模型在数学问题解决中虚假正解解决方案的常见程度。我们分析了这个问题在不同开源模型、不同难度级别的数据集以及不同解码策略下的特点和影响范围。具体来说，我们探索了虚假正解如何影响语言模型的推理时间缩放行为。我们的实验结果显示：(1) 虚假正解解决方案在不同模型、数据集和解码方法中普遍存在，(2) 基于采样的推理时间缩放方法并不能缓解这一问题，(3) pass@N 评估指标对虚假正解更为敏感，暗示其缩放上限远低于自动评估所示。此外，我们分析了具体实例中的虚假正解，并讨论了在这些条件下自改进技术和合成数据生成潜在的局限性。

发布时间: 2/11/2025

查看原文

LessLeak-Bench：83 个软件工程基准中大型语言模型数据泄露的初步调查

作者: Xin Zhou, Martin Weyssow, Ratnadira Widyasari, Ting Zhang, Junda He, Yunbo Lyu, Jianming Chang, Beiqi Zhang, Dan Huang, David Lo

arXiv:2502.06215v1 宣布类型：交叉摘要：大型语言模型（LLMs）在软件工程（SE）任务中得到广泛应用，如代码生成和自动化程序修复。然而，它们对广泛且通常未公开的预训练数据集的依赖性引发了对数据泄露的重大关注，即评估基准数据在模型构建阶段无意中被LLMs“察觉”。数据泄露问题可能会严重削弱基于LLM的研究和评估的有效性。尽管LLMs在SE社区中的使用不断增加，但目前还没有全面的研究评估LLMs在SE基准中的数据泄露程度。为弥补这一空白，本文对83个与LLMs相关的SE基准中的数据泄露进行了第一次大规模分析。我们的结果显示，总体而言，SE基准中的数据泄露较小，Python、Java和C/C++基准的数据泄露比分别为4.8%、2.8%和0.7%。然而，一些基准表现出相对较高的泄露比，这引发了对其评估偏见的担忧。例如，QuixBugs和BigCloneBench的数据泄露比分别为100.0%和55.7%。此外，我们观察到数据泄露对LLM评估产生了显著影响。我们还确定了高数据泄露的主要原因，如将基准数据直接包含在预训练数据集中以及使用LeetCode等编程平台进行基准构建。为解决数据泄露问题，我们提出了**LessLeak-Bench**，这是一个新的基准，从83个SE基准中移除了泄露样本，从而在未来的研究中能够提供更可靠的LLM评估。我们的研究表明增强了对SE基准中数据泄露的理解，并为涉及SE中LLMs的未来研究提供了宝贵的见解。

发布时间: 2/11/2025

查看原文

揭露大型语言模型检测 offensive 语言的能力，特别是在注解不一致情况下的表现

作者: Junyu Lu, Kai Ma, Kaichun Wang, Kelaiti Xiao, Roy Ka-Wei Lee, Bo Xu, Liang Yang, Hongfei Lin

arXiv:2502.06207v1 检测类型: 横跨摘要: 大规模语言模型（LLMs）因其先进的能力被广泛用于检测网络攻击性语言。然而，现实世界数据集中人类注释分歧带来的挑战仍被严重忽视。这些分歧样本由于其模糊性而难以检测。此外，LLM 在处理分歧样本时的置信度可以提供其与人类注释者一致性的宝贵见解。为了弥补这一缺口，我们系统地评估了LLMs检测网络攻击性语言的能力，特别是在存在注释分歧的情况下。我们比较了多个LLM在不同注释一致水平下的二分类准确性，并分析了LLM置信度与注释一致性的关系。此外，我们研究了分歧样本对LLM在少样本学习和指令微调过程中决策的影响。我们的发现突显了分歧样本带来的挑战，并为改进基于LLM的网络攻击性语言检测提供了指导。

发布时间: 2/11/2025

查看原文

C-3PO：紧凑型插拔式代理优化以实现类人类检索增强生成

作者: Guoxin Chen, Minpeng Liao, Peiying Yu, Dingmin Wang, Zile Qiao, Chao Yang, Xin Zhao, Kai Fan

arXiv:2502.06205v1 类别: cross 摘要: 检索增强生成（RAG）系统面临的一个基本挑战是独立开发的检索器和大型语言模型（LLMs）之间的对齐问题。现有的方法通常涉及修改其中一种组件或引入简单的中间模块，这导致了实际限制和次优性能。受人类搜索行为的启发——通常涉及提出搜索查询和审查文档的来回过程，我们提出了C-3PO，一种以代理为中心的框架，通过一个轻量级的多Agent系统促进了检索器和LLMs之间的通信。我们的框架实现了三个专门的代理，这些代理在无需修改检索器和LLMs的情况下协同优化整个RAG管道。这些代理共同评估检索的需要，生成有效的查询，并选择适合LLMs的信息。为了实现有效的多Agent协调，我们开发了一种树结构的展开方法，用于强化学习中的奖励信用分配。在领域内和领域外场景中的广泛实验表明，C-3PO在保持插拔灵活性和优越的泛化能力的同时，显著增强了RAG性能。

发布时间: 2/11/2025

查看原文

LLM能取代人类评估者吗？软件工程中LLM作为法官的实证研究

作者: Ruiqi Wang, Jiyu Guo, Cuiyun Gao, Guodong Fan, Chun Yong Chong, Xin Xia

arXiv:2502.06193v1 交叉公告类型摘要：最近，大型语言模型（LLMs）被部署到诸如代码生成等各种软件工程（SE）任务中，显著推进了SE任务的自动化。然而，评估这些LLM生成的代码和文本的质量仍然颇具挑战性。常用的Pass@k指标要求进行大量的单元测试和配置环境，需要高昂的人力成本，并且不适用于评估LLM生成的文本。传统的衡量标准如BLEU，仅衡量词汇相似性而非语义相似性，也受到了质疑。为应对这一问题，一种新的趋势是利用LLM进行自动化评估，即LLM-as-a-judge。这些LLM-as-a-judge方法声称可以在无需高质量参考答案的情况下，比传统衡量标准更接近于人类评估。然而，它们在SE任务中的确切人类一致性仍未被探索。在本文中，我们实证研究了LLM-as-a-judge方法在SE任务评估中的应用，重点考察了其与人类判断的一致性。我们选择了七种利用通用LLM的LLM-as-a-judge方法，以及两种专门为评估进行微调的LLM。在对三个近期的SE数据集（代码翻译、代码生成和代码总结）生成和手动评分LLM响应之后，我们要求这些方法评估每个响应。最后，我们将这些方法生成的分数与人类评估进行比较。结果表明，基于输出的方法在代码翻译和生成上的皮尔逊相关系数分别为81.32和68.51，达到了近乎人类的评估水平，显著优于最佳传统衡量标准ChrF++在代码翻译和生成上的得分34.23和64.92。这种基于输出的方法促使LLM直接输出判断，并展现出更为平衡的分数分布，更贴近人类评分模式。最后，我们提供了...

发布时间: 2/11/2025

查看原文

最佳学习时机：通过生物启发的间隔效应促进知识蒸馏中的泛化

作者: Guanglong Sun, Hongwei Yan, Liyuan Wang, Qian Li, Bo Lei, Yi Zhong

arXiv:2502.06192v1 类型: cross 摘要: 知识蒸馏（KD）是一种训练深度神经网络（DNNs）的强大策略。尽管最初提出是从一个大型的“教师”模型训练一个更为简洁的“学生”模型，但近年来的研究更多地关注于将其作为一种促进模型自身泛化的有效方式，例如在线KD和自我KD。在这里，我们提出了一种名为分时KD（Spaced KD）的简单且兼容的策略，以提高这两种方式的有效性。在这种策略中，“学生”模型从训练时间间隔提前的“教师”模型中吸取知识。这种策略受到了生物学习和记忆中一个知名理论——间隔效应的启发，该理论认为，学习试验之间的适当间隔可以显著提高学习效果。通过理论和实证分析，我们证明了提出的Spaced KD的优点源自随机梯度下降（SGD）过程中损失景观的收敛变得更为平坦。我们在多个实验中验证了Spaced KD在提高DNNs学习性能方面的有效性（例如，在Tiny-ImageNet数据集上，Spaced KD相对于在线KD的性能提升最多可达2.31%，相对于自我KD的性能提升最多可达3.34%）。

发布时间: 2/11/2025

查看原文

话语驱动评估：揭示长文档摘要中的事实不一致

作者: Yang Zhong, Diane Litman

arXiv:2502.06185v1 类型: cross 摘要: 对于长文档摘要而言，检测事实不一致性仍然具有挑战性，因为源文章结构复杂且摘要长度较长。在本文中，我们研究了事实不一致性错误，并将其与论述分析的一系列方法联系起来。我们发现，错误在复杂的句子中更常见，并且与若干论述特征相关。我们提出了一种框架，该框架将长文本分解为受论述启发的片段，并利用论述信息更好地聚合自然语言推理模型预测的句子级得分。我们的方法在不同的模型基线上，多个评估基准上显示出了改进的表现，涵盖多种文本领域，侧重于长文档摘要。这强调了在开发评分摘要模型时整合论述特征的重要性，以解决长文档的事实不一致性问题。

发布时间: 2/11/2025

查看原文

RideKE：利用低资源、用户生成的Twitter内容对肯尼亚双语切换数据集进行情绪和情感检测

作者: Naome A. Etori, Maria L. Gini

arXiv:2502.06180v1 宣布类型: cross 摘要：社交媒体已成为个人表达意见和分享经验的重要开放访问平台。然而，由于推特上的低资源语言数据稀少且质量较差，且语言使用存在广泛的变化，如俚语和代码切换，因此利用这些数据具有挑战性。识别这些语言的推文可能具有挑战性，因为推特主要支持高资源语言。我们分析了肯尼亚的代码切换数据，并使用监督学习和半监督方法评估了四种最先进的（SOTA）基于变换器的预训练模型在情感和情绪分类任务中的表现。我们详细说明了数据收集和注释的方法，以及数据整理阶段遇到的挑战。我们的结果显示，XLM-R的性能最佳；对于情感分析，XLM-R监督模型的准确率最高（69.2%），F1分数最高（66.1%），XLM-R半监督模型的准确率为67.2%，F1分为64.1%。对于情绪分析，DistilBERT监督模型的准确率最高（59.8%），F1分数最高（31%），mBERT半监督模型的准确率为59%，F1分为26.5%。AfriBERTa模型展示出最低的准确率和F1分数。所有模型倾向于预测中性情感，而Afri-BERT在情感预测方面表现出最高的偏差和对同理心情感的独特敏感性。https://github.com/NEtori21/Ride_hailing

发布时间: 2/11/2025

查看原文