arXiv 论文列表

作者: Haun Leung, ZiNan Wang

arXiv:2502.13475v1 Announce Type: cross 摘要：近年来，人们常用大型语言模型作为聊天助手进行训练，但在用户与聊天助手的对话中，聊天助手需要与用户进行多轮交互。然而，多轮对话存在一些问题：聊天助手的回答容易出错，不能帮助用户实现目标；聊天助手难以根据不同实际需求为同一命令或请求生成具有不同处理过程的响应；聊天助手需要使用工具，但当前的方法并不优雅且效率低下，支持的工具调用数量有限。这些问题的主要原因是大型语言模型不具备人类的思考能力，缺乏推理能力和规划能力，也无法执行计划。为了解决这些问题，我们提出了一种基于内置链式思考的思考方法：在多轮对话中，对于每个用户提示，大型语言模型根据聊天历史、思考环境、行动调用、记忆和知识进行思考，进行详细的推理、规划和根据计划采取行动。我们还探索了通过该思考方法提升大型语言模型思考能力的方法：根据该思考方法收集训练数据，并通过监督学习对大型语言模型进行微调；训练一致性奖励模型，并作为奖励函数使用，通过强化学习对大型语言模型进行微调，增强后的大型语言模型根据这种方式进行输出。我们的实验结果表明，大型语言模型的推理能力和规划能力得到了提升，并解决了多轮对话中的问题。

发布时间: 2/20/2025

查看原文

关于使用图神经网络学习成对特征交互的特征图构建的一些见解

作者: Phaphontee Yamchote, Saw Nay Htet Win, Chainarong Amornbunchornvej, Thanapon Noraset

arXiv:2502.13471v1 Announce Type: cross 摘要：特征交互对于预测机器学习模型至关重要，因为它捕捉了影响模型性能的特征之间的关系。在这项工作中，我们关注成对交互，并探讨它们在为图神经网络（GNNs）构建特征图时的重要性。我们不是提出新的方法，而是利用现有的GNN模型和工具来探索特征图结构与其建模交互有效性之间的关系。通过在合成数据集上的实验，我们发现成对交互特征之间的边对于GNN有效建模特征交互是重要的。我们还观察到，包含非交互边可以作为噪声，降低模型性能。此外，我们使用Minimum Description Length（MDL）原则提供了稀疏特征图选择的理论支持。我们证明，仅保留必要交互边的特征图比完整图提供更高效且可解释的表示，符合奥卡姆剃刀原理。我们的发现不仅提供了设计改进GNN模型性能和可解释性的特征图设计的理论洞察和实践指南。

发布时间: 2/20/2025

查看原文

HawkBench：探究RAG方法在分层信息检索任务中的鲁棒性

作者: Hongjin Qian, Zheng Liu, Chao Gao, Yankai Wang, Defu Lian, Zhicheng Dou

arXiv:2502.13465v1 类别: cross 摘要: 在现实世界的信息寻求场景中，用户的需求是动态和多样的，这就要求RAG系统表现出适应性韧性。为了全面评估当前RAG方法的韧性，我们介绍了HawkBench，这是一个由人类标注的、多领域的基准，旨在严格评估各类任务类型下的RAG性能。通过基于信息寻求行为对任务进行分层，HawkBench提供了一种系统性的评估方法，考察了RAG系统适应多样用户需求的效果。与现有的基准不同，现有基准主要集中在特定的任务类型（主要是事实查询）上，并依赖于不同的知识库，而HawkBench提供了：(1) 系统性的任务分层来涵盖广泛的查询类型，包括事实查询和推理查询，(2) 在所有任务类型中集成多领域的语料库以减轻语料库偏见，以及(3) 严格的注释以进行高质量的评估。 HawkBench包括1,600个高质量的测试样本，这些样本在领域和任务类型上均匀分布。通过使用这个基准，我们评估了代表性的RAG方法，并从答案质量和响应延迟的角度分析了它们的性能。我们的发现表明，为了提高RAG的通用性，需要采用动态任务策略，集成决策、查询解释和全局知识理解。我们认为HawkBench作为一个关键基准，有助于推动RAG方法的韧性，并提高它们实现通用信息寻求的能力。

发布时间: 2/20/2025

查看原文

通过语义转变估计常识合理性

作者: Wanqing Cui, Keping Bi, Jiafeng Guo, Xueqi Cheng

arXiv:2502.13464v1 类别: cross 摘要: 常识合理性估计对于评估语言模型（LMs）至关重要，然而现有的生成方法依赖于概率或口头判断，难以进行细粒度的区分。本文提出了一种名为ComPaSS的新颖区分框架，通过测量在添加相关常识信息时语义的变化来量化常识合理性。可信的增强会导致最小的语义变化，而不可信的增强则会导致显著的偏离。在包括大型语言模型（LLMs）和多模态语言模型（VLMs）的不同架构下的两种细粒度常识合理性估计任务上的评估表明，ComPaSS在所有基线方法中表现更优。这表明，在细粒度常识合理性的评估中，区分方法优于生成方法的优势。实验还表明：(1) 当结合ComPaSS时，多模态语言模型（VLMs）在视觉导向的常识任务上的性能优于语言模型（LMs）。(2) 对比预训练能够增强骨干模型捕捉语义细微差别的能力，从而进一步提升ComPaSS的表现。

发布时间: 2/20/2025

查看原文

思辨性慢思考导致谨慎的边界设置

作者: Xiaofei Wen, Wenxuan Zhou, Wenjie Jacky Mo, Muhao Chen

arXiv:2502.13458v1 安全类型: cross 摘要：随着大型语言模型（LLMs）在实际应用中部署，确保其安全性变得至关重要。现有的防护措施依赖于基于规则的过滤或单一通道分类，这限制了它们处理复杂安全违规的能力。为了解决这一问题，我们提出了一种名为ThinkGuard的批判增强防护模型，该模型通过生成结构化的批判性意见和安全标签，提炼高容量LLM的知识。通过批判增强的数据进行微调后，捕获的详思能力极大地增强了防护模型的谨慎性和可解释性。在多个安全性基准上进行评估，ThinkGuard在平均F1和AUPRC上取得了最高成绩，超越了所有基线。与LLaMA Guard 3相比，ThinkGuard的准确性提高了16.1%，宏观F1提高了27.0%。此外，它超越了仅利用标签微调的模型，这证实了结构化的批判性意见不仅能增强分类精度，还能促进复杂的安全推理，同时保持计算效率。

发布时间: 2/20/2025

查看原文

交错吉布斯扩散在受约束生成中的应用

作者: Gautham Govind Anil, Sachin Yadav, Dheeraj Nagaraj, Karthikeyan Shanmugam, Prateek Jain

arXiv:2502.13450v1 交叉公告类型摘要：我们介绍了交错吉布斯扩散（IGD），这是一种用于混合连续-离散数据的新型生成建模框架，重点关注受约束的生成问题。之前关于离散和连续-离散扩散模型的工作假设了因式的去噪分布以实现快速生成，这可能会阻碍对受约束生成过程中遇到的随机变量之间强烈依赖关系的建模。IGD通过交错连续和离散去噪算法，借助离散时间吉布斯抽样类型的马尔可夫链超越了这一点。IGD在去噪器的选择上具有灵活性，可以通过状态空间加倍进行条件生成，并通过ReDeNoise方法在推理时间进行缩放。在三个具有挑战性的任务上进行的经验评估展示了最先进的性能。值得注意的是，IGD未经修改即可在3-SAT问题上取得7%的改进，在分子生成方面不依赖于协变扩散或特定领域的架构即可达到最先进的结果。我们在这些问题中探索了广泛的建模和交错策略，以及每个问题中的超参数。

发布时间: 2/20/2025

查看原文

TreeCut：一个用于评估LLM幻觉的合成不可回答数学单词问题数据集

作者: Jialin Ouyang

arXiv:2502.13442v1 交叉公告类型摘要：大型语言模型（LLMs）现在在标准数学文字问题基准测试（例如，GSM8K）上的表现接近人类水平，但它们的真实推理能力仍然存在争议。一个主要的担忧是，模型往往会自信但缺乏根据地回答无法解答的问题。我们引入了TreeCut，这是一个合成数据集，通过将每个问题表示为一棵树并移除选择性的必要条件，系统地生成无限数量的无法解答的数学文字问题及其可解答的对应问题。实验表明，在最坏情况下，TreeCut有效地在GPT-4o和o3-mini等大型语言模型中诱导出幻觉，其幻觉率为61%和42%。进一步的分析表明，更深或更复杂的树结构、复合项名以及在路径中间移除必要条件都会增加幻觉的可能性，突显了LLMs在识别无法解答的数学问题方面持续面临的挑战。

发布时间: 2/20/2025

查看原文

自我提升悖论：语言模型能否在无需外部支撑的情况下bootstrap推理能力？

作者: Yutao Sun, Mingshuai Chen, Tiancheng Zhao, Ruochen Xu, Zilun Zhang, Jianwei Yin

arXiv:2502.13441v1 自改进类型: 横向摘要: 自改进大型语言模型（LLMs）——即通过使用自身生成的合成数据对LLMs进行微调以提高其性能——是一种很有前途的方法，能够提升LLMs的能力同时避免大量监督。现有的自改进方法往往依靠外部监督信号的形式（如种子数据）和/或第三方模型的帮助。本文提出了一种名为Crescent的简单而有效的方法，用于完全自主地生成高质量的合成问答数据。Crescent首先通过诱饵提示引导LLM生成原始问题，然后通过基于拒绝采样的自我去重技术对这些问题进行多样化处理，最后将问题输入LLM，并通过多数投票收集相应答案。我们展示了Crescent在数学推理方面完全依赖零外部监督信号实现真正自我改进的可能性；具体而言，Crescent生成的问答对足以（i）在保持LLM总体性能（尤其是在零样本设置下）的同时提升其推理能力；（ii）比基于种子数据集增强的方法更有效地将LLM知识传授给较弱的模型。

发布时间: 2/20/2025

查看原文

半监督鸟类鸣声分类

作者: Simen Hexeberg, Mandar Chitre, Matthias Hoffmann-Kuhnt, Bing Wen Low

arXiv:2502.13440v1 Announce Type: cross 摘要：鸟类种群的变化可以指示生态系统更广泛的改变，使鸟类成为最重要的动物群体之一，需要进行监测。结合机器学习和被动声学技术能够在无需直接人力投入的情况下实现长时间的连续监测。然而，大多数现有技术需要大量的专家标注数据集用于训练，并且在繁忙的声音场景中难以检测重叠的时间段叫声。我们提出了一种半监督声学鸟类检测器，该检测器既可以检测频率分离后的重叠叫声，又可以使用少量标注的训练样本。分类器在来自110种鸟类的315类社区记录的开源数据和新加坡长时间声音场景录音的组合上进行了训练和评估。在保留的测试集上，该分类器在每类平均有11个标注训练样本的情况下，实现了0.701的平均F0.5分数。尽管标记训练样本数量显著较少，该检测器在103种鸟类的测试集上仍优于最先进的BirdNET分类器。此外，该检测器还在144小时的连续声音场景数据上进行了测试。新加坡丰富多样的声音场景使得在原始的连续数据流中抑制误报变得具有挑战性。尽管如此，我们证明在如此多样的环境中实现高精度是可能的，并且只需极少的标注训练数据。

发布时间: 2/20/2025

查看原文

MCTS-KBQA：知识图谱问答中的蒙特卡洛树搜索

作者: Guanming Xiong, Haochen Li, Wen Zhao

arXiv:2502.13428v1 公告类型: cross 摘要: 本研究探讨了通过利用蒙特卡洛树搜索(MCTS)来提高大型语言模型(LLMs)在知识库问答(KBQA)中的推理能力的方法。基于语义解析的KBQA方法尤其具有挑战性，因为这些方法需要从知识库中定位元素并生成逻辑形式，不仅需要大量的标注数据，还需要强大的推理能力。尽管利用LLMs作为代理的最近方法展示了相当大的潜力，但这些研究本质上受限于它们线性的决策过程。为了解决这一局限性，我们提出了一种基于MCTS的框架，通过树搜索方法增强LLMs的推理能力。我们设计了一种精心设计的逐步奖励机制，只需要直接提示开源指令LLMs，而无需额外的微调。实验结果表明，我们的方法在低资源场景中显著优于线性决策方法。此外，我们通过使用远程监督对现有的问题-SPARQL数据集进行标注中间推理过程，为KBQA社区贡献了新的数据资源。在扩展数据集上的实验结果表明，我们的方法在使用显著较少的训练数据的情况下达到了与完全监督模型相当的性能。

发布时间: 2/20/2025

查看原文