arXiv 论文列表

作者: Hyunji Lee, Franck Dernoncourt, Trung Bui, Seunghyun Yoon

arXiv:2505.00023v1 Announce Type: cross 摘要：在真实的语料库中，知识在文档之间频繁重复出现，但由于命名模糊、信息过时或错误，常常包含不一致之处，导致上下文之间关系复杂。先前的研究表明，语言模型在处理这些复杂性方面存在困难，通常侧重于孤立的单一因素。我们将这些关系归类为四种类型：干扰性、含糊性、反事实性以及重复性。我们的分析表明，没有任何单一方法能够同时有效应对所有这些关系。因此，我们引入了一个名为Context Organizer（CORG）的框架，该框架将多个上下文组织成独立处理的组。这种设计允许模型高效地找到所有相关答案，同时确保消歧义。CORG包括三个关键组件：图构建器、再排序器和聚合器。我们的结果表明，CORG在性能和效率之间取得了良好的平衡，超越了现有的分组方法，并且在计算成本方面更少的单上下文方法中达到了相当的结果。

发布时间: 5/2/2025

查看原文

Aleph-Alpha-GermanWeb：通过基于模型的数据整理和合成数据生成提升德语语言LLM预训练

作者: Thomas F Burns, Letitia Parcalabescu, Stephan W\"aldchen, Michael Barlow, Gregor Ziegltrum, Volker Stampa, Bastian Harren, Bj\"orn Deiseroth

arXiv:2505.00022v1 宣告类型: cross 摘要：对于大规模语言模型（LLMs），扩大数据量是至关重要的，但最近的研究发现，数据质量可以显著提升性能和训练效率。我们引入了一种结合启发式和基于模型的筛选技术与合成数据生成的德语数据集整理管道。我们使用该管道创建了 Aleph-Alpha-GermanWeb，这是一个大规模的德语预训练数据集，它整合了以下来源：(1) 共同爬取的网络数据，(2) FineWeb2，以及 (3) 根据实际有机网络数据生成的合成数据。我们通过预训练一个1B规模的类似Llama的模型和一个8B无标记的分层自回归变换器（HAT）来评估我们的数据集。在包括MMMLU在内的德语基准测试中，Aleph-Alpha-GermanWeb相较于仅使用FineWeb2的数据集显示出显著的性能改进。即使将FineWeb2丰富为高质量的人工筛选数据源（如维基百科），这一优势在8B规模下仍然有效。我们的研究成果支持不断增加的证据，表明基于模型的数据筛选和合成数据生成可以显著增强LLM预训练数据集。

发布时间: 5/2/2025

查看原文

Ustnlp16在SemEval-2025任务9中：通过处理不平衡和使用焦点损失提高模型性能

作者: Zhuoang Cai, Zhenghao Li, Yang Liu, Liyuan Guo, Yangqiu Song

arXiv:2505.00021v1 宣告类型: cross 摘要: 分类任务往往受到数据分布不平衡的影响，这在食品危害检测中由于严重类别不平衡、较短和未结构化的文本以及重叠的语义类别，提出了巨大的挑战。本文中，我们为我们提交给SemEval-2025任务9:食品危害检测的系统进行了介绍，通过应用数据增强技术来改善分类性能，从而解决了这些问题。我们使用基于Transformer的模型BERT和RoBERTa作为骨干分类器，并探索了各种数据平衡策略，包括随机过采样、简易数据增强(EDA)和焦点损失。我们的实验表明，简易数据增强(EDA)有效地缓解了类别不平衡的问题，显著提高了准确率和F1分数。此外，将焦点损失与过采样和简易数据增强相结合，进一步提高了模型的稳健性，特别是在难以分类的示例方面。这些发现为开发更有效的基于NLP的分类模型用于食品危害检测做出了贡献。

发布时间: 5/2/2025

查看原文

超越LLM预训练数据的公共访问

作者: Sruly Rosenblat, Tim O'Reilly, Ilan Strauss

arXiv:2505.00020v1 宣告类型: 交叉摘要: 使用合法获取的34本受版权保护的O'Reilly Media书籍数据集，我们应用DE-COP成员推理攻击方法，调查OpenAI的大语言模型是否在未经许可的情况下被训练了受版权保护的内容。我们的AUROC得分表明，OpenAI更先进且功能更强的GPT-4o模型在识别受付费墙保护的O'Reilly书籍内容方面表现出强大的能力（AUROC = 82%），相比之下，OpenAI较早的模型GPT-3.5 Turbo则表现出相对较高的对公开可访问的O'Reilly书籍样本的识别能力。而作为更小模型的GPT-4o Mini，在测试中对公开或非公开的O'Reilly Media内容均不具备相关知识（AUROC ≈ 50%）。使用相同截止日期测试多个模型有助于我们考虑到可能随时间变化的语言变迁，这些变迁可能会偏斜我们的研究结果。这些结果强调了企业在预训练数据来源方面提高透明度的迫切需求，作为制定AI内容训练正式许可框架的一种手段。

发布时间: 5/2/2025

查看原文

大型语言模型中提示压缩的实证研究

作者: Zheng Zhang, Jinyi Li, Yihuai Lan, Xiang Wang, Hao Wang

arXiv:2505.00019v1 通告类型: 交叉摘要: 提示工程使大型语言模型（LLMs）能够执行多种任务。然而，冗长的提示显著增加了计算复杂性和经济成本。为了解决这个问题，我们研究了六种LLM提示压缩方法，旨在在保持LLM回应质量的同时减少提示长度。在这篇论文中，我们对生成性能、模型幻视、多模态任务的有效性、词汇省略分析等方面进行了全面分析。我们在这13个数据集中评估了这些方法，包括新闻、科技文章、常识问答、数学问答、长语境问答和VQA数据集。我们的实验表明，在长语境中，提示压缩对LLM性能的影响比短语境更大。在Longbench评估中，适度压缩甚至还能提高LLM性能。我们的代码和数据可在 https://github.com/3DAgentWorld/Toolkit-for-Prompt-Compression 获得。

发布时间: 5/2/2025

查看原文

ReCellTy：基于领域特定知识图谱检索增强的大语言模型工作流用于单细胞注释

作者: Dezheng Han, Yibin Jia, Ruxiao Chen, Wenjie Han, Shuaishuai Guo, Jianbo Wang

arXiv:2505.00017v1 交叉类型：摘要：为了使用大型语言模型（LLMs）实现精确的全自动细胞类型注释，我们开发了一个图结构特征标记数据库，用于检索与差异基因相关的实体，以便进行细胞重建。我们进一步设计了一个多任务工作流以优化注释过程。与通用目的的LLMs相比，我们的方法在11种组织类型中的人类评估得分提高了高达0.21，语义相似度提高了6.1%，并且更接近手动注释的认知逻辑。

发布时间: 5/2/2025

查看原文

通过文本到SQL强化学习引发的表格推理火花

作者: Josefa Lia Stoisser, Marc Boubnovski Martell, Julien Fauqueur

arXiv:2505.00016v1 类型：交叉学科摘要：本文重新定义了文本到SQL的任务，作为教导大规模语言模型（LLMs）在表结构数据上进行推理和操作的一种途径——超越了传统上对查询生成的关注。我们提出了一种两阶段框架，利用SQL监督来发展可转移的表推理能力。首先，我们从真实的SQL查询中综合详细的思维链（CoT）追踪，提供逐步的、逐子句级别的监督，教导模型如何遍历、过滤和聚合表字段。其次，我们引入了组相对策略优化（GRPO）强化学习目标，将SQL执行准确性与可泛化的推理连接起来，通过鼓励超出任务特定语法的步骤并跨越不同数据集进行转移来实现。从实验结果来看，我们的方法在标准的文本到SQL基准测试上提高了性能，并在如BIRD和CRT-QA这类推理密集的数据集上取得了显著的提升，展示了增强的泛化能力和可解释性。具体来说，精简量化后的LLaMA模型在训练文本到SQL任务时，准确率提高了20%，而Qwen则提高了5%。这些结果表明，SQL不仅可以作为目标的形式主义，还可以作为一种有效的脚手架，用于学习在结构化数据上进行稳健且可转移的推理。

发布时间: 5/2/2025

查看原文

使用 RoBERTa 和 DeBERTa 在日语情感分类中的性能评价

作者: Yoichi Takenaka

arXiv:2505.00013v1 交叉类型摘要：背景具有社会影响的应用，如社交媒体监控和客户反馈分析，需要对日语文本进行准确的情感识别，但资源稀缺性和类别不平衡阻碍了模型性能。目标本研究旨在构建一个高精度模型，用于预测日文句子中八种普洛奇克情感（快乐、期待等）的存在或不存在情况。方法我们使用WRIME语料库将读者平均强度评分转换为二元标签，并对四种预训练语言模型（BERT、RoBERTa、DeBERTa-v3-base、DeBERTa-v3-large）进行微调。此外，我们还评估了两个大型语言模型（TinySwallow-1.5B-Instruct和ChatGPT-4o）。准确率和F1-score作为评估指标。结果 DeBERTa-v3-large在平均准确率（0.860）和F1-score（0.662）方面表现最佳，超越其他所有模型。它在高频情感（如快乐、期待等）和低频情感（如愤怒、信任等）的F1-score上表现出色。大型语言模型表现滞后，ChatGPT-4o和TinySwallow-1.5B-Instruct的平均F1-score分别为0.527和0.292。结论微调后的DeBERTa-v3-large模型当前为日语二元情感分类提供了最可靠的解决方案。我们发布该模型为pip可安装包（pip install deberta-emotion-predictor）。未来的工作应增加稀有情感的数据、减少模型大小，并探索提示工程以提高大型语言模型的性能。该论文已被提交至《新一代计算》期刊进行可能的出版审查。

发布时间: 5/2/2025

查看原文

AI 共同民族志工作者：自动化能将定性研究推进多远？

作者: Fabian Retkowski, Andreas Sudmann, Alexander Waibel

arXiv:2505.00012v1 Announce Type: 横跨领域摘要：定性研究往往涉及劳动密集型过程，难以在保持分析深度的同时扩大规模。本文介绍了《AI 共同民族志学者》（AICoE），这是一种专门为定性研究开发的端到端管道，旨在超越仅仅自动化代码分配的局限性，提供一种更为集成的方法。AICoE 组织整个过程，涵盖开放编码、代码合并、代码应用，甚至模式发现，从而对定性数据进行全面分析。

发布时间: 5/2/2025

查看原文

基于特征的预测模型在临床培训LLM中检测 Jailbreak 的方法

作者: Tri Nguyen, Lohith Srikanth Pentapalli, Magnus Sieverding, Laurah Turner, Seth Overla, Weibing Zheng, Chris Zhou, David Furniss, Danielle Weber, Michael Gharib, Matt Kelleher, Michael Shukis, Cameron Pawlik, Kelly Cohen

arXiv:2505.00010v1 类型: cross 摘要：大型语言模型（LLMs）的越狱行为威胁着其在教育等敏感领域中的安全使用，这使得用户能够绕过伦理保护措施。本研究关注于检测基于LLMs的2-Sigma临床教育平台中的越狱行为，该平台通过LLMs模拟患者互动。我们在158次对话中对2,300多个提示语进行了标注，使用了四种与越狱行为密切相关的语言变量。提取的特征被用来训练多种预测模型，包括决策树、模糊逻辑分类器、提升方法和逻辑回归。结果表明，基于特征的预测模型始终优于提示工程，其中模糊决策树在总体性能上表现最好。我们的研究结果表明，基于语言特征的模型是检测越狱的有效且可解释的替代方案。我们建议未来的工作探索结合基于提示的灵活性与基于规则的稳健性的混合框架，以便在教育LLMs中进行实时、频谱化的越狱监控。

发布时间: 5/2/2025

查看原文