arXiv 论文列表

作者: Jing Wang, Jeremy C Weiss

arXiv:2504.12350v1 交叉公布类型：交叉摘要：临床事件的时机对于患者轨迹的表征至关重要，这使得过程追溯、预测和因果推理等分析成为可能。然而，结构化的电子健康记录只捕捉到少量关键的数据元素，而临床报告缺乏事件的时间定位。我们提出了一种将病例报告转换为文本时间序列对（文本事件和时间戳）的系统。我们对十个随机抽样的PubMed开放访问（PMOA）病例报告（N=152,974）进行了手动和大型语言模型（LLM）注解（n=320和n=390分别），并评估了大型语言模型间的注解一致性（n=3,103；N=93）。我们发现，LLM模型在事件召回方面表现一般（O1-preview: 0.80），但识别的事件时间一致性较高（O1-preview: 0.95）。通过建立任务、注解和评估系统，并通过展示高度的一致性，这项工作可以为利用PMOA语料库进行时间分析提供一个基准。

发布时间: 4/18/2025

查看原文

大型语言模型在芬兰高中毕业考试中的数学能力

作者: Mika Set\"al\"a, Pieta Sikstr\"om, Ville Heilala, Tommi K\"arkk\"ainen

arXiv:2504.12347v1 宣告类型: cross 摘要：大规模语言模型（LLMs）在教育环境中展现出了越来越大的潜力，然而其数学推理能力被认为仍在不断发展之中。本研究使用芬兰高中毕业考试评估了各类LLM的数学能力，该考试是高中教育中的一个高风险数字测试。初始测试显示出中等程度的表现，相当于中等分数，但随着语言模型的发展，后续评估显示出了显著的改进。令人惊讶的是，一些模型取得了近乎完美或完美的分数，达到了顶尖学生的表现水平，并且有资格被大学录取。我们的发现突显了LLMs在数学能力上的快速进步，并演示了它们在大规模教育评估中的潜在作用。

发布时间: 4/18/2025

查看原文

你变了：检测黑盒大型语言模型的修改

作者: Alden Dima, James Foulds, Shimei Pan, Philip Feldman

arXiv:2504.12335v1 Announce Type: 横向摘要：大型语言模型（LLMs）通常通过API提供作为服务，这使得开发者难以检测其行为的变化。我们提出了一种通过比较生成文本的语言和心理语言学特性分布来监控LLMs变化的方法。该方法使用统计测试来确定两组文本特征分布是否等价，从而使开发者能够识别LLM何时发生变化。我们使用五种OpenAI完成模型和Meta的Llama 3 70B聊天模型来证明该方法的有效性。我们的结果显示，简单的文本特征结合统计测试可以区分语言模型。我们还探讨了该方法在检测提示注入攻击方面的应用。我们的工作使频繁监控LLM的变化成为可能，并避免了计算成本高昂的基准评估。

发布时间: 4/18/2025

查看原文

评估局部LLM：重新思考严肃游戏中的性能指标

作者: Andr\'es Isaza-Giraldo, Paulo Bala, Lucas Pereira

arXiv:2504.12333v1 交叉公告类型摘要：在严肃游戏中评估开放式的响应具有独特挑战，因为正确性往往是主观的。大型语言模型（LLMs）越来越多地被探索作为此类背景下的评估工具，但其准确性和一致性仍不确定，特别是对于那些旨在本地执行的小型模型。本研究调查了五种小型规模的LLMs在评估《En-join》游戏中玩家响应时的可靠性，该游戏模拟了能源社区内的决策制定过程。通过利用传统的二分类指标（包括准确率、真正阳性率和真阴性率），我们系统地对比了这些模型在不同评估场景下的表现。我们的结果突显了每个模型的强点和局限性，揭示了灵敏度、特异性和整体性能之间的权衡。我们展示了有些模型在识别正确响应方面表现出色，而其他模型则在假阳性或不一致的评估中遇到困难。这些发现强调了需有上下文感知的评估框架和仔细选择模型的重要性，以部署LLMs作为评估工具。这项工作为更广泛的关于AI驱动评估工具可信性的讨论做出了贡献，提供了不同LLM架构处理主观评估任务的见解。

发布时间: 4/18/2025

查看原文

基于指令调优大规模语言模型和数据增强的短语级情感-原因-类别 triplet 提取

作者: Xiangju Li, Dong Yang, Xiaogang Zhu, Faliang Huang, Peng Zhang, Zhongying Zhao

arXiv:2504.12331v1 声明类型：交叉摘要：情感-因果-类别三级片段提取代表了情感因果分析中的一项新颖且复杂的挑战。该任务涉及在文本中识别情感片段、因果片段及其相关的情感类别，以形成结构化三元组。尽管先前的研究主要集中在短语级别的情感-因果对提取和情感-因果片段检测上，但这些方法常常受到冗余信息检索和准确确定情感类别困难的挑战，尤其是在情感表达含蓄或模棱两可时。为克服这些挑战，这项研究探讨了对情感-因果-类别三级片段提取的细致方法，并引入了一种结合大型语言模型指令调优和数据增强技术的创新框架。所提出的方法采用任务特定的三元组提取指令，并利用低秩适应来微调大型语言模型，从而避免了复杂任务特定架构的需要。此外，还开发了一种基于提示的数据增强策略，以通过引导大型语言模型生成高质量的合成训练数据来解决数据稀缺问题。广泛的实验评估表明，所提出的方法显著优于现有的基线方法，在情感-因果-类别三级片段提取指标上至少实现了12.8%的提升。结果表明该方法的有效性和鲁棒性，为其在情感因果分析研究中的进一步发展提供了前景。源代码可在 https://github.com/zxgnlp/InstruDa-LLM 获取。

发布时间: 4/18/2025

查看原文

HM-RAG：分层多agent多模态检索增强生成

作者: Pei Liu, Xin Liu, Ruoyu Yao, Junming Liu, Siyuan Meng, Ding Wang, Jun Ma

arXiv:2504.12330v1 宣告类型：交叉摘要：尽管检索增强生成（RAG）通过外部知识增强了大型语言模型（LLMs），但传统的单一代理RAG在解决复杂查询时仍从根本上受限于跨异构数据生态系统的协调推理需求。我们提出了HM-RAG，这是一种新颖的分层多代理多模态RAG框架，开创了在结构化、非结构化和图基数据中动态知识合成方面的协作智能。该框架由三层架构组成，包含专门的代理：分解代理，通过语义感知的查询重写和基于模式的语境扩充，将复杂查询分解为上下文相干的子任务；多源检索代理，使用可插拔模块在向量、图和基于Web的数据库中进行并行的、模态特定的检索；以及决策代理，使用一致性投票整合多源答案，并通过专家模型精炼解决检索结果中的不一致性。该架构通过结合文本、图关系和Web提取的证据，实现了全面的查询理解，相比基线RAG系统在ScienceQA和CrisisMMD基准上提高了答案准确率12.95%和问题分类准确率3.56%。值得注意的是，HM-RAG在两个数据集的零样本设置中均建立了最先进的结果。其模块化架构确保了新数据模态的无缝集成，同时保持严格的数据治理，标志着在RAG系统中解决多模态推理和知识合成关键挑战方面取得了显著进展。代码可在https://github.com/ocean-luna/HMRAG获取。

发布时间: 4/18/2025

查看原文

推测性思考：在推理时利用大型模型指导增强小型模型的推理能力

作者: Wang Yang, Xiang Yue, Vipin Chaudhary, Xiaotian Han

arXiv:2504.12329v1 宣告类型: cross 摘要: 最近的进展通过后训练来增强模型的推理性能，这通常需要昂贵的训练管道，并且仍然遭受效率低下、输出时间过长的问题。我们引入了推测性思考，这是一个无训练框架，能够使大型推理模型在推理层面引导较小的模型进行推理，这与在令牌层面工作的推测性解码不同。我们的方法基于两个观察：(1) 在结构分隔符如"\n\n"之后经常出现推理支持性令牌如"wait"，这些令牌作为反思或继续的信号；(2) 较大的模型表现出更强的控制反射行为的能力，减少了不必要的回溯，同时提高了推理质量。通过战略性地将反射步骤委派给一个更有能力的模型，我们的方法显著提升了推理模型的推理准确性，同时缩短了其输出时间。在32B推理模型的辅助下，1.5B模型在MATH500上的准确性从83.2%提升到89.4%，标志着显著提高了6.2%。同时，平均输出长度从5439个令牌减少到4583个令牌，减少了15.7%。此外，当应用于非推理模型（Qwen-2.5-7B-Instruct）时，我们的框架使其在相同的基准测试上的准确性从74.0%提高到81.8%，实现了7.8%的相对改进。

发布时间: 4/18/2025

查看原文

全面的奖励模型综述：分类、应用、挑战和未来

作者: Jialun Zhong, Wei Shen, Yanzeng Li, Songyang Gao, Hua Lu, Yicheng Chen, Yang Zhang, Wei Zhou, Jinjie Gu, Lei Zou

arXiv:2504.12328v1 宣告类型: cross 摘要：奖励模型（RM）在增强大型语言模型（LLM）方面展示了令人印象深刻的潜力，因为RM可以作为人类偏好的代理，为LLM在各种任务中的行为提供指导信号。在本文中，我们从偏好收集、奖励建模和应用的角度提供了对相关研究的全面概述。接下来，我们介绍了奖励模型的应用，并讨论了评估基准。此外，我们深入分析了该领域存在的挑战，并探讨了潜在的研究方向。本文旨在为初学者提供对奖励模型的全面介绍，并促进未来的研究所用的资源可在GitHub上公开获取<footnote>https://github.com/JLZhong23/awesome-reward-models</footnote>。

发布时间: 4/18/2025

查看原文

使用大语言模型从临床个案报告中重构败血症轨迹：败血症文本时间序列语料库

作者: Shahriar Noroozizadeh, Jeremy C. Weiss

arXiv:2504.12326v1 交叉类型公告摘要：临床案例报告和出院总结可能是患者会诊中最完整和准确的总结，但是它们是在会诊之后最终确定的，即在会诊之后进行了时间戳标记。补充的数据结构化流数据可以更快地获得，但可能不完整。为了在更完整且时间分辨率更高的数据上训练模型和算法，我们构建了一个管道，使用大语言模型对案例报告中的时间局部化发现进行表型识别、提取和标注。我们应用该管道生成了一个针对Sepsis-3的开放访问文本时间序列语料库，包含来自Pubmed-Open Access (PMOA) 子集的2,139份案例报告。为了验证我们的系统，我们将其应用于PMOA，并使用I2B2/MIMIC-IV的时间轴注释，然后将结果与医生专家注释进行比较。我们展示了高的临床发现恢复率（事件匹配率：O1-preview--0.755，Llama 3.3 70B Instruct--0.753）和强大的时间顺序（一致度：O1-preview--0.932，Llama 3.3 70B Instruct--0.932）。我们的工作描述了LLM在文本中时间局部化临床发现的能力，阐述了LLM在时间重建中的局限性，并通过多模态集成提供了几个改进的可能性途径。

发布时间: 4/18/2025

查看原文

LLMTaxo：利用大型语言模型从社交媒体构建事实性声明的分类体系

作者: Haiqi Zhang, Zhengyuan Zhu, Zeyu Zhang, Chengkai Li

arXiv:2504.12325v1 类别: cross 摘要：随着社交媒体平台上内容的大幅扩展，分析和理解在线言论变得越来越复杂。本文介绍了一种名为LLMTaxo的新型框架，该框架利用大规模语言模型自动构建来自社交媒体的断言 taxonomy，通过从多级粒度生成主题来实现。这种方法有助于相关利益方更有效地导航社交媒体环境。我们使用不同模型在三个不同的数据集上实现了该框架，并引入了专门设计的 taxonomy 评估指标以进行全面评估。根据来自人工评估者和GPT-4的评估结果，结果显示LLMTaxo有效地对来自社交媒体的断言进行了分类，并表明某些模型在特定数据集上表现更好。

发布时间: 4/18/2025

查看原文