arXiv 论文列表

一种符合测度的风险控制框架：用于CLIPScore质量估计的粒状词评估和不确定性校准

作者: Gon\c{c}alo Gomes, Chrysoula Zerva, Bruno Martins

arXiv:2504.01225v1 交叉类型: cross 摘要：本研究探讨了学习图像说明评估指标目前存在的限制，特别是缺乏对说明中个别单词错位的精细评估，以及依赖单一质量估计而不考虑不确定性。为了解决这些限制，我们提出了一个简单而有效的策略来生成和校准CLIPScore分布。利用一个模型无关的符合风险控制框架，我们针对特定任务校准CLIPScore值，以解决上述两个限制。实验结果显示，使用符合风险控制方法在校准通过简单方法（如输入掩蔽）生成的分布时，可以实现与更复杂方法相当的性能。我们的方法有效地检测了错位的单词，同时提供了与所需风险水平对齐的形式保证，并改善了不确定性估计与预测误差之间的相关性，从而提高了图像描述评估指标的整体可靠性。

发布时间: 4/3/2025

查看原文

在临床访谈中检测PTSD：NLP方法与大规模语言模型的对比分析

作者: Feng Chen, Dror Ben-Zeev, Gillian Sparks, Arya Kadakia, Trevor Cohen

arXiv:2504.01216v1 交叉公告类型摘要：创伤后应激障碍（PTSD）在临床环境中仍然被低估，为自动化检测识别患者提供了机会。本研究评估了自然语言处理方法在从临床访谈记录中检测PTSD方面的效果。我们使用DAIC-WOZ数据集比较了一般模型和精神健康特定模型（BERT/RoBERTa）、嵌入式方法（SentenceBERT/LLaMA）以及大型语言模型提示策略（零样本/少样本/链式推理）。特定领域模型显著优于通用模型（Mental-RoBERTa的F1值为0.643，而RoBERTa-base的F1值为0.485）。使用神经网络结合LLaMA嵌入实现了最高的性能（F1值为0.700）。仅使用DSM-5标准进行零样本提示也取得了竞争力的结果，无需训练数据（F1值为0.657）。性能在不同症状严重程度和共病状况下差异显著，对于重度PTSD病例和合并有抑郁症的患者具有更高的准确性。我们的研究结果突显了领域适应嵌入和大型语言模型在可扩展筛查方面的潜力，同时也强调了改进对复杂表现检测的必要性，并为开发临床可行的PTSD评估AI工具提供了见解。

发布时间: 4/3/2025

查看原文

PolygoNet：利用简化多边形表示进行有效的图像分类

作者: Salim Khazem, Jeremy Fix, C\'edric Pradalier

arXiv:2504.01214v1 宣传类型：交叉摘要：深度学习模型在各种图像相关任务中取得了显著的成功。然而，它们经常会遇到与计算复杂性和过拟合相关的挑战。在本文中，我们提出了一种高效的方法，该方法利用图像的多边形表示，通过使用主导点或轮廓坐标。通过将输入图像转换为这些紧凑的形式，我们的方法显著减少了计算需求，加速了训练，并节省了资源，使它适用于实时和资源受限的应用。这些表示形式自然地捕捉了图像的关键特征，同时过滤掉了噪声，提供了一种自然的正则化效果，从而缓解了过拟合。生成的轻量级模型在使用全分辨率图像时具有与最先进的方法相当的性能，同时允许在边缘设备上部署。基准数据集上的大量实验验证了我们方法在减少复杂性、提高泛化能力和促进边缘计算应用方面的有效性。这项工作展示了多边形表示在推动面向现实场景的高效和可扩展的深度学习解决方案方面的潜力。论文的实验代码可在 https://github.com/salimkhazem/PolygoNet 提供。

发布时间: 4/3/2025

查看原文

轻量级深度模型在皮肤病检测中的研究：实例选择与通道优化

作者: Ian Mateos Gonzalez, Estefani Jaramilla Nava, Abraham S\'anchez Morales, Jes\'us Garc\'ia-Ram\'irez, Ricardo Ramos-Aguilar

arXiv:2504.01208v1 交叉公告类型摘要：皮肤病的识别是根据不同的研究在墨西哥的一个重要问题。文献中的一些工作使用了不同仓库的数据集，却没有对数据行为进行研究，特别是在医学图像领域。在这项工作中，我们提出了一种预处理 dermaMNIST 数据集的方法，以提高其质量以供分类阶段使用，我们使用了轻量级卷积神经网络。在我们的结果中，我们减少了神经网络训练的实例数量，获得的模型性能与 ResNet 相似。

发布时间: 4/3/2025

查看原文

知识对齐：一种中介框架，用于用户-语言模型知识传递

作者: Nicholas Clark, Hua Shen, Bill Howe, Tanushree Mitra

arXiv:2504.01205v1 交叉发布公告类型：摘要：大型语言模型（LLMs）越来越多地作为知识获取的工具，但用户无法有效地说明他们希望以何种方式呈现信息。当用户要求LLMs“引用可靠的来源”、“适当表达不确定性”或“包含多种视角”时，他们发现当前的界面并没有提供结构化的方式来表达这些偏好。结果是提示分享的民间传说：基于社区特定的复制提示通过信任关系传递，而不是基于实证效果。我们提出了元认知对齐框架（Epistemic Alignment Framework），这是一个源自认识论哲学文献的十个关于知识传输的挑战，涉及诸如证据质量评估和证词依赖校准等议题。该框架充当了用户需求与系统能力之间的结构化中介，为用户的需求与系统的交付之间建立了共同的语言。通过对在线社区中这些问题被积极讨论的定制提示和个性化策略的主题分析，我们发现用户发展出了复杂的工作方案来解决每一个挑战。然后，我们通过内容分析将我们的框架应用于两个主要模型提供商—OpenAI和Anthropic，考察它们公开政策和产品功能下的描述。我们的分析表明，虽然这些提供商在一定程度上解决了我们提出的挑战，但它们未能建立足够的机制来规定元认知偏好，缺乏透明度说明这些偏好是如何实现的，并且提供没有验证工具来确认这些偏好是否得到遵循。对于AI开发者而言，元认知对齐框架提供了支持多样化知识途径的具体指导；而对于用户而言，它将实现信息传递与他们的具体需求相一致，而不是采用一刀切的方法。

发布时间: 4/3/2025

查看原文

医学大型语言模型容易分心

作者: Krithik Vishwanath, Anton Alyakin, Daniel Alexander Alber, Jin Vivian Lee, Douglas Kondziolka, Eric Karl Oermann

arXiv:2504.01201v1 通告类型: cross 摘要: 大型语言模型（LLMs）有潜力改变医学领域，但在现实世界的临床场景中，存在无关信息可能会阻碍性能。随着诸如环境记录这类辅助技术的发展，它们可以自动从实时患者会诊中生成草稿笔记，这有可能引入额外的噪声，因此评估LLM过滤相关信息的能力变得至关重要。为了研究这一问题，我们开发了MedDistractQA，这是一个基于USMLE风格问题嵌入模拟现实世界干扰项的基准测试。我们的研究表明，分散注意力的陈述（临床词义的多义词用于非临床环境或与无关健康状况的引用）可以将LLM的准确性降低多达17.9%。许多提高模型性能的常见解决方案，如检索增强生成（RAG）和医学微调，并未改变这一影响，并在某些情况下引入了自身的新混杂因素，进一步恶化了性能。我们的研究结果表明，LLMs在识别相关和无关的临床信息方面缺乏必要的逻辑机制，从而对现实世界的应用提出了挑战。MedDistractQA和我们的结果突显了需要强大的缓解策略来增强LLM抵御无关信息的能力，以提高其鲁棒性。

发布时间: 4/3/2025

查看原文

$\mu$KE：Matryoshka 不结构化知识编辑大语言模型

作者: Zian Su, Ziyang Huang, Kaiyuan Zhang, Xiangyu Zhang

arXiv:2504.01196v1 类别: cross 摘要: 大型语言模型（LLMs）已经成为了强大的知识库，但受限于静态训练数据，这导致了幻觉和安全风险等问题。通过定位并编辑模型的内部知识的方法已经被证明是一种成本效益较高的替代方案，虽然现有的无结构方法，尤其是基于窗口的自回归方法，往往会破坏早期记忆更新与后续输出标记之间的因果依赖关系。在本文中，我们首先理论分析了这些限制，然后介绍了马特罗什卡无结构知识编辑（$\mu$KE）这一新颖的记忆更新机制，该机制通过马特罗什卡风格的目标和自适应损失系数来保留这些依赖关系。在两个模型上的四个基准测试中的实证评估表明，$\mu$KE 在编辑实效性上相比最先进的方法最多提高了 12.33%，并且在应用于各种格式化编辑时保持了鲁棒性，这凸显了其在LLMs中进行有效的无结构知识编辑的潜力。

发布时间: 4/3/2025

查看原文

基于神经网络的可满足性求解器设计选择与可解释性

作者: David Moj\v{z}\'i\v{s}ek, Jan H\r{u}la, Ziwei Li, Ziyu Zhou, Mikol\'a\v{s} Janota

arXiv:2504.01173v1 宣告类型: 交叉摘要: 在本文中，我们对图神经网络在布尔可满足性问题中的应用进行了全面评估，并提供了一种直观的解释，说明了模型如何能够推广到不同的实例。我们引入了几种训练改进，特别是新颖的动态适应当前模型状态的最近指派监督方法，该方法在处理具有更大解空间的问题时显著提升了性能。我们的实验表明，变元-子句图表示与循环神经网络更新相结合，在SAT指派预测方面表现出较好的准确性，同时减少了计算需求。我们扩展了基本的图神经网络，使其成为具有增量采样功能的扩散模型，并且能够与如单元传播等经典技术有效结合。通过分析嵌入空间模式和优化轨迹，我们展示了这些网络如何隐含地执行类似于MaxSAT的连续松弛过程，提供了它们推理过程的可解释视图。这种理解指导了我们的设计选择，并解释了循环架构在推理时间上的有效扩展能力，超过了其训练分布，我们通过测试时的扩展实验进行了演示。

发布时间: 4/3/2025

查看原文

当你进行上下文网页搜索时：基于搜索结果的幻觉检测受影响的情况

作者: Mahjabin Nahar, Eun-Ju Lee, Jin Won Park, Dongwon Lee

arXiv:2504.01153v1 宣告类型：跨学科摘要：随着我们越来越依赖大型语言模型（LLMs）完成各种任务，这些模型被已知会产生不准确的内容或“幻觉”，且可能带来灾难性的后果。最近将网络搜索结果集成到LLMs中引发了这样的问题：人们是否利用这些搜索结果来验证生成的内容，从而避免陷入幻觉的陷阱。这项研究（N=560）探讨了提供搜索结果（无论是静态的，即固定搜索结果，还是动态的，即参与者驱动的搜索）如何影响参与者对LLM生成内容的判断准确性和自信程度（即真实、轻微幻觉、重大幻觉），相比于没有提供搜索结果的控制条件。研究结果表明，与控制条件相比，处于静态和动态条件下的参与者都评价幻觉内容的准确性较低。然而，动态条件下的人比静态或控制条件下的人更评价真实内容的准确性更高，并且展示了更广泛的评估信心。此外，高认知需求（NFC）的人评价重大幻觉内容的准确性较低，而对于真实内容或轻微幻觉内容没有相应的差异。这些结果强调了将网络搜索结果集成到LLMs中以检测幻觉的潜在益处，同时也强调了在开发以人为中心的系统时需要采取更加精细的方法，考虑到用户特征的重要性。

发布时间: 4/3/2025

查看原文

Top Still自转吗？评估叙事理解中的主观性

作者: Melanie Subbiah, Akankshya Mishra, Grace Kim, Liyan Tang, Greg Durrett, Kathleen McKeown

arXiv:2504.01132v1 交叉公告类型：cross 摘要：确定断言对源文档的忠实性是一个在多个领域中都非常重要的问题。通常，这项任务被处理为一个二元判断，即断言是支持的还是不支持的。然而，在许多情况下，断言是否得到支持可能是模棱两可的。例如，它可能依赖于从给定证据中进行推理，而不同的人可以基于他们对这些推理的认同程度合理地将断言解释为支持的或不支持的。将二元标签强加于这类断言会降低评价的可靠性。在这项工作中，我们将任务重新定义为处理模棱两可断言事实性判断中的主观性问题。我们引入了由大规模语言模型生成的摘要编辑作为提供断言细致评价的方法：一个摘要需要被编辑到何种程度才能变得无歧义？断言是否被重写以及它发生了多大改变可以作为自动评价指标，即模糊重写指标（ARM），提供比二元忠实性判断更丰富的反馈信号。我们重点关注叙事摘要化这一领域，因为它特别富含模棱两可性和主观解读。我们展示了ARM在断言忠实性注释者一致性上绝对提高了21%，这表明主观性得到了降低。

发布时间: 4/3/2025

查看原文