arXiv 论文列表

LLMs中的临床知识并不能转化为人类互动

作者: Andrew M. Bean, Rebecca Payne, Guy Parsons, Hannah Rose Kirk, Juan Ciro, Rafael Mosquera, Sara Hincapi\'e Monsalve, Aruna S. Ekanayaka, Lionel Tarassenko, Luc Rocher, Adam Mahdi

arXiv:2504.18919v1 宣告类型：交叉摘要：全球医疗提供者正在探索使用大规模语言模型（LLMs）为公众提供医疗建议。LLMs现在在医学执照考试中的得分几乎接近完美，但这并不一定意味着它们在实际应用中也能准确表现。我们进行了一项控制研究，有1,298名参与者参与，在十个医疗场景中测试LLMs是否能帮助公众成员识别潜在的疾病并选择适当的行动（处理方式）。参与者被随机分配使用LLM（GPT-4o、Llama 3、Command R+）或他们选择的其他来源（对照组）。单独测试时，LLM在场景中表现准确，正确识别疾病的比例为94.9%，平均选择处理方式的比例为56.3%。然而，使用相同LLM的参与者仅在少于34.5%的情况下正确识别了相关疾病，在少于44.2%的情况下选择了处理方式，这两个比例均未超过对照组。我们发现，用户互动是阻碍LLMs在医疗建议应用中的部署的挑战。用于医学知识的标准基准和模拟患者互动无法预测我们发现的人类参与者所遇到的失败。展望未来，我们建议在公共医疗部署之前进行系统的人类用户测试以评估交互能力。

发布时间: 4/29/2025

查看原文

统一联邦学习： Enables 分散式跨孤岛联邦学习

作者: Sarang S, Druva Dhakshinamoorthy, Aditya Shiva Sharma, Yuvraj Singh Bhadauria, Siddharth Chaitra Vivek, Arihant Bansal, Arnab K. Paul

arXiv:2504.18916v1 宣言类型: cross 摘要：联邦学习（FL）是一种分散的机器学习（ML）范式，在这种范式中，模型在称为客户端的多个设备上的私人数据上进行训练，并在网络节点称为聚合器的单一节点处合并，而不是本身合并数据。许多组织采用联邦学习以获得更好的隐私意识的ML驱动决策能力。然而，由于缺乏有效的协作机制，组织往往独立运营而不太倾向于合作以增强其联邦学习能力。挑战在于在信任和资源效率之间找到平衡。一种方法依赖于信任第三方聚合器来汇总来自所有组织的模型（多层次联邦学习），但这种方法要求信任一个可能带有偏见或不可靠的实体。或者，组织可以通过直接共享其本地模型来绕过第三方，这需要大量的计算资源来进行验证。这两种方法都反映了信任和资源限制之间的根本权衡，两者都无法提供理想的解决方案。在本文中，我们开发了一个基于信任的跨存档联邦学习框架，称为 \proj，该框架使用分散的编排和分布式存储。 \proj 为参与的组织提供了灵活性，并提供了同步和异步模式来处理拖后腿者。在多样化的测试平台上进行的评估表明，\proj 在允许信任和最优资源使用的同时，实现了与理想的多层次集中式联邦学习相当的性能。

发布时间: 4/29/2025

查看原文

基于森林神经网络的亲属验证

作者: Ali Nazari, Mohsen Ebrahimi Moghaddam, Omidreza Borzoei

arXiv:2504.18910v1 宣告类型: 交叉摘要: 早期的方法使用面部表示来进行亲缘关系验证，这些表示的准确性低于从头开始学习的父母和孩子面部图像的联合表示。我们提出了一种利用面部表示且其结果可与联合表示算法相媲美的方法。此外，我们设计了分类模块的结构，并引入了一种新的损失组合，在训练网络时逐步引入中心损失。同时，我们在KinFaceW-I和II上进行了实验，展示了我们方法的有效性。我们在KinFaceW-II上取得了最佳结果，所有亲缘关系类型的平均改进约为1.6，我们在KinFaceW-I上接近最佳。代码可在 https://github.com/ali-nazari/Kinship-Verification 获取。

发布时间: 4/29/2025

查看原文

基于 Transformer 的演员-评论家强化学习在序列感知服务功能链分割中的应用

作者: Cyril Shih-Huan Hsu, Anestis Dalgkitsis, Chrysa Papagianni, Paola Grosso

arXiv:2504.18902v1 宣布类型: 交叉摘要: 在即将到来的6G网络时代，以其前所未有的数据速率、超低延迟和广泛的连接性为特征，有效地管理虚拟网络功能（VNFs）是必不可少的。VNFs是传统的硬件设备的软件替代品，能够实现灵活和可扩展的服务提供。服务功能链（SFCs），以VNFs的有序序列结构化，是协调复杂网络服务的关键。然而，由于严格的延迟约束和有限的资源可用性，在多域网络基础设施中分区SFCs带来了重大挑战。传统的基于优化的方法通常可扩展性较低，而现有的数据驱动方法往往无法在计算效率和有效考虑SFCs固有的依赖性之间取得适当的平衡。为了解决这些限制，我们引入了一个以Transformer为动力的演员-评论家框架，专门用于序列感知SFC分区。通过利用自我注意力机制，我们的方法有效地模拟能够VNFs之间的复杂相互依赖关系，促进了协调和并行的决策过程。此外，我们使用ε-LoPe探索策略以及渐近回报归一化来增强训练稳定性和收敛性。全面的模拟结果表明，所提出的方法在长期内接受率、资源利用率和可扩展性方面优于现有最先进的解决方案，同时实现了快速推理。本研究不仅通过提供一种适用于新兴6G环境中的SFC分区的可扩展和稳健的解决方案，促进了智能网络编排，还将近年来大型语言模型（LLMs）的最新进展与下一代网络的优化相结合。

发布时间: 4/29/2025

查看原文

利用多种表示：3D 面部生物特征融合及其在监控中的应用

作者: Simone Maurizio La Cava, Roberto Casula, Sara Concas, Giulia Orr\`u, Ruben Tolosana, Martin Drahansky, Julian Fierrez, Gian Luca Marcialis

arXiv:2504.18886v1 交叉公告类型摘要：3D面部重建（3DFR）算法基于针对不同应用场景的极限和特性的特定假设。在此研究中，我们探讨了如何利用多种最先进的3DFR算法生成更好的主题表示，最终目标是在具有挑战性的非控制场景中提高面部识别系统的性能。我们还研究了不同的参数和非参数评分融合方法如何利用多种3DFR算法的独特优势，以增强生物特征识别的鲁棒性。为了实现这一目标，我们提出了一种全面分析多种面部识别系统的方法，包括不同的条件，如距离和摄像头设置的变化，以及跨数据集和相同数据集内的情况，以评估所提出的集成方法的鲁棒性。结果表明，不同3DFR算法提供的独特信息可以缓解在多个应用场景上泛化的困难。此外，本研究强调了先进的融合策略在增强基于3DFR的面部识别系统的可靠性方面的潜力，为研究界提供了在实际应用中有效利用它们的关键见解。尽管实验是在特定的面部验证设置中进行的，但提出的基于融合的3DFR方法可以应用于与身份识别不严格相关的面部生物特征识别任务中。

发布时间: 4/29/2025

查看原文

一种简单的ensemble策略用于LLM推理：向着更稳定的文本分类

作者: Junichiro Niimi

arXiv:2504.18884v1 宣告类型: cross 摘要：随着大规模语言模型（LLMs）的发展，LLMs 被应用于各种任务。然而，在现有文献中，LLMs 每次试验结果的变异性及其再现性问题被严重忽视，而实际的人工注解则通过多数投票的方式来解决注释者的分歧。因此，本研究引入了一种简单的集成策略用于使用LLMs进行情感分析。结果显示，使用多个中等规模的LLMs进行多次推断的集成方法比单一尝试使用大型模型更能产生稳健且准确的结果，RMSE 降低了18.6%。

发布时间: 4/29/2025

查看原文

基于协方差的神经影像学分析的 SPD 学习：视角、方法与挑战

作者: Ce Ju, Reinmar J. Kobler, Antoine Collas, Motoaki Kawanabe, Cuntai Guan, Bertrand Thirion

arXiv:2504.18882v1 Announce Type: 横向摘要：神经成像是通过量化不同模态下的连接模式和功能性架构来表征脑活动的关键框架。尽管现代机器学习通过这些数据集显著提高了我们对神经处理机制的理解，但在解码特定任务的特征时，仍然必须应对内在的神经成像限制，例如原始电生理记录中低信噪比、会话间非稳态性和样本量有限等问题。本文综述了基于协方差的神经成像数据的机器学习方法，其中在满秩条件下，通常对称正定（SPD）矩阵编码了通道间的关联性。通过在SPD矩阵空间上装备黎曼度量（例如仿射不变或对数欧几里得），其空间形成一个黎曼流形，从而支持几何分析。我们统一了在这种流形上操作的方法，在SPD学习框架下系统地利用了SPD流形的几何特性来处理协方差特征，从而促进脑成像分析的发展。

发布时间: 4/29/2025

查看原文

TSRM：一种轻量级的时间特征编码架构，用于时间序列预测和缺失值填充

作者: Robert Leppich, Michael Stenger, Daniel Grillmeyer, Vanessa Borst, Samuel Kounev

arXiv:2504.18878v1 通知类型: 交叉摘要：我们提出了一种用于多变量时间序列预测和填充的时间序列表示模型（TSRM）架构。该架构围绕基于CNN的表示层构建，每一层专注于独立的表示学习任务，旨在捕捉多种时间模式，然后是一个基于注意力的特征提取层和一个合并层，旨在聚合提取的特征。该架构的基础配置受到Transformer编码器的启发，核心在于自我注意力机制。在我们的实证评估中，TSRM架构在考虑的所有七个基准数据集上，无论是预测任务还是填充任务，都优于最先进的方法。与此同时，它通过学习参数大幅降低了复杂性。源代码可在https://github.com/RobertLeppich/TSRM获取。

发布时间: 4/29/2025

查看原文

你为什么不应该完全信任ChatGPT：该AI工具在各个学科和软件工程生命周期中错误率的综合分析

作者: Vahid Garousi

arXiv:2504.18858v1 类别: cross 摘要: 背景：ChatGPT 和其他大型语言模型 (LLMs) 在医疗保健、商业、经济学、工程学和软件工程 (SE) 领域中广泛应用。尽管它们很受欢迎，但人们对其可靠性仍然存在担忧，尤其是在不同领域和软件开发生命周期 (SDLC) 阶段的错误率方面。目标：本研究综合分析并量化了 ChatGPT 在主要领域和与 SDLC 阶段相匹配的 SE 任务中的报告错误率。它提供了一个基于证据的观点，表明 ChatGPT 在哪些方面表现出色，哪些方面表现不佳，以及可靠性如何根据任务、领域和模型版本（GPT-3.5、GPT-4、GPT-4-turbo、GPT-4o）而异。方法：进行了多声援文献综述 (MLR)，收集了截至 2025 年的学术研究、报告、基准测试和灰色文献中的数据。考虑了事实性错误、推理错误、编码错误和解释性错误。数据按领域和 SE 阶段分组，并使用箱线图可视化错误分布。结果：错误率在不同领域和不同版本之间有所不同。在医疗保健领域，错误率范围从 8% 到 83%。商业和经济学的错误率从使用 GPT-3.5 时的大约 50% 下降到使用 GPT-4 时的 15%-20%。工程任务的平均错误率为 20%-30%。编程成功率达到 87.5%，尽管复杂的调试仍显示出超过 50% 的错误。在 SE 领域，需求和设计阶段的错误率较低（约 5%-20%），而编码、测试和维护阶段的错误率更为波动（10%-50%）。从 GPT-3.5 升级到 GPT-4 提高了可靠性。结论：尽管有所改进，ChatGPT 在不同领域、任务和 SDLC 阶段仍表现出非可忽略的错误率。在没有人类监督的情况下完全依赖仍然是有风险的，特别是在关键环境中。持续评估和批判性验证是确保可靠性和可信度的关键。

发布时间: 4/29/2025

查看原文

通过维数 wise 位置嵌入操控实现有效的长度外插

作者: Yi Lu, Wanxu Zhao, Xin Zhou, Chenxin An, Chenglong Wang, Shuo Li, Yuming Yang, Jun Zhao, Tao Ji, Tao Gui, Qi Zhang, Xuanjing Huang

arXiv:2504.18857v1 交叉公告类型：交叉摘要：大型语言模型（LLMs）在输入令牌数量超过预训练长度时，往往难以处理和生成连贯的上下文。最近在长上下文扩展方面的进展显著扩展了LLMs的上下文窗口，但需要昂贵的开销来训练具有更长上下文的大型模型。在本文中，我们提出了基于 RoPE 不同隐藏维度的横向位置嵌入操纵（DPE）框架，这是一种无需训练的框架，可通过深入分析 RoPE 的不同隐藏维度来扩展 LLMS 的上下文窗口。DPE 不是均匀地操纵所有维度，而是检测每个维度的有效长度，并找到用于上下文扩展的关键维度。DPE 使用预训练模型的原始位置索引及其嵌入，并操纵关键维度的位置索引以达到其最有效长度。通过这种方式，DPE 在最少的修改下调整预训练模型，同时确保每个维度达到其最佳状态以便扩展。DPE 显著超越了 YaRN 和 Self-Extend 等知名基线。DPE 使 Llama3-8k 8B 无需持续训练即可支持 128k 令牌的上下文窗口，并且可以无缝集成到 Flash Attention 2 中。除了其出色的数据外插能力外，DPE 还通过 RULER 等流行的大上下文基准测试显著改善了模型在训练长度内的表现，例如 Llama3.1 70B，在这些基准测试中性能提高了超过 18 个点。与商业模型相比，即使使用 DPE，Llama 3.1 70B 也优于 GPT-4-128K。

发布时间: 4/29/2025

查看原文