LLM2D

arXiv 论文列表

作者: Jakob Schoeffer, Maria De-Arteaga, Jonathan Elmer
arXiv:2504.04243v2 宣告类型: replace-cross 摘要:设计用于辅助人类决策的AI系统通常需要标签示例来训练和评估监督模型。然而,这些标签往往未知,用于估计这些标签的不同方法可能会涉及无法验证的假设或任意的选择。在本文中,我们引入了标签不确定性的概念,并推导出其在高风险AI辅助决策中的重要影响。我们在一个医疗保健背景下进行了一项实证研究,特别关注心脏骤停后复苏的昏迷患者恢复情况的预测。我们的研究显示,即使在对有已知标签的患者进行评估时,标签不确定性的存在可能导致模型表现相似,但在标签未知的患者上预测结果却有很大差异。在说明标签不确定性在此关键背景下的关键伦理影响后,我们讨论了评估、报告和设计方面的要旨。
发布时间: 5/9/2025
查看原文
作者: Peiding Wang, Li Zhang, Fang Liu, Lin Shi, Minxiao Li, Bo Shen, An Fu
arXiv:2503.22688v2 宣布类型: 替换-交叉 摘要:大型语言模型(LLMs)在代码生成任务中展示了卓越的表现,并已成为开发者不可或缺的编程助手。然而,现有的代码生成基准主要评估LLMs在单轮交互中生成的代码的功能正确性,对于它们生成严格遵循用户指令的代码的能力,尤其是在多轮交互场景中的能力,提供了有限的洞察力。在本文中,我们介绍了CodeIF-Bench,这是一个用于评估LLMs在交互式代码生成中遵循指令能力的基准。具体来说,CodeIF-Bench 包含九种与现实世界软件开发要求相一致的可验证指令,这些指令可以通过指定的测试用例独立且客观地验证,从而促进对多轮交互中遵循指令能力的评估。我们使用CodeIF-Bench评估了九种突出的LLMs,并且实验结果揭示了随着任务复杂性、上下文长度以及对话轮次的增加,它们的基本编程能力和遵循指令的能力之间存在显著差异。
发布时间: 5/9/2025
查看原文
作者: Erhan Karakoca, H\"useyin \c{C}evik, \.Ibrahim H\"okelek, Ali G\"or\c{c}in
arXiv:2503.20500v3 Announce Type: replace-cross 摘要:神经接收机近年来已成为一个热门话题,其中接收到的信号可以通过基于数据驱动力的机制,如机器学习和深度学习直接解码。在本文中,我们提出了一种基于两个新颖的神经网络的正交频率分 Multiplexing (OFDM) 接收机,用于执行信道估计和均衡任务,并直接从接收到的同相和正交相位 (IQ) 信号中预测对数似然比 (LLRs)。第一个网络,双注意力变换器 (DAT),采用最先进的 (SOTA) 变换器架构并结合了注意力机制。第二个网络,残差双非局部注意力网络 (RDNLA),利用了并行残差架构并结合了一个非局部注意力模块。本文在不同的信噪比 (SNR) 水平下比较了各种 SOTA 神经接收机架构的位错误率 (BER) 和块错误率 (BLER) 性能。仿真结果表明,DAT 和 RDNLA 在整体性能上均优于传统通信系统和现有神经接收机模型。
发布时间: 5/9/2025
查看原文
作者: Yuheng Ding, Yusong Wang, Bo Qiang, Jie Yu, Qi Li, Yiran Zhou, Zhenmin Liu
arXiv:2503.17656v2 通知类型: 替换-交叉 摘要:天然产物作为来自微生物、动物或植物的代谢物,表现出多样的生物活性,使其在药物发现中至关重要。如今,现有的用于天然产物研究的深度学习方法主要依赖于为特定下游任务设计的监督学习方法。然而,这种单一模型对应单一任务的范式往往缺乏泛化能力,并且在性能提升上仍有很大的改进空间。此外,现有的分子表征方法并不适合与天然产物相关的独特任务。为了解决这些限制,我们基于天然产物的独特特性预训练了一个基础模型。我们的方法采用了一种特别针对天然产物的新型预训练策略。通过结合对比学习和掩码图学习目标,我们强调了分子骨架的进化信息,同时捕捉侧链信息。我们的框架在各种与天然产物挖掘和药物发现相关的下游任务中达到了最先进的(SOTA)结果。我们首先将分类学分类与以合成分子为重点的基线模型进行比较,以证明当前模型在理解天然合成方面的能力不足。通过在基因和微生物层面进行细致分析,NaFM展示了捕捉进化信息的能力。最终,我们的方法在虚拟筛选中的实验展示了富有信息量的天然产物表示,有助于更有效地识别潜在药物候选物。
发布时间: 5/9/2025
查看原文
arXiv:2503.15169v2 宣告类型: 替换交叉 摘要:将大型语言模型(LLMs)应用于医疗信息提取已经成为一种有前景的方法。本研究评估了五种开源LLMs在六项涉及社交媒体数据(乳腺癌、药物调整方案变化、不良妊娠结局、潜在新冠肺炎病例)和临床数据(标签歧视、药物变动讨论)的医疗分类任务中的分类性能。我们报告了所有模型-任务组合的精确率、召回率和F1分数及其95%的置信区间。我们的研究发现,LLMs之间的性能存在显著差异,DeepSeekV3 出现为最强的整体表现者,在四个任务中获得了最高的F1分数。值得注意的是,模型通常在社交媒体任务上表现优于临床数据任务,暗示可能存在特定领域的挑战。尽管参数量较小,GEMMA-3-27B-IT 在召回率方面表现极其出色,而LLAMA4-109B 的表现令人惊讶地不如其前身LLAMA3-70B,这表明更大的参数量并不一定能够保证更好的分类结果。我们观察到模型在精确率与召回率之间存在不同的权衡关系,有些模型倾向于敏感性而另一些则倾向于特异性。这些发现突显了针对医疗应用的任务特定模型选择的重要性,考虑到特定的数据领域和精确率-召回率要求,而不仅仅是模型的大小。随着医疗领域越来越多地采用基于AI的文本分类工具,这项全面的基准测试提供了有价值的模型选择和实施指导,同时也强调了在医疗环境中持续评估和领域适应LLMs的需求。
发布时间: 5/9/2025
查看原文
arXiv:2503.13690v2 通知类型: replace-cross 摘要: 我们提交了对SemEval 2025共享任务中从LLM中遗忘敏感内容的解决方案。我们的方法使用低秩适应进行负偏好优化。我们展示了这种组合如何有效地计算额外的正则化项,这些正则化项有助于遗忘的稳定。我们方法的结果显著超过了共享任务的基础线。
发布时间: 5/9/2025
查看原文
作者: Farnoush Bayatmakou, Reza Taleei, Milad Amir Toutounchian, Arash Mohammadi
arXiv:2503.13309v2 Announce Type: replace-cross 摘要:尽管在计算机辅助诊断(CAD)系统方面取得了进展,乳腺癌仍然是全球女性癌症相关死亡的主要原因之一。近年来,人工智能(AI)在通过乳腺X线摄影进行乳腺癌诊断的先进深度学习(DL)架构开发方面展示了显著的前景。在此背景下,论文侧重于将AI集成到以人为中心的工作流程中,以增强乳腺癌诊断。然而,仍存在一些关键挑战,如依赖详细的肿瘤注释以及在测试过程中容易遗漏视图。为了解决这些问题,我们提出了一个混合、多尺度和多视角Swin Transformer基框架(MSMV-Swin),以增强诊断的稳健性和准确性。提出的MSMV-Swin框架旨在充当决策支持工具,帮助放射科医生更有效地分析多视角乳腺X线摄影图像。更具体地说,MSMV-Swin框架利用Segment Anything Model (SAM)来隔离乳腺叶,减少背景噪声,并实现全面的特征提取。提出的MSMV-Swin框架的多尺度性质不仅考虑了肿瘤特异性区域,还考虑了包围肿瘤的组织的空间特征,捕捉到局部和上下文信息。通过整合上下文和局部数据,MSMV-Swin的输出与放射科医生解读乳腺X线摄影图像的方式保持一致,促进了更好的人机交互和信任。然后设计了一个混合融合结构,以确保在临床实践中只有单个乳腺X线摄影视图可用时,能够抵抗视图缺失的侵袭性。
发布时间: 5/9/2025
查看原文
arXiv:2503.12613v2 宣告类型: replace-cross 摘要:城市并非单一的;它们是不同群体之间在各种需求、价值观和经历上讨价还价的竞技场。传统的城市评估方法——从标准化调查到基于AI的评估——通常依赖单一的共识指标(例如,包容性或安全性的平均衡量标准)。虽然这种聚合简化了设计决策,但也可能会掩盖边缘化群体的独特视角。在本文中,我们呈现了蒙特利尔社区中心研究的研究成果,涉及35名具有不同人口和社会身份的居民,尤其是轮椅使用者、老年人和LGBTQIA2+人士。通过对20个城市场地进行评分和排序任务,我们观察到,分歧是系统性的而非随机的,反映出结构性不平等、不同的文化价值观以及安全和可达性个人体验的差异。 基于这些经验性见解,我们提出了协商对齐,这是一种AI框架,将分歧视为一种必须保留、分析和解决的必要输入。协商对齐建立在多元主义模型的基础上,通过多智能体协商机制动态更新利益相关者偏好,确保没有单一视角被边缘化。我们概述了这种框架如何可以集成到城市分析以及其他决策背景中,以保留少数群体的观点,适应利益相关者不断变化的关切,并提高公平性和问责制。该研究证明,保留和参与分歧,而不是追求人为的一致性,可以在城市设计中产生更公平和响应性的AI驱动结果。
发布时间: 5/9/2025
查看原文
作者: Xiaoxiao Liu, Qingying Xiao, Junying Chen, Xiangyi Feng, Xiangbo Wu, Bairui Zhang, Xiang Wan, Jian Chang, Guangjun Yu, Yan Hu, Benyou Wang
arXiv:2503.08292v2 宣告类型:替换交叉 摘要:大型语言模型(LLMs)在医疗保健系统中越来越多地应用于门诊转诊任务。然而,缺乏标准化的评价标准来评估它们的有效性,尤其是在动态、交互的场景中。在本研究中,我们系统地探讨了LLMs在智能门诊转诊(IOR)系统中管理任务的能力和限制,并提出了一种专门为此类系统设计的全面评价框架。该框架包含两个核心任务:静态评估,专注于评估预定义门诊转诊的能力;动态评估,通过迭代对话评估优化门诊转诊建议的能力。我们的研究发现,LLMs在与Bert-like模型相比时,并未显示出明显的优势,但在互动对话中提出有效问题方面表现出潜力。
发布时间: 5/9/2025
查看原文
作者: Run He, Di Fang, Yicheng Xu, Yawen Cui, Ming Li, Cen Chen, Ziqian Zeng, Huiping Zhuang
arXiv:2503.05423v2 宣告类型: replace-cross 摘要:无示例类增量学习(EFCIL)旨在在不保留示例的情况下顺序学习不同的类别,但容易遭受灾难性遗忘的影响。现有EFCIL方法利用知识蒸馏来缓解遗忘,但仍面临两个关键挑战:语义偏移和决策偏差。具体来说,在学习新任务后,旧任务的嵌入在嵌入空间中发生偏移,由于仅使用新数据进行训练,分类器会偏向于新任务,从而影响旧知识和新知识之间的平衡。为了解决这些问题,我们提出了双投影偏移估计和分类器重构(DPCR)方法来解决EFCIL问题。DPCR通过双投影有效地估计了语义偏移,该方法结合了可学习的变换和行空间投影,以捕捉任务和类别间的偏移。此外,为了减轻决策偏差,DPCR利用岭回归将分类器训练重新表述为重构过程。这个重构过程利用了在估计偏移后经过校准的每个类别协方差和原型中编码的先前信息,从而减少决策偏差。广泛的实验表明,DPCR在各种数据集上有效地平衡了旧任务和新任务,优于最先进的EFCIL方法。
发布时间: 5/9/2025
查看原文