LLM2D

arXiv 论文列表

作者: Pucheng Dang, Di Huang, Dong Li, Kang Chen, Yuanbo Wen, Qi Guo, Xing Hu, Ninghui Sun
arXiv:2504.09474v1 Announce Type: cross 摘要:独立树外内核补丁对于将 Linux 内核适应新硬件或启用特定功能至关重要。从不同内核版本维护和更新这些补丁需要经验丰富工程师的巨大努力。大规模语言模型(LLMs)在各个领域取得了显著进步,表明它们有潜力自动化独立树外内核补丁的迁移。然而,我们的研究发现,尽管前景广阔,LLMs 在理解不完整的代码上下文和识别不准确的迁移点方面仍存在问题。在本文中,我们提出了一种名为 MigGPT 的框架,该框架采用了一种新颖的代码指纹结构来保留代码片段信息,并结合了三个精心设计的模块,以提高独立树外内核补丁迁移的准确性和效率。此外,我们使用真实的独立树外内核补丁项目建立了稳健的基准来评估 LLM 的能力。评估结果显示,MigGPT 显著优于直接应用的通用 LLM,迁移任务的平均完成率为 72.59%(比直接应用的通用 LLM 提高了 50.74%)。
发布时间: 4/15/2025
查看原文
作者: Xin Wen, Shijie Guo, Wenbo Ning, Rui Cao, Jie Xiang, Xiaobo Liu, Jintai Chen
arXiv:2504.09463v1 交叉类型: cross 摘要: 神经发育障碍表现为认知、沟通、行为和适应性的功能障碍,基于深度学习的计算机辅助诊断(CAD)可以在神经影像学方面缓解日益紧张的医疗资源。然而,如功能性磁共振成像(fMRI)等神经影像学包含了复杂的时空特征,这使得相应的表示容易受到各种干扰的影响,从而导致在CAD中的有效性降低。首次提出了一种基于共病信息的转移学习(CITL)框架,用于使用fMRI诊断神经发育障碍。在CITL中,提出了一种新的强化表示生成网络,该网络首先将转移学习与伪标签相结合,从fMRI的时间域中去除干扰模式,并使用编码器-解码器架构生成新的表示。然后,新表示在一个结构简单的分类网络中进行训练,以获得CAD模型。特别地,该框架充分考虑了神经发育障碍的共病机制,并有效地将其与半监督学习和转移学习相结合,提供了一个跨学科的新视角。实验结果表明,CITL在检测自闭症谱系障碍和注意缺陷多动障碍方面分别达到了76.32%和73.15%的竞争准确率,分别优于现有的相关转移学习工作7.2%和0.5%。
发布时间: 4/15/2025
查看原文
作者: Mikael Makonnen, Moritz Vandenhirtz, Sonia Laguna, Julia E Vogt
arXiv:2504.09459v1 类型:交叉 摘要:概念瓶颈模型(CBMs)旨在通过将预测结构化在人类可理解的概念周围来增强可解释性。然而,意外信息泄露,即预测信号绕过概念瓶颈,破坏了其透明度。本文介绍了一种信息论测度来量化CBMs中的泄露,捕捉概念嵌入中编码的超出指定概念的额外、意外信息的程度。我们通过受控的合成实验验证了该测度的有效性,展示了其在各种配置中检测泄露趋势的有效性。我们的研究结果表明,特征和概念维度显著影响泄露,分类器的选择影响测度的稳定性,XGBoost 出现为最可靠的估算器。此外,初步研究表明,当应用于软联合CBMs时,该测度表现出预期的行为,这表明其在合成设置之外的泄漏量化中的可靠性。尽管本研究在受控的合成实验中严格评价了该测度,但未来的工作可以将其应用扩展到实际数据集。
发布时间: 4/15/2025
查看原文
arXiv:2504.09428v1 声明类型:交叉 摘要:由于移动设备的便捷性,网络游戏已成为现实生活中用户娱乐的重要组成部分,从而引发了在线游戏中的朋友推荐需求。然而,现有的方法都无法有效地将多模态用户特征(例如,图像和文本)与友谊图中的结构信息结合起来,这是因为存在以下限制:(1)其中一些方法忽略了用户之间的高阶结构接近性,(2)其中一些方法无法在模态特定级别学习用户的两两相关性,(3)其中一些方法无法同时捕捉用户在不同模态上对局部和全局的偏好。通过解决这些问题,本文提出了一种端到端模型 \textsc{FROG},更好地模型化了潜在朋友的用户偏好。在\kw{Tencent}的离线评估和在线部署中的全面实验已经证明了\textsc{FROG}相较于现有方法的优势。
发布时间: 4/15/2025
查看原文
作者: Shengao Wang, Arjun Chandra, Aoming Liu, Venkatesh Saligrama, Boqing Gong
arXiv:2504.09426v1 宣传类型:交叉 摘要:人类婴儿可以从极少量的输入中迅速发展出视觉推理能力,这表明发展启发式的预训练可以显著提高视觉语言模型(VLMs)的效率。虽然最近的努力已经利用了像SAYCam这样的婴儿启发式数据集,但现有的评估基准仍然存在偏差——它们要么过于简单、范围狭窄,要么定制化于大规模预训练模型。此外,仅在婴儿数据上进行训练忽视了婴儿自然学习所需更广泛、更多样化的输入。为了解决这些局限性,我们提出了BabyVLM,这是一种新的框架,包括全面的领域内评估基准和通过现有数据集的儿童导向转换创建的合成训练数据集。我们展示了使用我们合成数据集训练的VLM在BabyVLM任务上的表现优于仅使用SAYCam或SAYCam规模的通用数据训练的模型。因此,BabyVLM提供了一个稳健的发展对齐评估工具,并展示了通过精心策划的数据训练的小型模型如何有效泛化,从而开辟了数据高效视觉语言学习范式的路径。
发布时间: 4/15/2025
查看原文
作者: Wuyang Lan, Wenzheng Wang, Changwei Ji, Guoxing Yang, Yongbo Zhang, Xiaohong Liu, Song Wu, Guangyu Wang
arXiv:2504.09421v1 Announce Type: cross 摘要:近年来,大语言模型(LLMs)在推理方面取得了显著的进步,特别是在数学和编程领域展示了卓越的推理能力,然而它们在临床诊断中的应用仍然未被充分探索。在这里,我们介绍了ClinicalGPT-R1,这是一种用于疾病诊断的增强推理通用大语言模型。ClinicalGPT-R1基于包含20,000份真实临床记录的数据集进行训练,并利用多样化的训练策略来增强诊断推理。为了评估性能,我们整理了MedBench-Hard,这是一个涵盖七个主要医学专科和代表性疾病的具有挑战性的数据集。实验结果表明,ClinicalGPT-R1在中文诊断任务中优于GPT-4o,在英文环境中达到与GPT-4相当的性能。这项比较研究有效地验证了ClinicalGPT-R1在疾病诊断任务中的优越性能。资源可在https://github.com/medfound/medfound获取。
发布时间: 4/15/2025
查看原文
arXiv:2504.09402v1 类别:交叉学科 摘要:大型语言模型(LLMs)往往在需要深刻理解复杂问题的任务中挣扎,尤其是在面对长程依赖或多步推理时。这项工作调查了当前LLMs在问题理解方面的限制,并揭示了三个洞察:(1)重复问题标记通过增加对问题区域的关注来提高理解能力;(2)增加的后向依赖关系由于单向注意力约束而负面影响性能;(3)重新校准注意力机制以优先考虑相关问题区域能够提高性能。基于这些发现,我们首先提出了一种基于提示的策略家族——逐步阅读(SSR)、SSR+ 和 SSR++,这些策略引导LLMs逐步处理问题标记并将推理与输入结构对齐。这些方法显著提高了性能,其中SSR++在几个基准测试中的结果达到了最先进的水平:在GSM8K上为96.66%,在ASDiv上为94.61%,在AQuA上为76.28%。其次,我们引入了一种无需训练的注意力重新校准机制,该机制在推理过程中动态调整注意力分配以强调相关问题区域。这种方法在不改变模型参数或输入提示的情况下,提高了LLaMA 3.1-8B在AQuA上的准确性达5.17%。共同而言,我们的结果突出了结构化提示设计和注意力优化在提高LLM理解能力方面的重要性,提供了轻量级且有效的工具,以提高各种NLP任务的性能。
发布时间: 4/15/2025
查看原文
作者: Gaurav Kumar, Murali Mohana Krishna Dandu
arXiv:2504.09398v1 类型: cross 摘要:在构建可以应用于多个任务的NLP模型方面已经取得了很大的进展。但是,现实系统中包含多个组件,在处理不同粒度的文本交叉任务时非常繁琐。在这项工作中,我们使用Forte工具包构建了一个端到端的排名和问答(QA)系统。我们在流水线中利用了最先进的深度学习模型,如BERT和RoBERTa,并使用BLUE、MRR、F1等指标在MS-MARCO和Covid-19数据集上评估了系统的性能,还将排名和问答系统的结果与其相应的基准结果进行了比较。我们的流水线模块化的特点以及重排序器的低延迟,使得构建复杂的NLP应用变得非常容易。
发布时间: 4/15/2025
查看原文
arXiv:2504.09396v1 类别:交叉学科 摘要:本文提出了一种结合尾部风险敏感性、宏观经济制度建模和监管合规性的保险索赔预测强化学习(RL)框架。索赔预测问题被公式化为具有有限时间跨度的马尔可夫决策过程(MDP),其中通过条件尾部风险(CVaR)约束下的梯度策略优化(PPO)来优化储备调整。为了增强政策在不同经济条件下的稳健性,代理是通过一种意识宏观经济制度的递增训练课程来训练的,该课程逐步增加市场波动性暴露。 奖励结构惩罚储备短缺、资本效率低下和最低偿付能力要求的违反,设计元素受到偿二代和自身风险与偿付能力评估(ORSA)框架的启发。在两个行业数据集——工伤赔偿和责任保险——上的实证评估表明,基于CVaR的RL代理在多个指标上优于传统的索赔预测方法,包括尾部风险控制(CVaR$_{0.95}$)、资本效率和监管违规率。该框架还支持固定冲击压力测试和分阶段宏观经济分析,提供了一种在不确定性下进行索赔预测的原理性且可扩展的方法。
发布时间: 4/15/2025
查看原文
arXiv:2504.09354v1 类别: cross 摘要: 及时准确诊断神经退行性疾病,如阿尔茨海默病,对于疾病的管理至关重要。现有深度学习模型需要大规模标注数据集,通常作为“黑箱”运作。此外,在临床实践中,数据集经常规模较小或未标注,限制了深度学习方法的全部潜力。为此,我们引入了REMEMBER——基于检索的可解释多模态证据引导建模以评估和推理大脑——一种新的机器学习框架,通过基于参考的推理过程,实现利用脑部MRI扫描进行零样本和少量样本阿尔茨海默病诊断。具体而言,REMEMENT 首先使用专家标注的参考数据训练对比对齐的视图-文本模型,并扩展伪文本模态,以编码异常类型、诊断标签和综合临床描述。然后,在推理时,REMEMENT 从编目的数据集中检索相似的人工验证案例,并通过专用的证据编码模块和基于注意力的推理头,整合其上下文信息。这种基于证据的设计使REMEMENT 能够通过将预测根植于检索到的成像和文本上下文中,模仿现实世界的临床决策过程。具体而言,REMEMENT 输出可解释的诊断预测结果,包括参考影像和与临床工作流程对齐的解释说明。实验结果显示,REMEMENT 在零样本和少量样本情况下表现出稳健的预测性能,并提供了一个强大的可解释框架,用于基于神经影像学的诊断,尤其是在数据有限的情况下。
发布时间: 4/15/2025
查看原文