LLM2D

arXiv 论文列表

作者: Bruno Coelho, Shujaat Mirza, Yuyuan Cui, Christina P\"opper, Damon McCoy
arXiv:2503.22877v1 交叉类型: 公告 摘要:事实核查是大型语言模型(LLMs)对抗不断扩散的虚假信息的一种潜在有用的应用。然而,LLMs在不同地理区域的表现各不相同。在这篇论文中,我们评估了跨不同地区和场景的公开和私有模型的事实准确性。 利用一个包含600个平衡分布在六大全球区域的事实核查陈述的数据集,我们研究了三种事实核查陈述的实验设置:(1)只有陈述可用时,(2)利用拥有维基访问权限的基于LLM的代理时,以及(3)利用提供了官方事实核查的检索增强生成(RAG)系统进行的最佳情况下的场景。我们的研究发现,无论是在哪种场景和使用哪种LLM(包括GPT-4、Claude Sonnet和LLaMA),来自全球北方的陈述在表现上远远好于来自全球南方的陈述。此外,在维基访问代理系统这种更加现实的场景下,这一差距进一步扩大,突显了过于泛化的知识库在处理地区特有的细微差别方面能力有限。这些结果强调了在地理多样性背景下,为了提升LLM事实核查能力,迫切需要更好地平衡数据集和开发稳健的检索策略。
发布时间: 4/1/2025
查看原文
arXiv:2503.22853v1 交叉公告类型:交叉 摘要:本研究评估了像ChatGPT、Claude和Gemini这样的大型语言模型(LLMs)通过上下文学习和思维链提示来学习音乐理论概念的基础能力。利用精心设计的提示(上下文学习)和逐步工作示例(思维链提示),我们探索了如何逐步向LLMs教授越来越复杂的内容,以及人类学习者的教育策略如何应用于教育机器。性能通过使用官方加拿大多伦多皇家音乐学院(RCM)6级考试中的问题进行评估,涵盖了包括音程和和弦识别、调式检测、终止式分类和节奏分析在内的广泛话题。此外,我们还评估了各种音乐编码格式(ABC、Humdrum、MEI、MusicXML)在这些任务中的适用性。所有实验均在有上下文提示和无上下文提示的情况下运行。结果显示,没有上下文时,使用MEI的ChatGPT表现最佳,得分为52%;有上下文时,使用MEI的Claude表现最佳,得分为75%。未来的工作将进一步优化提示,并扩展涵盖更高级的音乐理论概念。本研究有助于更广泛地了解教授LLMs,并适用于教育工作者、学生和人工智能音乐工具的开发者。
发布时间: 4/1/2025
查看原文
arXiv:2503.22851v1 通知类型: 交叉 摘要: 在使用LLM处理非功能性需求(NFR)时,开发人员的行为可能会有所不同(例如,用不同的措辞表达相同的NFR)。稳健的LLM应该在这些变体上输出一致的结果;然而,这一方面仍处于探索阶段。我们提议使用RobuNFR来评估LLM在代码生成中的鲁棒性,涵盖四个NFR维度:设计、可读性、可靠性和性能,采用三种方法:提示变异、回归测试和多样化的工作流。我们的实验表明,当考虑代码生成中的NFR时,RobuNFR揭示了测试的LLM中的鲁棒性问题。具体而言,在提示变异情况下,包含NFR会导致Pass@1降低多达39%,标准差从0.48增加到2.48,与没有NFR(即仅功能)的基线相比。虽然在引入NFR的情况下一般会提高NFR的整体指标,但这也导致了更高的提示敏感性。在回归测试环境中,一些LLM在不同版本之间表现出差异,一个方面(如减少代码臭虫)的改进常常伴随着另一个方面(如正确性降低)的退化,揭示了挑战其鲁棒性的不一致性。当改变工作流时,测试的LLM在两种工作流之间显示出了显著不同的NFR感知代码生成能力:(1)将NFR和功能需求整合到初始提示中,以及(2)在仅功能生成的代码中增强相同的NFR。
发布时间: 4/1/2025
查看原文
作者: Zhen Lin, Hongyu Yuan, Richard Barcus, Qing Lyu, Sucheta Chakravarty, Megan E. Lipford, Carol A. Shively, Suzanne Craft, Mohammad Kawas, Jeongchul Kim, Christopher T. Whitlow
arXiv:2503.22829v1 Announce Type: cross 摘要:非人灵长类动物(NHPs)由于与人类相近的进化关系,在理解人类大脑功能和神经疾病方面发挥着关键作用。准确的NHP大脑组织分割对于理解神经疾病至关重要,但由于标注过的NHP大脑MRI数据稀缺、NHP大脑体积较小、可用成像数据的分辨率有限以及人类和NHP大脑的解剖学差异,这一过程具有挑战性。为了应对这些挑战,我们提出了一种新颖的方法,利用STU-Net和迁移学习,利用从人类大脑MRI数据中获取的知识来增强NHP大脑MRI的分割准确性,尤其是在训练数据受限的情况下。STU-Net与迁移学习相结合,有效地界定了复杂的大脑组织边界,并捕捉到NHP大脑特有的精细解剖细节。值得注意的是,我们的方法在分割丘脑和壳核等具有有限空间分辨率和组织对比度的小亚结构方面显示出改进,这些区域难以分辨,实现了DSC超过0.88,IoU超过0.8,HD95小于7。本研究介绍了一种在NHP中实现多类大脑组织分割的稳健方法,可能加速进化神经科学和与人类健康相关的神经疾病前期临床研究。
发布时间: 4/1/2025
查看原文
作者: Uddhav Bhattarai, Rajkishan Arikapudi, Steven A. Fennimore, Frank N Martin, Stavros G. Vougioukas
arXiv:2503.22809v1 交叉公告类型 摘要:在农业中,手工采摘果实是常见的做法,但拣拾工在非生产性活动上花费的时间可能会使其变得非常低效。准确地识别拣拾与非拣拾活动对于估计拣拾工的效率以及优化劳动力管理和收获过程至关重要。在这项研究中,开发了一个实用系统,用于计算商业草莓采摘中拣拾工的效率。配备了传感器的手动采摘手推车被用来实时记录收获的果实重量、地理定位和手推车的运动。在加利福尼亚圣马莉亚的大规模草莓收获季节,部署了一支这样的手推车车队。然后,收集到的数据被用来训练一个基于CNN-LSTM的深度神经网络,将拣拾工的活动分类为“Pick”和“NoPick”两类。实验评估表明,该CNN-LSTM模型在活动识别方面的表现很有前景,F1分数准确率达到0.974。然后,分类结果被用来计算两个工人效率指标:积极采摘所花费的时间百分比,以及装满一托盘所需的时间。对整个收获季节的数据分析显示,拣拾工平均每花费73.56%的总收获时间积极采摘草莓,平均每托盘装满时间为6.22分钟。这些指标的平均准确率分别为96.29%和95.42%。当在商业规模上集成时,所提出的技术可以帮助种植者进行自动工人活动监控和收获优化,最终有助于减少非生产性时间并提高整体收获效率。
发布时间: 4/1/2025
查看原文
作者: Hanling Zhang, Rundong Su, Zhihang Yuan, Pengtao Chen, Mingzhu Shen Yibo Fan, Shengen Yan, Guohao Dai, Yu Wang
arXiv:2503.22796v1 宣传类型: cross 摘要:文本到图像生成模型,尤其是多模态扩散变换器(MMDiT),在生成高质量图像方面取得了显著进展。然而,这些模型经常面临显著的计算瓶颈,特别是在注意机制中,这阻碍了它们的可扩展性和效率。在这篇论文中,我们介绍了一种名为 DiTFastAttnV2 的后训练压缩方法,旨在加速 MMDiT 的注意机制。通过对 MMDiT 注意模式的深入分析,我们识别出与先前基于 DiT 的方法的关键差异,并提出了头向箭头注意力机制和缓存机制,以动态调整注意头,有效地弥合了这一差距。我们还设计了高效的融合内核以进一步加速。通过利用局部度量方法和优化技术,我们的方法显著缩短了最优压缩方案的搜索时间,仅需几分钟,同时保持了生成质量。此外,借助定制内核,DiTFastAttnV2 在不牺牲视觉保真度的情况下,实现了注意力 FLOPs 68% 的减少和端到端 1.5 倍的速度提升,适用于 2K 图像生成。
发布时间: 4/1/2025
查看原文
作者: Nina Weng, Aasa Feragen, Siavash Bigdeli
arXiv:2503.22782v1 宣告类型: cross 摘要: 基于扩散的生成模型,如去噪扩散概率模型(DDPMs),在图像生成方面取得了显著的成功,但它们逐步去噪的过程仍然不够透明,留下了生成机制的重要方面尚未解释。为了解决这个问题,我们引入了\emph{Patronus},一种受ProtoPNet启发的可解释扩散模型。Patronus将原型网络集成到DDPMs中,使原型的提取以及生成过程能够根据原型激活向量进行条件化。这种设计通过展示学习到的原型及其对生成过程的影响来增强可解释性。此外,该模型支持诸如图像操作之类的下游任务,使得在更透明和可控的条件下进行修改成为可能。而且,Patronus可以通过检测学习到的原型之间的不良相关性来揭示生成过程中的捷径学习。值得注意的是,Patronus完全不需要任何注解或文本提示。这项工作为进一步通过基于原型的可解释性理解并控制扩散模型开辟了新的途径。我们的代码可在\href{https://github.com/nina-weng/patronus}{https://github.com/nina-weng/patronus}找到。
发布时间: 4/1/2025
查看原文
arXiv:2503.22776v1 宣告类型: cross 摘要: 代码迁移是在不同编程语言之间迁移代码库。最近,大型语言模型(LLMs)在软件挖掘方面取得了显著进展。然而,处理源代码的语法结构仍然是一项挑战。经典的方法依靠复杂的模型架构和损失函数,使得它们难以集成到LLM的训练中。本文采用上下文学习(ICL),直接将任务样例集成到输入上下文中,在预训练的LLM中后插入代码结构知识。我们从信息论的角度回顾了ICL中的样例选择,提议基于信息覆盖的项目选择比传统基于相似性和多样性的方法更具精确性和普遍性。为了解决量化信息覆盖的挑战,我们引入了一个代理度量,抽象语法树(CAST)覆盖度。此外,我们为CAST覆盖度最大化制定了不可约问题,并证明它是标准的子模最大化问题。因此,我们提出了一个贪婪算法来实现CAST子模最大化,该算法在多项式时间复杂性内理论上保证了(1-1/e)近似解。我们的方法是第一个在测试时将代码结构知识后插入现有LLM的无训练和模型无关的方法。实验结果表明,我们的方法显著提高了LLM的性能,并揭示了两个有意义的见解:1)代码结构知识可以在推理期间被有效地后插入到预训练的LLM中,即使在训练过程中被忽视;2)扩大模型规模或训练数据并不会导致代码结构知识的产生,强调了明确考虑代码语法结构的必要性。
发布时间: 4/1/2025
查看原文
作者: Saleh Sakib Ahmed, Rashed Uz Zzaman, Saifur Rahman Jony, Faizur Rahman Himel, Afroza Sharmin, A. H. M. Khalequr Rahman, M. Sohel Rahman, Sara Nowreen
arXiv:2503.22771v1 Announce Type: cross 摘要:长期地下水位(GWL)测量对于有效的政策制定和基于年度最大值和最小值的补给估计至关重要。然而,当前方法侧重于短期预测,并缺乏多年适用性,限制了其应用价值。此外,现场测量数据稀少,导致依赖低分辨率卫星数据(如GLDAS)作为机器学习模型的真值,进一步限制了其准确性。为了克服这些挑战,我们首先开发了一个机器学习模型来缓解数据缺口,分别对最高和最低地下水位预测实现了0.855和0.963的$R^2$分数。随后,使用这些预测和井观测数据作为真值,训练了一个上采样模型,该模型使用低分辨率(25公里)的GLDAS数据作为输入以生成高分辨率(2公里)的地下水位数据,并实现了出色的$R^2$分数0.96。我们的方法成功地将GLDAS数据扩展至2003-2024年,以实现高分辨率补给估算,并揭示了关键趋势,便于主动资源管理。我们的方法允许独立于官方认证的压电计数据,将GLDAS地下水储存(GWS)上采样至高分辨率地下水位(GWL),成为决策制定的重要工具。
发布时间: 4/1/2025
查看原文
作者: Amr Alshatnawi, Remi Sampaleanu, David Liebovitz
arXiv:2503.22769v1 交叉类型:宣布型 摘要:人工智能(AI)一直在快速发展,随着2022年末大型语言模型(LLMs)的出现,这种技术在各个领域,包括医学领域的采用机会也不断涌现。这些创新具有巨大的潜力,可以彻底改变并现代化医学教育。我们的研究项目利用大型语言模型来增强医学教育,并通过开发MediTools - AI医学教育来解决工作流程中的挑战。该原型应用程序专注于开发模拟真实临床场景的互动工具,提供医学文献访问,并使用户能够获取最新的医学新闻。我们的第一个工具是一种皮肤病病例模拟工具,使用展示了各种皮肤病的患者真实图片,并允许用户与作为虚拟患者的人工智能语言模型进行互动。该平台允许用户实践他们的诊断技能,提高他们的临床决策能力。该应用程序还配备了两个附加工具:一种增强型PubMed工具,通过与LLMs互动获取更深入的研究论文见解,以及一种提供由LLMs生成的文章摘要的Google新闻工具,适用于各种医学专科。对医学专业人员和学生进行了一项全面的调查,以收集关于MediTools的有效性和用户满意度的初步反馈,为应用程序的进一步发展和完善提供了见解。这项研究展示了人工智能驱动的工具在转变和革命化医学教育方面的潜力,提供了一个可扩展且互动的平台,用于持续学习和技能培养。
发布时间: 4/1/2025
查看原文