LLM2D

arXiv 论文列表

作者: Vignesh Ethiraj, Divya Vijay, Sidhanth Menon, Heblin Berscilla
arXiv:2505.07877v1 宣告类型: cross 摘要:通用的大语言模型(LLMs),尽管从开放世界数据中积累了广泛的能力,但在面对实时电信应用中复杂的和专业化的具体需求时,通常表现出亚优性能。这一调查通过细致地微调NetoAI开发的TSLAM-Mini模型来解决这一关键限制。TSLAM-Mini是一个紧凑的(38亿参数)因果语言模型,结构上源自Phi-4 Mini Instruct 4B。微调过程利用了一个由100,000个样本组成的定制数据集,这些样本专门设计以解决20个关键的电信应用场景,涵盖网络基础、IP路由、MPLS、网络安全、自动化、OSS/BSS、RAN、移动核心、卫星通信、伦理AI等领域。该数据集是使用NetoAI的DigiTwin平台策划的,借助venerable网络领域专家和权威RFC文档的细致洞察,通过受到数字孪生范式启发的模拟,捕获了真实世界网络动态的高度保真表示。利用Quantized Low-Rank Adaptation(QLoRA),一种先进的Parameter Efficient Fine-Tuning(PEFT)技术,我们实现了显著的训练效率,并在资源受限的硬件上启用潜在部署。基于一个高容量的LLM(Qwen3-235B-A22B)作为自动裁判的新型评估框架,被确立以严格评估指令遵循准确性和响应质量。实验证据无可辩驳地证明了TSLAM-Mini在电信领域的优越能力,强调了领域特定数据集和PEFT方法在推动智能网络管理方面的深远效果。
发布时间: 5/14/2025
查看原文
arXiv:2505.07875v1 公告类型: 交叉学科 摘要: 信任度评估已成为负责任人工智能开发的基石。特别是在医疗等高风险领域,随着即将出台的法律要求,技术、基于证据和伦理实践的结合变得越来越紧迫。我们主张,医疗领域的人工智能系统开发和部署者应该积极主动,并采取步骤确保这些系统,无论是当前在使用的还是正在开发或计划中的,都能遵守2024年8月生效的AI法案的要求。这样,在2026年8月最相关的法律规定生效时,全面有效的合规性才能得到保障。与AI法案的互动不能被视为形式上的过程。遵守AI法案需要通过积极承诺可信人工智能的伦理原则来实现。这些原则为法案提供了背景,法案多次提及这些原则,并将它们与公共利益的保护联系起来。它们可以用来解释和应用法案的规定,并识别良好的做法,从而随着时间的推移增加人工智能系统的有效性和可持续性。
发布时间: 5/14/2025
查看原文
arXiv:2505.07871v1 交叉类型 摘要:金融情感分析(FSA)给大型语言模型(LLMs)带来了独特的挑战,这些挑战超出了传统情感分析中的挑战,这是因为金融语境中使用的语言具有微妙性。这些模型的能力往往因现有基准数据集如金融短语银行中的情感分类的内在主观性而受挫。这些数据集通常包含未定义的情感类别,反映了注释者的个人视角,导致注释之间存在着显著的差异性。这种差异性导致了在基准测试中对LLMs的不公平期望,即它们被要求猜测人类注释者的主观观点,而没有足够的上下文。在本文中,我们提出了注释员指令辅助提示(AIAP),这是一种新型评估提示,旨在重新定义LLMs中的FSA任务。通过将原本面向人类注释者的详细任务指令整合到LLMs的提示框架中,AIAP旨在标准化人类和机器对情感的理解,提供一种公平且富于上下文的基础情感分析。我们利用从WallStreetBets子版块派生的新数据集WSBS来展示AIAP如何通过使机器操作与精炼的任务定义相一致,显著提升LLMs的性能。实验结果表明,AIAP显著提升了LLMs的性能,提升最高可达9.08。这种上下文感知的方法不仅在性能上带来了增量提升,还引入了一种创新的情感索引方法,利用模型的信心评分。这种方法增强了股票价格预测模型,并从金融情感分析中提取了更多的价值,突显了WSB作为关键金融文本来源的重要性。我们的研究提供了通过改进评估方法来提高FSA的见解。
发布时间: 5/14/2025
查看原文
作者: Suavis Giramata, Madhusudan Srinivasan, Venkat Naidu Gudivada, Upulee Kanewala
arXiv:2505.07870v1 交叉类型:公告 摘要:大型语言模型(LLMs)正越来越多地被应用于各种应用中,引发了对其输出中的公平性和潜在偏差的关键担忧。本文探讨了在元形变测试中优先考虑元形变关系(MRs)作为一种策略,以有效检测LLMs中的公平性问题。考虑到可能的测试用例数量呈指数增长,彻底测试是不切实际的;因此,基于其在检测公平性违规方面的有效性来优先考虑MRs至关重要。我们采用基于句子多样性的方法来计算和排名MRs,以优化故障检测。实验结果表明,与随机优先考虑相比,我们的提出的优先考虑方法可以提高22%的故障检测率,与基于距离的优先考虑相比,可以提高12%的故障检测率,同时减少首次失败所需时间15%和8%。此外,我们的方法在有效性上与基于故障的优先考虑相差不到5%,但在计算成本方面显著降低与故障标签相关的成本。这些结果验证了基于多样性的MR优先考虑在提高LLMs公平性测试的有效性方面的有效性。
发布时间: 5/14/2025
查看原文
作者: Abdullah, Tao Huang, Ickjai Lee, Euijoon Ahn
arXiv:2505.07866v1 类型: cross 摘要:扩散模型 recently 已经成为计算机视觉领域的一种强大方法,并在生成型人工智能领域展现了卓越的表现。能够生成高质量的合成图像,扩散模型已在多种应用中得到成功的应用。然而,与训练和生成这些模型相关的高计算成本仍然是一个重大挑战。这项研究关注于基于扩散的生成模型的效率和推理时间,并强调它们在自然和医学成像中的应用。我们通过将扩散模型分类为三个关键模型——去噪扩散概率模型(DDPM)、隐秘扩散模型(LDM)和小波扩散模型(WDM)——来概述这些模型的最新进展。这些模型在医学成像中起着重要作用,因为快速、可靠且高质量的医学图像对于准确分析异常和疾病诊断至关重要。我们首先研究了 DDPM、LDM 和 WDM 的通用框架,讨论了这些模型在自然和医学成像中填补的计算复杂性差距。然后,我们讨论了这些模型当前的局限性,以及它们在医学成像中的机遇和未来研究方向。
发布时间: 5/14/2025
查看原文
作者: Fan Zhang, Tianyu Liu, Zhihong Zhu, Hao Wu, Haixin Wang, Donghao Zhou, Yefeng Zheng, Kun Wang, Xian Wu, Pheng-Ann Heng
arXiv:2505.07865v1 宣布类型:交叉 摘要:近期的研究已经展示了将单细胞数据建模为自然语言的可行性,并揭示了利用强大的大型语言模型(LLMs)来理解细胞生物学的潜力。然而,对LLMs在语言驱动的单细胞分析任务方面的表现进行全面评估仍未被探索。为了应对这一挑战,我们引入了CellVerse——一个统一的以语言为中心的问题解答基准,该基准整合了四种类型的单细胞多组学数据,并包含了三级单细胞分析任务:细胞类型注释(细胞级别)、药物响应预测(药物级别)和扰动分析(基因级别)。在此基础上,我们系统地评估了160M到671B范围内的14种开源和封闭源LLMs在CellVerse上的表现。实验结果揭示:(1)现有的专家模型(C2S-Pythia)无法在CellVerse的所有子任务中做出合理决策,而通用模型如Qwen、Llama、GPT和DeepSeek家族模型在细胞生物学领域初步展示了理解能力。(2)当前LLMs的表现未达预期,存在很大的改进空间。值得注意的是,在广泛研究的药物响应预测任务中,所有评估的LLMs都没有表现出比随机猜测更好的性能。CellVerse提供了大规模实证的第一个证明,表明在将LLMs应用于细胞生物学方面仍存在重大挑战。通过引入CellVerse,我们为通过自然语言推进细胞生物学奠定了基础,并希望这一范式能促进下一代单细胞分析的发展。
发布时间: 5/14/2025
查看原文
作者: Harry Dong, Bilge Acun, Beidi Chen, Yuejie Chi
arXiv:2505.07861v1 声明类型: cross 摘要: 由于长期代际传播,大语言模型 (LLM) 的数学推理需要大量的计算资源和时间。虽然已经开发出了许多高效的推理方法,并且在语言任务上的性能表现优秀,但这些方法往往会对数学性能造成严重影响。本文提出了一种名为 Caprese 的低成本蒸馏方法,用于从部署高效的推理方法中恢复丢失的能力,主要集中在前向传播块。在原始权重未受干扰的情况下,仅增加约 1% 的额外参数,并使用大约 20K 的合成训练样本,我们能够恢复高效推理方法从大语言模型中丢失的大部分数学能力,但对于指令型大语言模型的语言任务没有造成伤害。此外,Caprese 减少了活跃参数的数量(在 Gemma 2 9B 和 Llama 3.1 8B 模型中减少约 2B),并与现有模型层无缝集成,从而降低了延迟(使用 Qwen 2.5 14B 生成 2048 个标记时降低超过 11% 的延迟)的同时鼓励简洁响应。
发布时间: 5/14/2025
查看原文
作者: Daniel Franzen, Jan Disselhoff, David Hartmann
arXiv:2505.07859v1 任务类型:交叉 摘要:抽象与推理语料库(ARC-AGI)对大型语言模型(LLMs)构成了重大挑战,暴露了它们在抽象推理能力上的局限性。在此项工作中,我们通过在整个训练、生成和评分阶段使用任务特定的数据增强方法,采用了深度优先搜索算法生成多样且高概率的候选解决方案。此外,我们不仅将LLM用作生成器,还用作评分器,利用其输出概率来选择最有前途的解决方案。我们的方法在公共ARC-AGI评估集中达到了71.6%(286.5/400已完成任务)的分数,展示了在现有公开方法中处于领先水平的性能。尽管同时进行的内部工作报告了更高的分数,但我们的方法通过其透明性、可重现性和极低的推理成本而脱颖而出,平均而言,在可获得的硬件上(假设Nvidia 4090 GPU的单价为每小时36美分),每任务的推理成本仅为约2美分。
发布时间: 5/14/2025
查看原文
作者: Siyuan Yan, Mo Zhu, Guo-qing Jiang, Jianfei Wang, Jiaxing Chen, Wentai Zhang, Xiang Liao, Xiao Cui, Chen Zhang, Zhuoran Song, Ran Zhu
arXiv:2505.07858v1 宣布类型: 交叉 摘要:大型语言模型(LLMs)在高效解码方面的需求日益增加,这对依赖于扩展链式思考推理的 OpenAI-o3 和 DeepSeek-R1 等推理密集型架构尤为重要。本文研究了通过密集 LLM 架构的推测性解码技术,以建立加速推理任务的基础见解。虽然利用并行草案验证循环的推测性解码方法被证明是一种有前途的加速技术,但在解码效率的缩放法则方面,与通过预训练->微调->人类反馈的强化学习训练范式开发的常规主干 LLM 相比,仍存在不足之处。在本文中,我们发现了控制草案模型接受率(或解码速度)的对数线性缩放定律(定理 1.1、1.2 和 1.3),涉及三个维度:预训练词元数量、草案模型容量和解码批次大小。基于这些定律,我们实现了 Scylla,以协调流行的 LLM(Llama2/3、Qwen2.5)的多维扩展。实证验证显示,Scylla 在温度 T=0 下比 EAGLE2 的接受率高 1.5-2.2 倍,比 EAGLE3 高 0.3 倍,并且在摘要和 QA 任务上的性能峰值表现尤为突出(图 2)。工业推理引擎部署显示出 Scylla 相对于 EAGLE2 的解码吞吐量提高 2 倍(表 5),验证了系统性缩放对高效 LLM 推理的变革潜力。代码稍后将发布。
发布时间: 5/14/2025
查看原文
作者: Faiza Hassan, Summra Saleem, Kashif Javed, Muhammad Nabeel Asim, Abdur Rehman, Andreas Dengel
arXiv:2505.07857v1 交叉类型: 摘要:为不同的语言开发了多种意图检测预测器,包括英语、中文和法语,然而,乌尔都语——世界上第十大常用语言——的领域仍然发展不足。在常见语言领域,意图检测预测器利用少量样本学习和基于已见过类别的模型预测未见过的类别的策略。然而,乌尔都语缺乏基于少量样本的学习意图检测预测器,传统的预测器则主要集中在模型在训练集中见过的类别上。为了增强乌尔都语特定意图检测,本文介绍了一种独特的对比学习方法,该方法利用未标记的乌尔都语数据重新训练预训练语言模型。这种重新训练增强了大语言模型在下游意图检测任务中的表示学习能力。最后,该方法综合利用预训练的大语言模型和原型信息注意力机制,构建了一个全面的端到端的LLMPIA意图检测管道。在提出的预测管道框架下,它探索了6种不同的语言模型和13种不同相似性计算方法的潜力。提出的框架在两个公开基准数据集ATIS(包含5836个样本)和Web Queries(包含8519个样本)上进行了评估。在ATIS数据集的4-shot和5-shot实验设置下,LLMPIA分别实现了83.28%和98.25%的F1分数,在Web Queries数据集上分别实现了76.23%和84.42%的F1分数。在Web Queries数据集上的额外案例研究中,在相同的训练集和测试集设置下,LLMPIA比最先进的预测器高出了53.55%的F1分数。
发布时间: 5/14/2025
查看原文