LLM2D

arXiv 论文列表

作者: Xiaotian Lin, Yanlin Qi, Yizhang Zhu, Themis Palpanas, Chengliang Chai, Nan Tang, Yuyu Luo
arXiv:2505.07437v1 类型: cross 摘要:指令微调已成为提高大语言模型(LLM)能力和对齐的关键范式。然而,现有的迭代模型感知数据选择方法因依赖于重复进行完整的数据集模型推理以估计样本在后续训练迭代中的实用性而产生了重大的计算开销,从而形成了一个根本性的效率瓶颈。在本文中,我们提出了一种高效的迭代数据选择框架LEAD,该框架可以在标准训练循环中完整地估计样本的实用性,从而消除额外昂贵的模型推理需求。其核心在于引入了实例级动态不确定性(IDU),这是一种结合瞬时训练损失、基于梯度的损失变化近似以及历史损失信号指数平滑的理论上可靠的有效性函数。为了更高效地处理大规模数据集,LEAD 使用了两阶段的粗糙到精细选择策略,利用多臂bandit机制适当地优先考虑信息性的簇,然后使用IDU来精确选择高效益样本。在四个不同的基准测试中进行的广泛实验表明,LEAD 显著优于现有最佳方法,仅使用培训数据的2.5%即可将平均模型性能提高6.1%-10.8%,并将整体训练时间缩短5-10倍。
发布时间: 5/13/2025
查看原文
arXiv:2505.07393v1 种类:交叉学科 摘要:2022年11月,欧洲和全世界都被一个新的大型语言模型——ChatGPT的诞生震惊。自此之后,学术界和公众在LinkedIn和X(前身为Twitter)等各种公共领域中展开了讨论,旨在了解这一工具及其对社会的好处。专业人士,特别是金融和法律等受监管行业中的专业人员的观点严重缺失。我们希望通过介绍通过与金融科技行业专业人员访谈所进行的实证研究结果来开始填补这一缺口。本文提出了一个问题:一般来说,大型语言模型和特别是ChatGPT在金融科技行业中是如何被采用和使用的?结果表明,尽管我们采访的金融科技专家看到了在未来使用大型语言模型的潜力,但关于如何监管这些模型,以及它们在如金融科技这样受监管的行业中如何被采用的问题仍然存在。本文旨在为现有关于大型语言模型的学术讨论做出贡献,并加深我们对专业视角的理解。
发布时间: 5/13/2025
查看原文
作者: Baoping Cheng, Yukun Zhang, Liming Wang, Xiaoyan Xie, Tao Fu, Dongkun Wang, Xiaoming Tao
arXiv:2505.07381v1 交叉公告类型: cross 摘要:随着视频监控摄像头的数量和分辨率不断增长,传输和存储监控视频的负担在增加。基于香农理论的传统通信方法正面临着优化瓶颈。作为一种新兴的通信方法,语义通信有望突破这一瓶颈并降低视频的存储和传输消耗。现有的语义解码方法通常需要为每个场景训练神经网络许多样本,这既耗时又费力。在这项研究中,我们提出了一种针对监控视频的语义编码和解码方法。首先,提取了草图作为语义信息,并提出了一种草图压缩方法以减少语义信息的比特率。然后,提出了一种图像翻译网络,将草图转换为带有参考帧的视频帧。最后,提出了一种少样本草图解码网络,从草图中重建视频。实验结果表明,所提出的方法在视频重建性能上显著优于基线方法。草图压缩方法可以在几乎不影响视频质量的情况下有效减少语义信息的存储和传输消耗。所提出的方法提供了一种新颖的语义编码和解码方法,只需每个监控场景进行少量训练样本,从而提高了语义通信系统的实用性。
发布时间: 5/13/2025
查看原文
作者: Suleyman Ozdel, Can Sarpkaya, Efe Bozkir, Hong Gao, Enkelejda Kasneci
arXiv:2505.07377v1 类别: cross 摘要:通过将大规模语言模型(LLMs)和虚拟现实(VR)集成到教育技术中,有可能提供沉浸式和互动的学习体验。然而,LLMs 对用户参与度和注意力在教学环境中的影响仍然是开放的问题。在本研究中,我们利用了一个完全由 LLM 驱动的虚拟学习环境,其中同伴和教师都是由 LLM 驱动的,以探讨在这种设置下学生的行为。特别是我们考察了同伴提问行为如何影响学生的参与度、注意力、认知负荷和学习成果,并发现,在 LLM 驱动的同伴学习者提出问题的情况下,学生会展现出更加集中的视觉扫描路径,注意力集中在学习内容上,尤其是在复杂学科中。我们的研究结果表明,同伴问题并没有直接引入额外的认知负荷,因为认知负荷与对学习材料的关注增加密切相关。考虑到这些发现,我们提供了优化 VR 学习空间的设计建议。
发布时间: 5/13/2025
查看原文
作者: David de-Fitero-Dominguez, Antonio Garcia-Cabot, Eva Garcia-Lopez
arXiv:2505.07372v1 宣称类型: cross 摘要:本文提出了一种新的方法,通过利用大型语言模型(LLMs)生成合成数据来增强自化程序修复(APR)。当前的APR系统受到高质量训练数据的限制,这些数据需要涵盖多种编程语言中的各种类型错误。本文提出的方法通过一个两阶段过程解决了这一限制:首先生成合成样本,然后进行严格的质量评估。使用了多种最先进的LLMs,生成了约30,000个跨12种编程语言和13种错误类别包含错误代码与修复代码的配对示例。随后,这些样本根据五个标准:正确性、代码质量、安全性、性能和完整性,进行了跨模型评估。在VulRepair测试集数据集上的实验评估显示,在某些场景中,经过质量筛选的合成数据集在完美预测率方面表现出显著提高,超过了基线和真实提交数据的配置。该方法通过严格的统计测试得到了验证,包括ANOVA和后续Tukey's诚实显著差异分析。此外,最佳配置在使用相对较少计算强度的解码策略的情况下,仍然超过了现有的系统。该研究确立了一个自举范式,在该范式中,LLMs生成并评估自己的训练数据,有可能改变软件工程任务中数据稀缺性的方法,并推动开发稳健且适应性强的自动化代码维护工具。
发布时间: 5/13/2025
查看原文
作者: Chao-Han Huck Yang, Sreyan Ghosh, Qing Wang, Jaeyeon Kim, Hengyi Hong, Sonal Kumar, Guirui Zhong, Zhifeng Kong, S Sakshi, Vaibhavi Lokegaonkar, Oriol Nieto, Ramani Duraiswami, Dinesh Manocha, Gunhee Kim, Jun Du, Rafael Valle, Bryan Catanzaro
arXiv:2505.07365v1 目标类型: cross 摘要: 我们介绍DCASE 2025挑战任务5:一个跨越声音理解多个领域的音频问答(AQA)基准。该任务定义了三个问答子任务(生物声学、时间声音景观和复杂问答)以测试音频语言模型在多种声场景下的交互问答能力。我们描述了数据集的组成(从海洋哺乳动物叫声到声音景观和复杂的现实世界片段),评估协议(具有答案洗牌稳健性的top-1精度),以及基础系统(Qwen2-Audio-7B、AudioFlamingo 2、Gemini-2-Flash)。在开发集上的初步结果进行了比较,显示各模型和子任务之间存在显著差异。这项挑战旨在推进音频理解与推理能力,使其达到人类水平的敏锐度,这对于使AI代理能够有效地感知和交互于世界至关重要。
发布时间: 5/13/2025
查看原文
arXiv:2505.07364v1 交叉研究类型:跨模态医疗图像翻译 摘要:背景与目标。近年来,跨模态医疗图像翻译领域在应对大型精编多模态数据集稀缺的同时,取得了显著的进展,特别是在基于生成对抗网络(GAN)的架构方面展示了有希望的性能。然而,仅有一部分研究评估了这些合成数据在任务相关性能方面的表现,尤其是用于深度模型的训练。方法。我们设计并比较了不同的基于GAN的方法,用于从T1加权MRI数据生成合成的[18F]氟脱氧葡萄糖(FDG)正电子发射断层扫描(PET)图像。我们首先进行了标准的定性和定量视觉质量评估。然后,我们进一步探讨了使用这些假PET数据训练一个设计用来在T1 MRI和FDG PET图像中检测细微癫痫病灶的无监督异常检测(UAD)模型的影响。我们引入了一种针对我们无监督检测任务定制的新颖诊断任务导向质量度量标准,然后使用这些假数据训练一个融合基于Siamese自编码器的深度表示学习模型和OC-SVM密度支持估计模型的用例UAD模型。该模型仅在正常受试者的训练上进行训练,能够检测正常人群模式的任何变化。我们对比了使用35对实时MRI T1正常受试者和35个真实PET图像或从表现最佳的生成模型生成的35个合成PET图像进行训练的模型的检测性能。结果分析在17例接受手术的癫痫患者检查中进行。结果。性能最佳的GAN模型能够生成与正常受试者控制集在结构相似性(SSIM)和峰值信噪比(PSNR)值约为0.9和23.8附近的真实假PET图像,并且在分布上一致(ID)。使用这些合成的正常PET数据训练的最佳UAD模型能够达到74%的敏感性。结论。我们的结果证实,基于GAN的模型最适合于MRI T1到FDG PET的翻译,优于变压器或扩散模型。我们还展示了这些合成数据在训练UAD模型和对癫痫患者临床检查的诊断评估中的诊断价值。我们的代码和规范图像数据集已公开。
发布时间: 5/13/2025
查看原文
作者: Ohjoon Kwon, Changsu Lee, Jihye Back, Lim Sun Suk, Inho Kang, Donghyeon Jeon
arXiv:2505.07345v1 交叉类型: cross 摘要: 大型语言模型(LLMs)在信息检索中广泛用于相关性评估。然而,我们的研究显示,结合两种具有不同架构的不同小型语言模型(SLMs)可以在这一任务上超过LLMs的表现。我们的方法——QUPID——将生成型SLM与基于嵌入的SLM结合起来,在保持比最先进的LLM解决方案更高的相关性判断准确性的同时,还减少了计算成本。这种计算效率使得QUPID在处理每日数百万查询的实际搜索系统中具有高度可扩展性。在跨不同文档类型的实验中,我们的方法在一致性性能提升方面表现优异(Cohen's Kappa值为0.646,而最先进的LLM为0.387),同时推理时间快60倍。此外,当集成到生产搜索管道中时,QUPID将nDCG@5分数提高了1.9%。这些发现表明,模型组合中的架构多样性可以在信息检索系统中大幅提升搜索相关性和操作效率。
发布时间: 5/13/2025
查看原文
作者: Yuan Zhang, Jiacheng Jiang, Guoqing Ma, Zhiying Lu, Haoyang Huang, Jianlong Yuan, Nan Duan
arXiv:2505.07344v1 宣告类型: 交叉 摘要: 在这项工作中,我们提出了GPDiT,这是一种生成预训练自回归扩散变换器,它在连续的潜在空间内统一了扩散模型和自回归模型的长程视频合成优势。与预测离散令牌不同,GPDiT 自回归地使用扩散损失预测未来的潜在帧,从而能够在帧之间自然地建模运动动态和语义一致性。这种连续的自回归框架不仅提高了生成质量,还赋予了模型表示能力。此外,我们引入了一种轻量级的因果注意力变体和一个基于旋转的时间条件机制,提高了训练和推理的效率。广泛的实验表明,GPDiT 在视频生成质量、视频表示能力和少样本学习任务中都取得了很好的性能,强调了其作为连续空间中视频建模有效框架的潜力。
发布时间: 5/13/2025
查看原文
作者: Gabriel Lima, Nina Grgi\'c-Hla\v{c}a, Markus Langer, Yixin Zou
arXiv:2505.07339v1 交叉领域类型:交叉 摘要:肯定性算法已经成为了算法歧视问题的一个潜在解决方案,致力于弥补过去造成的伤害并纠正历史不公正的问题。我们通过两个实验(N=1193)展示了普通人对肯定性算法(明确优先考虑历史上被边缘化群体)在招聘和刑事司法中的看法。我们将这些关于肯定性算法的看法与普通人对优先考虑特权群体(即歧视性的)算法的看法以及与与种族群体无关地做决策的系统(即公平的)的看法进行了对比。我们发现,无论人们的政治倾向和身份如何,人们都对公平算法持乐观态度,而谴责歧视性系统。相反,我们发现对于肯定性算法存在分歧:自由派和少数族裔群体对肯定性系统持与公平系统相同比例的积极看法,而保守派和占主导地位的种族群体则对肯定性算法的看法与歧视性系统相似地消极。我们确定了这些分歧的来源:人们对谁(如果有谁)是边缘化群体的看法存在差异,进而影响了他们对肯定性算法的看法。我们讨论了弥合这些分歧的可能性,以便引导人们共同支持肯定性算法。
发布时间: 5/13/2025
查看原文