LLM2D

arXiv 论文列表

作者: Miaomiao Li, Hao Chen, Yang Wang, Tingyuan Zhu, Weijia Zhang, Kaijie Zhu, Kam-Fai Wong, Jindong Wang
arXiv:2502.04419v2 类型: 交叉 摘要:通过大型语言模型(LLMs)本身生成合成数据集已成为提高LLM性能的一种有前途的方法。然而,LLMs 固有地反映其训练数据中存在的偏差,导致一个关键挑战:当这些模型生成用于训练的合成数据时,它们可能会传播和放大其固有的偏差,这会显著影响下游任务中模型的公平性和稳健性——我们称这种现象为偏差继承。本文介绍了首次系统性地研究、分析和缓解偏差继承的方法。我们通过使用原始数据和LLM增强数据的组合数据集微调LLMs,其中偏差比例代表增强数据的比例,来研究这个问题。通过在10项分类和生成任务中进行系统的实验,我们分析了在不同偏差比例下6种不同类型偏差的表现。我们的结果揭示了偏差继承对下游任务的影响是复杂多样的,影响分类任务和生成任务的方式不同。然后,我们的分析确定了三个关键的对齐偏差因素:价值对齐偏差、群组数据对齐偏差和数据分布对齐偏差。基于这些见解,我们提出了三种缓解策略:基于令牌、基于掩码和基于损失的方法。实验表明,这些策略在各种任务和偏差上表现不同,表明完全缓解偏差继承存在重大挑战。我们希望这项工作能为LLM数据增强的研究提供有价值的见解。
发布时间: 2/10/2025
查看原文
作者: Yi Yu, Botao Ren, Peiyuan Zhang, Mingxin Liu, Junwei Luo, Shaofeng Zhang, Feipeng Da, Junchi Yan, Xue Yang
arXiv:2502.04268v2 任务类型: 替换交叉 摘要:随着有向对象检测(OOD)需求的迅速增加,最近有关从点注释中学习OOD的弱监督检测器的研究引起了巨大关注。在本文中,我们重新思考了这一具有挑战性的任务设置,并提出了Point2RBox-v2。核心原则包括三个方面:1) 高斯重叠损失。它通过将对象视为二维高斯分布,并最小化它们的重叠来学习每个实例的上限。2) 维奥利诺分水岭损失。它通过维奥利诺镶嵌上的分水岭算法学习每个实例的下限。3) 一致损失。它学习两个输出集相对于输入图像及其增强视图的大小/旋转变化。借助一些精心设计的技术,例如边缘损失和复制粘贴,检测器得到了进一步增强。据我们所知,Point2RBox-v2是第一个探究实例之间空间布局以学习点监督OOD的方法。我们的解决方案既优雅又轻量级,尤其是在密集排列场景中,其性能有望与竞争方法相当:在DOTA/HRSC/FAIR1M上的分数分别为62.61%、86.15%、34.71%。代码可在 https://github.com/VisionXLab/point2rbox-v2 获取。
发布时间: 2/10/2025
查看原文
作者: Dylan Zhang, Qirun Dai, Hao Peng
arXiv:2502.04194v2 宣告类型: replace-cross 摘要:高质量的监督微调(SFT)数据对于激发预训练大语言模型(LLMs)的强大能力至关重要。通常,指令与来自其他LLMs的多个响应配对,这些响应往往不符合目标要微调的模型的分布。在较大规模情况下,这可能导致收益递减,甚至损害模型的性能和鲁棒性。我们提出了一种名为**GRAPE**的新型SFT框架,该框架考虑了目标模型的独特特性。对于每个指令,它从各种LLMs中收集响应,并选择由目标模型测量概率最高的响应,表明该响应最符合目标模型的预训练分布;然后进行标准的SFT训练。 我们首先通过一个受控实验评估了GRAPE,其中我们从多个模型中为UltraInteract中的每个问题采样各种解决方案,并使用GRAPE选择的数据对常用的大模型如LaMA3.1-8B、Mistral-7B和Qwen2.5-7B进行微调。与强大的基线相比,GRAPE显著表现出色,包括从最强的模型热化,绝对收益高达13.8%,在基准测试上平均提升13.8%;使用3倍多的数据训练,最大性能提升为17.3%。GRAPE的强大性能在实际场景中得到了验证。我们尝试了Tulu3和Olmo-2的后训练数据。与使用4.5倍多数据训练的强大基线相比,GRAPE平均性能提升6.1%,与最先进的数据选择方法相比,平均性能提升3%。令人惊讶的是,使用数据的1/3和一半的训练周期,GRAPE使LaMA3.1-8B的表现超过了Tulu3-SFT 3.5%。
发布时间: 2/10/2025
查看原文
作者: Aristeidis Panos, Rahaf Aljundi, Daniel Olmeda Reino, Richard E. Turner
arXiv:2502.04098v2 宣告类型: replace-cross 摘要:视觉-语言模型(VLMs)在视觉问答和图像字幕等任务中表现出色。然而,这些模型常受限于所使用的预训练图像编码器,如CLIP,这导致了图像理解错误,从而限制了整体性能。此外,实际应用往往要求模型能够持续适应不断增加的新数据,而这些新数据通常是有限的。为解决这一问题,我们提出了LoRSU(低秩适应与结构更新),这是一种稳健且计算高效的模型选择性更新图像编码器的方法。LoRSU引入了结构化和局部参数更新,有效地纠正了之前错误的数据表现,同时保持了模型的总体鲁棒性。我们的方法利用理论洞察来识别并仅更新最关键的参数,实现了显著的资源效率。具体来说,我们展示了LoRSU相比完整VLM更新的计算开销降低了25倍以上,但并未牺牲性能。在少量样本连续学习设置下的视觉问答任务实验结果验证了LoRSU的可扩展性、效率和有效性,这使其成为资源受限环境中图像编码器适应的有吸引力的解决方案。
发布时间: 2/10/2025
查看原文
作者: Yusuke Miura, Chi-Lan Yang, Masaki Kuribayashi, Keigo Matsumoto, Hideaki Kuzuoka, Shigeo Morishima
arXiv:2502.03804v2 通知类型: replace-cross 摘要:回复正式邮件既耗时又耗认知资源,因为这要求精心设计礼貌的措辞并针对发件人的要求作出合适的回应。尽管具有大规模语言模型(LLMs)的系统旨在简化邮件回复过程,但用户仍需提供详细指令以获得预期输出。因此,我们提出并评估了一种基于问题和答案(QA)的大规模语言模型驱动的方法,让用户通过从收到的邮件中生成的一组简单且短的问题来回复邮件。我们开发了一个原型系统ResQ,并对12名和8名参与者进行了控制实验和实地实验。我们的结果表明,与传统的方法相比,基于QA的方法在回复邮件时提高了效率、减轻了工作负担,并且保持了邮件质量,传统的基于指令的方法要求用户自己构思合适的指令以获得邮件草稿。我们讨论了基于QA的方法如何影响邮件回复过程以及人际关系动态,并且探讨了使用基于QA的方法在人工智能中介沟通中存在的机遇和挑战。
发布时间: 2/10/2025
查看原文
作者: Fred Zhangzhi Peng, Zachary Bezemek, Sawan Patel, Jarrid Rector-Brooks, Sherwood Yao, Alexander Tong, Pranam Chatterjee
arXiv:2502.03540v2 宣告类型: replace-cross 摘要:在这篇论文中,我们探讨了标记去遮蔽顺序如何影响掩码扩散模型(MDMs)的生成质量。我们推导出一个扩展示证下界(ELBO),其中引入了一个规划器来选择在每一步去遮蔽哪个标记。我们的分析表明,替代的去遮蔽策略可以增强生成性能。在此基础上,我们提出了路径规划(P2),这是一种使用预训练的BERT模型或净化器本身来引导去遮蔽决策的采样框架。P2 统一了所有已知的MDM采样策略,并在包括语言生成(上下文学习、代码生成、故事填充、数学推理、反向诅咒纠正)和生物序列生成(蛋白质和RNA序列)等多种领域中显著提高了性能。
发布时间: 2/10/2025
查看原文
作者: Sangjun Han, Taeil Hur, Youngmi Hur, Kathy Sangkyung Lee, Myungyoon Lee, Hyojae Lim
arXiv:2502.03321v2 Announce Type: replace-cross 摘要:形式证明生成的挑战有着丰富的历史,但借助现代技术,我们可能终于到达了在实际数学问题上取得真正进展的阶段。本文探讨了将ChatGPT与基本的搜索技术集成以简化形式证明生成的方法,并特别关注miniF2F数据集。我们展示了将大型语言模型ChatGPT与形式语言Lean(其优点是可以验证)结合使用如何提高形式证明生成的效率和可访问性。尽管非常简单,我们最好的基于Lean的模型在所有已知基准测试中的通过率为31.15%,超过了所有已知基准。我们扩展了实验以包括其他数据集,并使用了其他语言模型,展示了我们的模型在不同环境中的可比性能,从而为我们结果的更细致分析提供了依据。我们的发现为AI辅助形式证明生成提供了见解,表明了形式数学证明未来研究的一个有前景的方向。
发布时间: 2/10/2025
查看原文
作者: Li Pan, Yupei Zhang, Qiushi Yang, Tan Li, Zhen Chen
arXiv:2502.03238v2 通知类型: 替换-跨领域 摘要:最近,计算机辅助诊断已经展示了有希望的性能,有效地缓解了临床医生的工作负担。然而,不同疾病之间的固有样本不平衡导致算法偏向于多数类别,从而导致罕见类别性能不佳。现有的工作将这一挑战形式化为长尾问题,并试图通过解耦特征表示和分类来解决。但由于尾部类别样本不均衡且数量有限,这些工作容易出现偏差的特征表示学习和不足的分类器校准。为了解决这些问题,我们提出了一种新的长尾医疗诊断(LMD)框架,用于平衡长尾数据集上的医疗图像分类。在初始阶段,我们开发了一种关系感知表示学习(RRL)方案,通过鼓励编码器通过不同的数据增强来捕捉内在语义特征,从而提升表示能力。在后续阶段,我们提出了一种迭代分类器校准(ICC)方案,通过迭代校准分类器。这通过生成大量平衡的虚拟特征并以期望最大化方式微调编码器来实现。提出的ICC弥补了少数类别以促进无偏分类器优化,同时保留多数类别的诊断知识。在三个公共长尾医疗数据集上的全面实验表明,我们的LMD框架显著超过了现有最先进的方法。源代码可访问 https://github.com/peterlipan/LMD。
发布时间: 2/10/2025
查看原文
作者: Jeonghoon Kim, Byeongchan Lee, Cheonbok Park, Yeontaek Oh, Beomjun Kim, Taehwan Yoo, Seongjin Shin, Dongyoon Han, Jinwoo Shin, Kang Min Yoo
arXiv:2502.02732v2 宣告类型:替换交叉 摘要:即使在大型语言模型(LLMs)时代,设计带有最优层归一化(LN)策略的Transformer架构,以确保大规模训练稳定性并加速收敛仍然难以实现。为此,我们提出了一个全面的分析基础,用于理解不同LN策略如何影响大规模Transformer训练的动力学。直到最近,预归一化(Pre-LN)和后归一化(Post-LN)长期以来一直主导着标准实践,尽管它们在大规模训练中存在局限性。然而,最近有一些开源大型模型开始默默地采用第三种策略,但没有太多解释。这种策略将层归一化(LN)置于子层的边缘,我们称之为Peri-LN。虽然Peri-LN在实证性能上表现出色,但其具体的机制和优势仍然几乎没有被探索。我们深入的分析表明,Peri-LN在方差增长上取得了理想的平衡——与Pre-LN和Post-LN不同,后者容易导致消失梯度和“大规模激活”。为了验证我们的理论见解,我们在参数量高达32亿的Transformer上进行了大规模实验,显示出Peri-LN在方差增长的平衡性、梯度流动的稳定性以及收敛稳定性方面的持续优势。我们的结果表明,Peri-LN值得在大规模Transformer架构中更广泛地考虑,为最佳LN的放置和应用提供了新的见解。
发布时间: 2/10/2025
查看原文
作者: Satvik Golechha, Maheep Chaudhary, Joan Velja, Alessandro Abate, Nandi Schoots
arXiv:2502.02470v2 宣告类型:替换交叉 摘要:通过聚类提高神经网络可解释性的方法是将模型拆分成可以独立研究的不相交聚类。我们定义了一个聚类度量,并展示了预训练模型通过谱图聚类形成了高度交织的聚类。因此,我们使用一种鼓励形成非交互聚类的“聚类度量损失”函数来训练更模块化的模型。利用自动化可解释性技术,我们展示了我们的方法可以帮助训练更模块化、学习不同且独立的较小电路的模型。我们研究了在MNIST和CIFAR上训练的CNN、在模块加法上训练的小型变压器以及语言模型。我们的方法为训练学习更简单函数且更易解释的神经网络提供了一个有前景的方向。
发布时间: 2/10/2025
查看原文