arXiv 论文列表

作者: Aymane El Firdoussi, Mohamed El Amine Seddik, Soufiane Hayou, Reda Alami, Ahmed Alzubaidi, Hakim Hacid

合成数据在训练大型语言模型方面获得了关注，但质量低劣的数据会损害性能（例如，参见 Shumailov 等人 (2023)；Seddik 等人 (2024)）。一个可能的解决方案是数据剪枝，它根据评分函数（人工或机器反馈）保留仅高质量数据。先前的工作 Feng 等人 (2024) 分析了在合成数据上训练的模型，样本量不断增加。我们通过使用随机矩阵理论来扩展这一点，以推导出在高维设置中，在真实数据和修剪后的合成数据的混合数据上训练的二元分类器的性能。我们的发现确定了合成数据可以提高性能的条件，重点关注生成模型的质量和验证策略。我们还展示了合成标签噪声中的平滑相变，与先前在无限样本极限中的尖锐行为形成对比。玩具模型和大型语言模型的实验验证了我们的理论结果。

发布时间: 10/14/2024

查看原文

面向欧洲语言的跨语言大型语言模型评估

作者: Klaudia Thellmann, Bernhard Stadler, Michael Fromm, Jasper Schulze Buschhoff, Alex Jude, Fabio Barth, Johannes Leveling, Nicolas Flores-Herr, Joachim K\"ohler, Ren\'e J\"akel, Mehdi Ali

大型语言模型 (LLM) 已经彻底改变了多种语言和任务的自然语言处理。然而，在多个欧洲语言中以一致且有意义的方式评估 LLM 性能仍然具有挑战性，尤其是在缺乏多语言基准的情况下。我们针对欧洲语言引入了一种跨语言评估方法。我们采用五种广泛使用的基准的翻译版本，以评估 40 个 LLM 在 21 种欧洲语言中的能力。我们的贡献包括检查翻译基准的有效性，评估不同翻译服务的影響，以及为 LLM 提供一个多语言评估框架，其中包括新创建的数据集：EU20-MMLU、EU20-HellaSwag、EU20-ARC、EU20-TruthfulQA 和 EU20-GSM8K。这些基准和结果将公开发布，以鼓励在多语言 LLM 评估方面进行进一步研究。

发布时间: 10/14/2024

查看原文

基于 SAM 2 的零样本瞳孔分割：超过 1400 万张图像的案例研究

作者: Virmarie Maquiling, Sean Anthony Byrne, Diederick C. Niehorster, Marco Carminati, Enkelejda Kasneci

我们探索了 SAM 2，一个视觉基础模型，在推动注视估计和眼动追踪技术方面的变革潜力。通过显著减少标注时间，降低部署的难度，以及提高分割精度，SAM 2 解决了许多研究人员和从业者面临的关键挑战。利用其零样本分割能力，只需对每个视频进行一次点击即可，我们在超过 1400 万张来自各种数据集的眼部图像上对 SAM 2 进行了测试，包括虚拟现实设置和使用可穿戴眼动追踪器记录的全球最大统一数据集。值得注意的是，在瞳孔分割任务中，SAM 2 的性能与专门针对眼部图像训练的领域特定模型相匹配，在没有微调的情况下，平均交并比 (mIoU) 得分高达 93%。此外，我们还提供了这些广泛使用的数据集的代码和分割掩码，以促进进一步的研究。

发布时间: 10/14/2024

查看原文

超球面上的原型高斯分布：一种可解释深度学习方法

作者: Maximilian Xiling Li, Korbinian Franz Rudolf, Nils Blank, Rudolf Lioutikov

原型学习方法为黑盒深度学习模型提供了一种可解释的替代方案。诸如ProtoPNet之类的方案学习测试图像的哪些部分“看起来像”来自训练图像的已知原型部分，将预测能力与基于案例推理的内在可解释性相结合。然而，现有方法有两个主要缺点：A）它们完全依赖于确定性相似度评分，而没有统计置信度。B）原型以黑盒方式学习，没有人工输入。这项工作引入了HyperPg，一种新的原型表示，它利用了潜在空间中超球体上的高斯分布，具有可学习的均值和方差。HyperPg原型适应潜在空间中聚类的分布，并输出似然评分。新的架构HyperPgNet利用HyperPg从像素级注释中学习与人类概念一致的原型。因此，每个原型代表一个特定的概念，例如颜色、图像纹理或图像主体的一部分。基于基础模型的的概念提取管道提供像素级注释，显著减少了人工标注工作量。在CUB-200-2011和斯坦福汽车数据集上的实验表明，HyperPgNet在使用更少的参数和训练步骤的同时，优于其他原型学习架构。此外，与概念一致的HyperPg原型以透明的方式学习，增强了模型的可解释性。

发布时间: 10/14/2024

查看原文

基于人工智能生成代码增强学习的认知参与技术设计空间探索

作者: Majeed Kazemitabaar, Oliver Huang, Sangho Suh, Austin Z. Henley, Tovi Grossman

大型语言模型（LLM）在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别（NER）方面，现有的基于LLM的方法...

发布时间: 10/14/2024

查看原文

卷积神经网络中超参数重要性评估的有效方法

作者: Ruinan Wang, Ian Nabney, Mohammad Golbabaee

超参数选择是机器学习流程中不可或缺的一环，它深刻影响着模型的鲁棒性、稳定性和泛化能力。鉴于神经网络复杂的超参数空间以及计算资源和时间的限制，优化所有超参数变得不切实际。在这种情况下，利用超参数重要性评估 (HIA) 可以通过缩小搜索空间提供宝贵的指导。这使机器学习从业者能够将优化工作集中在对模型性能影响最大的超参数上，同时节省时间和资源。本文旨在使用一种名为 N-RReliefF 的算法量化卷积神经网络 (CNN) 中一些超参数的重要性权重，为在深度学习领域应用 HIA 方法奠定基础。我们通过对十个流行的图像分类数据集训练超过一万个 CNN 模型进行了广泛的研究，从而获得了一个包含超参数配置实例及其相应性能指标的综合数据集。结果表明，在所研究的超参数中，CNN 模型最重要的五个超参数是卷积层数、学习率、丢弃率、优化器和 epoch。

发布时间: 10/14/2024

查看原文

基于测试驱动的软件实验与 LASSO：一个 LLM 基准测试示例

作者: Marcus Kessel

大型语言模型 (LLM) 已在众多自然语言处理任务中取代了传统方法。然而，在命名实体识别 (NER) 中，现有的基于 LLM 的方法...

发布时间: 10/14/2024

查看原文

社交媒体跨领域论证立场分类基准测试

作者: Jiaqing Yuan, Ruijie Xi, Munindar P. Singh

论证立场分类在识别作者对特定主题的观点方面起着关键作用。然而，在各个领域生成多样化的论证句子对是具有挑战性的。现有的基准通常来自单一领域或专注于有限的主题集。此外，为了进行准确的标记，人工标注非常耗时且费力。为了应对这些挑战，我们建议利用平台规则、现成的专家策划内容和大型语言模型来绕过对人工标注的需求。我们的方法构建了一个多领域基准，包含来自三个来源的 4,498 个主题声明和 30,961 个论证，涵盖 21 个领域。我们在完全监督、零样本和少样本设置下对数据集进行了基准测试，揭示了不同方法的优缺点。我们将在隐蔽处发布本研究中的数据集和代码，以确保匿名性。

发布时间: 10/14/2024

查看原文

数据结构与算法课程中利用 ChatGPT：助教视角

作者: Pooriya Jamie, Reyhaneh Hajihashemi, Sharareh Alipour

将大型语言模型（LLM）如 ChatGPT 整合到计算机科学教育领域正在掀起一场革命。这些模型为丰富学生学习体验和支持助教（TA）提供即时反馈和补充学习资源提供了新的可能性。本研究深入探讨了 ChatGPT 在数据结构与算法（DSA）课程中的应用，特别是在与 TA 监督相结合的情况下。研究结果表明，将 ChatGPT 与结构化提示和积极的 TA 指导相结合，可以增强学生对复杂算法概念的理解，提高参与度，并提升学业成绩。然而，在解决学术诚信问题和 LLM 在处理复杂问题方面的局限性方面，也存在挑战。该研究强调了积极的 TA 参与在减少学生对 AI 生成内容的依赖和放大整体教育影响方面的重要性。结果表明，虽然 LLM 可能有利于教育，但其成功整合需要持续监督以及 AI 与人工指导之间的合理平衡。

发布时间: 10/14/2024

查看原文

基于条件生成模型的脑部MRI T1加权图像和T1映射对比增强合成方法

作者: Moritz Piening, Fabian Altekr\"uger, Gabriele Steidl, Elke Hattingen, Eike Steidl

基于钆的造影剂 (GBCAs) 增强对比度是神经放射学肿瘤诊断的重要工具。基于脑胶质母细胞瘤在注射钆前后进行的脑部 MRI 扫描，我们通过神经网络解决了增强预测问题，并提出了两个新贡献。首先，我们研究了生成模型，更准确地说，条件扩散和流匹配，在虚拟增强中量化不确定性的潜力。其次，我们检查了定量 MRI 的 T1 扫描与 T1 加权扫描的性能。与 T1 加权扫描相比，这些扫描具有物理意义且可比较的体素范围的优势。为了比较这两种具有不相容灰度值的模态的网络预测性能，我们建议使用 Dice 和 Jaccard 得分来评估增强对比度感兴趣区域的分割。在所有模型中，我们观察到 T1 扫描的分割优于 T1 加权扫描。

发布时间: 10/14/2024

查看原文