arXiv 论文列表

基于 DeBERTa 和动态上下文位置门控的高级自然语言处理框架，实现自动化医疗诊断

作者: Mohammad Ali Labbaf Khaniki, Sahabeh Saadati, Mohammad Manthouri

arXiv:2502.07755v1 交叉公告类型: cross 摘要：本文提出了一种新颖的自然语言处理（NLP）框架，通过结合数据增强、特征提取和分类等高级技术，提高医学诊断的准确性。所提出的方法利用反向翻译生成多样的同义数据集，提高了分类任务的鲁棒性并缓解了过拟合问题。利用解码增强的 DeBERTa（具有动态上下文位置门控的解纠缠注意力），该模型捕获了精细的上下文和位置关系，根据语义上下文动态调整位置信息的影响，生成高质量的文本嵌入。在分类方面，采用注意力基于的前向神经网络（ABFNN），有效聚焦于最相关的特征以提高决策准确度。应用于症状、医学笔记和其他医学文本的分类，此架构展示了其解决医学数据复杂性的能力。结合数据增强、上下文嵌入生成和高级分类机制，提供了一个稳健且准确的诊断工具，具有在自动化医学诊断和临床决策支持方面的潜在应用。该方法证明了所提出的NLP框架在医学诊断中的有效性，实现了99.78%的准确率、99.72%的召回率、99.79%的精确率和99.75%的F1分数。这些指标不仅突显了模型在分类医学文本方面表现出色的准确性和可靠性，还突显了其优于现有方法的优势，使其成为自动化诊断系统中的一款极具前景的工具。

发布时间: 2/12/2025

查看原文

通过结构化鱼er近似及其低秩扩展高效设计LLM优化器

作者: Wenbo Gong, Meyer Scetbon, Chao Ma, Edward Meeds

arXiv:2502.07752v1 交叉类型：cross 摘要：为大型语言模型（LLMs）设计高效且内存要求低、快速收敛的优化器是一个重要且具有挑战性的问题。本文通过结构化鱼er赫芬蔓矩阵（FIM）近似的角度，朝着系统设计这类优化器迈出了一步。我们表明，许多先进的高效优化器可以被视为特定结构假设下FIM近似（在Frobenius范数下）的解决方案。基于这些见解，我们提出了两种适用于LLMs的高效优化器设计建议，涉及精心选择结构假设以平衡通用性和效率，并通过一种新颖的低秩扩展框架增强具有通用结构的优化器的内存效率。我们展示了如何使用每种设计方法来推导新的内存高效优化器：行和列比例化的随机梯度下降（RACS）和自适应低维子空间估计（Alice）。在对LLaMA预训练（多达1B参数）的实验中，验证了这些方法的有效性，显示出了比现有内存高效的基线和Adam更快且更好的收敛速度，且几乎没有内存开销。值得注意的是，Alice在内存开销方面优于Adam两倍的收敛速度，而RACS在1B模型上表现出与随机梯度下降（SGD）类似的内存效率，同时性能强劲。

发布时间: 2/12/2025

查看原文

PFedDST: 面向个性化 Federated Learning 的去中心化选择训练

作者: Mengchen Fan, Keren Li, Tianyun Zhang, Qing Tian, Baocheng Geng

arXiv:2502.07750v1 Announce Type: cross 摘要：分布式学习（DL）能够在多个设备上训练机器学习模型，但面临着非同态数据分布和设备能力差异等挑战，这些挑战会妨碍训练效率。传统的联邦学习（FL）设置中，通信瓶颈进一步复杂化了这些问题。为了解决这些问题，我们提出了个性化去中心化选择训练的联邦学习（PFedDST）框架。PFedDST 通过允许设备根据综合通信得分战略性地评估和选择同伴来增强模型训练。该得分结合了损失、任务相似性和选择频率，确保最佳的同伴连接。这种选择策略旨在增加本地个性化，并促进有益的同伴合作，以增强训练过程的稳定性和效率。我们的实验表明，PFedDST 不仅提高了模型准确性，还加速了收敛。该方法在处理数据异质性方面优于现有方法，能够在多种分散系统中实现更快、更有效的训练。

发布时间: 2/12/2025

查看原文

WHODUNIT：侦探检测评价基准在悬疑故事中的应用

作者: Kshitij Gupta

arXiv:2502.07747v1 交叉类型公告摘要：我们提出了一种新颖的数据集，名为WhoDunIt，用于评估大型语言模型（LLM）在叙述性语境中的演绎推理能力。该数据集由开放领域内的悬疑小说和短故事构建而成，旨在挑战LLM在阅读和理解故事后识别兇手的能力。为了评估模型的稳健性，我们应用了多种字符级别的名称增强方法，包括原名、名称互换以及用知名的真实或虚构实体进行替换。此外，我们还使用了各种提示风格，以研究提示风格对演绎推理准确性的影响。我们通过多次试验，并采用多数响应选择来评估最先进的模型，特别是GPT-4o、GPT-4-turbo和GPT-4o-mini。结果显示，虽然LLM在未修改的文本上表现稳健，但在某些名称替换后，尤其是那些广为人知的名称替换后，准确度会降低。该数据集已公开可供下载。

发布时间: 2/12/2025

查看原文

下一区块预测：通过半自回归建模生成视频

作者: Shuhuai Ren, Shuming Ma, Xu Sun, Furu Wei

arXiv:2502.07737v1 交叉类型: cross 摘要: 下一个词预测(NTP)是自回归(AR)视频生成的一种事实上的方法，但这种方法遭受着次优的单向依赖性和缓慢的推理速度。在本文中，我们提出了一种半自回归(半AR)框架，称为下一个块预测(NBP)，用于视频生成。通过均匀地将视频内容分解为等大的块（例如，行或帧），我们将生成单元从个体词元转移到块，允许当前块中的每个词元同时预测下一个块中的对应词元。与传统的AR建模不同，我们的框架在每个块内采用双向注意力，使词元能够捕捉更 robust 的空间依赖性。通过并行预测多个词元，NBP模型显著减少了生成步骤的数量，从而提高了推理速度和效率。我们的模型在UCF101和K600上的FVD分数分别为103.3和25.5，相比于传统的NTP模型平均提高了4.4。此外，得益于减少的推理步骤数量，NBP模型每秒可以生成8.89帧（128x128分辨率），实现了11倍的加速。我们还探索了从700M到3B参数的模型规模，观察到生成质量有了显著提高，UCF101上的FVD分数从103.3降至55.3，K600上的FVD分数从25.5降至19.5，展示了我们方法的可扩展性。

发布时间: 2/12/2025

查看原文

边缘耳识: 适用于边缘设备的高效准确耳识别

作者: Camile Lendering, Bernardo Perrone Ribeiro, \v{Z}iga Emer\v{s}i\v{c}, Peter Peer

arXiv:2502.07734v1 交叉公告类型摘要：耳纹识别是一种无接触且不侵扰的生物识别技术，在多个领域都有广泛应用。然而，要在资源受限的设备上部署高性能的耳纹识别模型颇具挑战，限制了其应用范围和普及率。本文介绍了一种基于混合CNN-变压器架构的EdgeEar轻量级模型，以解决这一问题。通过在特定的线性层中引入低秩近似，EdgeEar将其参数量减少了50倍，使其参数量低于200万，同时保持了竞争力的准确率。在未约束耳纹识别挑战（UERC2023）基准测试中的评估显示，EdgeEar在降低计算成本的同时实现了最低的EER。这些发现证明了高效且准确的耳纹识别是可行的，我们认为这将有助于耳纹生物识别的更广泛应用。

发布时间: 2/12/2025

查看原文

人类数据来源的经济分析

作者: Sebastin Santy, Prasanta Bhattacharya, Manoel Horta Ribeiro, Kelsey Allen, Sewoong Oh

arXiv:2502.07732v1 类型: cross 摘要：人工智能的进步依赖于人类生成的数据，从注释员市场到更广泛的互联网。然而，大规模语言模型的普遍使用现在威胁到了这些平台上人类生成数据的质量和完整性。我们argue认为，这个问题不仅仅在于过滤AI生成的内容——它揭示了数据收集系统设计中更深层次的问题。现有的系统通常为了速度、规模和效率而牺牲内在的人类动机，导致参与度和数据质量下降。我们建议重新思考数据收集系统的设计，以与贡献者的内在动机相一致，而不是仅仅依赖外部激励，这可以帮助在大规模范围内维持高质量的数据来源，同时保持贡献者的信任和长期参与。

发布时间: 2/12/2025

查看原文

在使用Ada/SPARK进行软件验证的背景下验证LLM生成的代码

作者: Marcos Cramer, Lucian McIntyre

arXiv:2502.07728v1 Announce Type: cross 摘要：大型语言模型（LLMs）展示了令人瞩目的代码生成能力，但生成代码的正确性无法从根本上受到信任。本文探讨了使用形式软件验证，特别是Ada语言的SPARK框架，来确保LLM生成代码的可靠性的可行性。我们介绍了Marmaragan工具，该工具利用LLM为现有程序生成SPARK注释，从而实现代码的形式验证。该工具在一组精心策划的SPARK程序上进行了基准测试，并从基准中选择性地移除了注释以测试特定的功能。Marmaragan在基准测试中与GPT-4o结合使用的性能令人鼓舞，正确注释被生成了基准案例的50.7%。结果为未来结合LLM的强大功能与形式软件验证的可靠性奠定了基础。

发布时间: 2/12/2025

查看原文

TMLC-Net：可迁移元标签修正用于嘈噪声标签学习

作者: Mengyang Li

arXiv:2502.07721v1 跨领域元学习器类型: 综合摘要：实际数据集中噪声标签的普遍存在对深度学习模型的有效部署构成了重大障碍。尽管已经出现了用于解决这一挑战的元学习策略，但现有方法往往存在转移性有限和任务特定设计的问题。本文介绍了一种名为 TMLC-Net 的新型可转移元学习器，旨在克服这些限制。TMLC-Net 学习了一种通用的标签矫正策略，可以在多种数据集和模型架构上直接应用，无需进行大量的重新训练或微调。我们的方法整合了三个核心组件：（1）归一化噪声感知，该组件捕获和归一化训练动力学以应对分布迁移；（2）时间序列编码，利用循环神经网络建模样本统计特性的时空演变；以及（3）子类解码，该组件基于学习的表示预测纠正后的标签分布。我们在包含各种噪声类型和水平的基准数据集上进行了广泛的实验，结果显示 TMLC-Net 在准确性和对标签噪声的鲁棒性方面均优于现有最先进的方法。此外，我们分析了 TMLC-Net 的可转移性，展示了其针对新数据集和噪声条件的适应性，并确立了其作为在噪声环境中广泛适用的鲁棒深度学习解决方案的潜力。

发布时间: 2/12/2025

查看原文

AI驱动的个性化隐私助手分类研究

作者: Victor Morel, Leonardo Iwaya, Simone Fischer-H\"ubner

arXiv:2502.07693v1 交叉公告类型：研究报告摘要：为了帮助用户做出与隐私相关的选择，近年来基于人工智能技术开发了个性化隐私助手。这些基于人工智能的个性化隐私助手（AI驱动的PPA）可以为用户提供显著的好处，尤其是在充斥着大量隐私相关决策请求的环境中，用户可能会难以做出关于他们个人数据的决定。然而，目前没有系统地调查这些基于人工智能的PPA的特点、其底层技术或决策准确性。为了填补这一空白，我们提出了一种知识系统化（SoK）来映射科学文献中发现的现有解决方案。我们在过去十年（2013-2023）中筛选了1697篇独特的研究论文，构建了一个由39篇纳入论文组成的分类体系。因此，这项SoK以出版物类型、贡献、方法学质量和其他定量洞察等方面，回顾了现有关于AI驱动的PPA的研究。此外，我们还提供了一个全面的分类体系，深入探讨了这些AI驱动的PPA的架构选择、系统背景、使用的AI类型、数据来源、决策类型以及对决策的控制等方面。基于我们的SoK，我们进一步指出了研究缺口和挑战，并提出了关于设计和开发AI驱动的PPA的建议以及未来研究的方向。

发布时间: 2/12/2025

查看原文