arXiv 论文列表

作者: Swetha S, Ram Sundhar K Shaju, Rakshana M, Ganesh R, Balavedhaa S, Thiruvaazhi U

arXiv:2504.09095v1 交叉学科类型：其他摘要：机器理解并生成类似于人类语言的能力，得益于自然语言处理（NLP）的快速发展，这些进展是由生成性人工智能（AI）和大型语言模型（LLMs）推动的，从而彻底改变了客户服务、医疗保健和金融等领域。然而，由于大型数据集训练的LLMs可能会无意中吸收和泄露用户互动中的个人信息（PII），这些能力也引发了严重的隐私问题。深度神经网络的复杂性使得追踪或阻止无意中存储和释放私人信息变得困难，这引发了对基于AI的数据的隐私和安全性的严重关切。本文通过数据提取、模型逆向工程和成员身份推断等攻击手段来检测生成性AI的弱点，从而应对这些挑战。然后开发了一种隐私保护的生成性AI应用程序，能够在处理LLMs之前识别、修改或移除PII，以确保隐私的同时不牺牲功能。此外，研究还考察了诸如Microsoft Azure、Google Cloud和AWS等云平台提供的隐私工具，以保护AI应用程序的能力。最终，本文为生成性AI系统提供了一个基本的隐私范式，重点关注数据安全和道德AI的实施，为更安全和负责任地使用这些工具打开了大门。

发布时间: 4/15/2025

查看原文

SIFT-50M：用于语音指令微调的大型多语言数据集

作者: Prabhat Pandey, Rupak Vignesh Swaminathan, K V Vijay Girish, Arunasish Sen, Jian Xie, Grant P. Strimel, Andreas Schwarz

arXiv:2504.09081v1 宣告类型: cross 摘要: 我们介绍了SIFT（语音指令微调），这是一个包含50M个示例的数据集，旨在用于语音-文本大型语言模型（LLMs）的指令微调和预训练。SIFT-50M基于公开的语音语料库构建，这些语料库总共包含14000小时的语音，并利用了LLMs以及现成的专家模型。该数据集涵盖了五种语言，包括广泛的语音理解以及可控语音生成指令。使用SIFT-50M，我们训练了SIFT-LLM，在指令遵循基准测试中优于现有的语音-文本LLMs，在基础语音任务上也取得了竞争力的表现。为了支持进一步的研究，我们还引入了EvalSIFT，这是一个专门用于评估语音-文本LLMs指令遵循能力的基准数据集。

发布时间: 4/15/2025

查看原文

PQS（剪枝、量化和排序）：神经网络计算中点积的低位宽积累

作者: Vikas Natesh, H. T. Kung

arXiv:2504.09064v1 类型: cross 摘要: 我们提出了PQS，这是一种结合了三种技术的方法——剪枝、量化和排序，以在神经网络计算中实现点积的低比特宽累积。在传统的量化点积计算（例如8位量化）中，部分结果被累积到宽累加器（例如32位）中，以避免在累积中间部分和时发生溢出。然而，这种宽累加器会增加内存带宽使用并降低能效。我们展示了在浮点数中进行迭代的N:M剪枝、之后将结果量化到8位（或更少），以及按排序顺序（从小到大）累积部分产品，可以在不使用宽累加器的情况下实现精确且压缩的模型，其点积长度较短。我们设计、分析并实现了PQS算法，以在多种神经网络中消除推断时的累积溢出。我们的方法在多种图像分类任务中实现了与浮点基线模型相当的模型准确性的同时，将累加器的比特宽减少了2.5倍。

发布时间: 4/15/2025

查看原文

使用监督机器学习模型对航空安全事件进行分类的一种实用方法

作者: Bryan Y. Siow

arXiv:2504.09063v1 安全事件类型：摘要：本文描述了一种实用的方法，使用监督机器学习（ML）模型来协助安全调查人员将航空事件分类为事故或严重事故类别。我们目前部署为ML网络应用的实现是基于从公开可用的航空调查报告中获取的标记数据集进行训练。我们评估了五种监督学习模型（支持向量机、逻辑回归、随机森林分类器、XGBoost和K-最近邻）的选择。本文显示，随机森林分类器在准确性为0.77、F1分数为0.78和MCC为0.51（100次样本运行的平均值）时表现出最佳性能。该研究还探索了在不平衡数据集上应用合成 minority 过采样技术（SMOTE）的效果，总体观察结果显示，在某些模型上，SMOTE调整后性能显著下降，而在另一些模型上则未表现出显著影响。

发布时间: 4/15/2025

查看原文

多模态3D基因组预训练

作者: Minghao Yang, Pengteng Li, Yan Liang, Qianyi Cai, Zhihang Zheng, Shichen Zhang, Pengfei Zhang, Zhi-An Huang, Hui Xiong

arXiv:2504.09060v1 类型: cross 摘要：深度学习技术在计算生物学中的3D基因组各种分析任务中取得了显著进展。然而，对3D基因组知识的整体理解仍然未被充分探索。在这里，我们提出MIX-HIC，这是第一个将3D基因组结构与表观基因组轨迹相结合的多模态基础模型，能够获得统一且全面的语义。为了实现精确的异质语义融合，我们设计了跨模态交互和映射块，以获得稳健的统一表示，从而实现3D基因组知识的准确聚合。此外，我们引入了第一个包含超过一百万对Hi-C接触图和表观基因组轨迹的大规模数据集，用于高质量的预训练，从而使3D基因组的功能含义探索成为可能。广泛的实验表明，MIX-HIC在各种下游任务中可以显著超越现有最先进的方法。这项工作为推进3D基因组研究提供了有价值的数据资源。

发布时间: 4/15/2025

查看原文

塑形记忆：通过动态掩码和概念意识优化在扩散模型中实现多概念遗忘

作者: Gen Li, Yang Xiao, Jie Ji, Kaiyuan Deng, Bo Hui, Linke Guo, Xiaolong Ma

arXiv:2504.09039v1 类型: cross 摘要: 文本到图像（T2I）扩散模型在从文本提示生成高质量图像方面取得了显著成功。然而，在需要选择性遗忘的场景中，如移除版权内容、减少偏见或消除有害概念，它们储存大量知识的能力引发了担忧。尽管现有的遗忘方法可以移除某些概念，但在多概念遗忘方面，由于不稳定性、残留知识的持久性以及生成质量的下降，它们存在困难。为了解决这些挑战，我们提出了一个名为“动态掩码结合概念意识损失”的新颖遗忘框架，该框架适用于扩散模型中的多概念遗忘。我们的“动态掩码”机制根据当前的优化状态动态更新梯度掩码，允许选择性权重修改，从而防止与其他无关知识的干扰。此外，我们的“概念意识损失”明确了遗忘过程，通过 superclass 衔接实现语义一致性，而基于知识蒸馏的正则化损失确保在顺序遗忘过程中之前遗忘的概念仍然被遗忘。我们进行了广泛实验来评估我们的方式。结果表明，我们的方法在遗忘效果、输出保真度和语义连贯性方面优于现有的遗忘技术，特别是在多概念场景中。我们的工作提供了一个针对生成模型的原理性和灵活性强的稳定和高保真遗忘框架。代码将公开发布。

发布时间: 4/15/2025

查看原文

使用深度卷积模型对低分辨率图像进行胸部X光分类，标签存在不确定性

作者: Snigdha Agarwal, Neelam Sinha

arXiv:2504.09033v1 交叉声明类型摘要：深度卷积神经网络在过去几年中一直在许多成像任务上取得了最先进的结果，其中大多数任务涉及高质量的数据。然而，在低分辨率图像上工作仍然非常重要，因为在远程医疗健康访问的场景中，低成本的选项更为重要，而自动化病理识别模型的需求也是首要的。使用低分辨率图像进行医学诊断具有挑战性，因为关键细节可能不易识别。在本文中，我们通过在不同输入图像大小的胸部X光片上实验不同的深度CNN模型，并讨论在不同图像大小下分类的可行性。我们还通过提出随机标签翻转技术利用数据集中的噪声标签。我们使用正前方和侧向研究的多标签分类模型组合。我们的模型在公开可用的CheXpert数据集中训练了14种胸部病理中的5种。我们采用了数据增强、正则化等技术来改进模型，并使用神经网络的决策图来可视化决策过程。我们展示了与原始CheXpert论文中所报告的200个主体的高分辨率图像分类结果进行的比较。对于心肌肥大、实变和水肿这三种病理状况，我们的模型结构获得了3%更高的准确性。

发布时间: 4/15/2025

查看原文

MSCCL++: 为前沿AI应用重新思考GPU通信抽象

作者: Aashaka Shah, Abhinav Jangda, Binyang Li, Caio Rocha, Changho Hwang, Jithin Jose, Madan Musuvathi, Olli Saarikivi, Peng Cheng, Qinghua Zhou, Roshan Dathathri, Saeed Maleki, Ziyue Yang

arXiv:2504.09014v1 类型:跨领域摘要：现代前沿AI应用正在快速发展中的异构新兴硬件设备上进行开发。这要求频繁重新调整AI软件堆栈，以适应从新硬件自下而上的变化，而通用软件库需要时间适应这些变化。因此，实际应用通常会开发针对其特定工作负载和硬件优化的自定义软件堆栈。自定义堆栈有助于快速开发和优化，但会带来大量重复工作，特别是在编写非移植代码方面。本文讨论了一种AI应用的新通信库接口，该接口通过减少重复努力同时保持自定义灵活性，来提供便携性和性能。我们提出了MSCCL++，一种基于关注点分离的GPU通信的新颖抽象：(1) 原语接口提供最小的硬件抽象，作为软件和硬件开发者撰写自定义通信的共同基础，(2) 高级便携接口和特定实现则允许不同硬件环境下的优化。这种方法使得原语接口在不同应用之间具有重用性，同时允许高度灵活的优化。与最先进的基线（NCCL、RCCL 和 MSCCL）相比，MSCCL++ 在聚合通信中实现高达 3.8 倍的速度提升，并在实际AI推理工作中负载中实现高达 15%的性能提升。MSCCL++ 已在微软Azure提供的多个AI服务中投入生产，并被AMD维护的GPU聚合通信库RCCL所采用。MSCCL++ 是开源软件，并可在 https://github.com/microsoft/mscclpp 获取。

发布时间: 4/15/2025

查看原文

MCP 桥：一种轻量级、模型agnostic的RESTful代理，用于模型上下文协议服务器

作者: Arash Ahmadi, Sarah Sharif, Yaser M. Banad

arXiv:2504.08999v1 类型: cross 摘要：大型语言模型（LLMs）越来越多地通过标准接口（如模型上下文协议（MCP））与外部工具进行扩展。然而，当前的MCP实现面临关键限制：它们通常需要通过STDIO传输进行本地进程执行，这使得它们在资源有限的环境中（如移动设备、网页浏览器和边缘计算）无法实用。我们介绍了MCP Bridge，这是一个轻量级的RESTful代理，它可以连接到多个MCP服务器并通过统一的API暴露它们的功能。与现有解决方案不同，MCP Bridge完全不受LLM限制，支持任何后端，不受供应商影响。该系统实现了一种基于风险的执行模型，包含三种安全级别：标准执行、确认流程和Docker隔离，同时保持了与标准MCP客户端的向后兼容性。作为这一服务器端基础设施的补充，我们还开发了一个基于Python的MCP Gemini代理，它可以方便地与MCP工具进行自然语言交互。评估结果表明，MCP Bridge成功解决了直接MCP连接的限制，提供了增强的安全控制和跨平台兼容性，从而使复杂的LLM驱动的应用程序在之前难以访问的环境中变为可能。

发布时间: 4/15/2025

查看原文

向 elders 学习：通过以用户为中心的设计使 LLM 动力聊天机器人更加适用于退休社区

作者: Luna Xingyu Li, Ray-yuan Chung, Feng Chen, Wenyu Zeng, Yein Jeon, Oleg Zaslavsky

arXiv:2504.08985v1 Announce Type: cross 摘要：退休社区中的老年人技术能力和电子健康素养较低，妨碍了他们与数字工具的互动。为了解决这个问题，我们采用以人为中心的方法为当地退休社区设计了一个基于LLM的聊天机器人原型。通过访谈和角色开发，我们优先考虑了易用性和双重功能：简化内部信息检索，提高技术素养和电子健康素养。居民参与的试点试验显示了高满意度和易用性，但也指出了需要进一步改进的领域。根据反馈，我们使用GPT-3.5 Turbo和Streamlit对聊天机器人进行了改进。聊天机器人采用了定制的提示工程来提供简明的回复。实现了可调节字体大小、界面主题和个人化后续回复等功能。未来步骤包括启用语音转文本功能和纵向干预研究。总体而言，我们的结果突显了基于LLM的聊天机器人在为退休社区中的老年人提供易于访问、个性化的互动方式方面的潜力，有助于弥合老年人在退休社区中的素养差距。

发布时间: 4/15/2025

查看原文