arXiv 论文列表

作者: Harry Li, Gabriel Appleby, Kenneth Alperin, Steven R Gomez, Ashley Suh

arXiv:2504.12422v1 声明类型：横跨多个领域摘要：像网络操作这样的高风险领域需要负责任和可信赖的AI方法。虽然大型语言模型（LLMs）在这些领域中的应用越来越受欢迎，但它们仍然存在虚构现象。这篇研究论文从一个关于LinkQ的案例研究中提供了学习成果，LinkQ是一个开源的自然语言接口，旨在通过迫使LLM在回答问题（QA）时查询知识图谱（KG）以获取真实数据来对抗虚构现象。我们使用一个著名的KGQA数据集对LinkQ进行了定量评估，结果显示该系统优于GPT-4，但在某些问题类别上仍然存在困难，这表明未来需要研究其他查询构建策略以在LLM查询系统中更好地应对。我们使用一个真实的网络安全KG与两位领域专家对LinkQ进行了定性研究，阐述了这些专家的反馈、建议、感知到的局限性以及系统如LinkQ的未来机会。

发布时间: 4/18/2025

查看原文

激活的 LoRA：用于内在属性的微调大语言模型

作者: Kristjan Greenewald, Luis Lastras, Thomas Parnell, Vraj Shah, Lucian Popa, Giulio Zizzo, Chulaka Gunasekara, Ambrish Rawat, David Cox

arXiv:2504.12397v1 Announce Type: cross 摘要：低秩适应（LoRA）已成为一种高效框架，用于微调大型基础模型的权重，并已成为数据驱动地自定义LLMs的首选方法。尽管LoRA能够实现高度定制的行为和能力，但在多轮对话设置中切换相关的LoRA是高度低效的，因为在生成开始之前必须重新计算整个对话历史的关键值（KV）缓存，然后再应用LoRA权重。为了解决这一问题，我们提出了一种激活的LoRA（aLoRA），它将LoRA框架修改为仅适应序列 \emph{之后} 被激活的aLoRA的令牌权重。这一变化使得aLoRA能够接受基础模型的输入字符串的KV缓存，这意味着当需要在链中使用aLoRA时，可以立即激活而无需重新计算缓存。这使得构建我们所称的 \emph{内在特性} 成为可能，即高度专业化地对输入链或对话中的特定部分执行定义明确的操作的模型，而默认情况下这些操作使用基础模型。我们使用aLoRA训练了一组内在特性模型，展示了与标准LoRA相当的准确性，同时实现了显著的推理优势。

发布时间: 4/18/2025

查看原文

Themisto：基于 Jupyter 的运行时基准测试

作者: Konstantin Grotov, Sergey Titov

arXiv:2504.12365v1 跨领域公告类型：交叉学科摘要：在这项工作中，我们提出了一项基准测试，其中包含 Jupyter 笔记本的发展轨迹，并允许测量大语言模型（LLMs）如何利用运行时信息来预测代码输出和代码生成。我们展示了当前一代 LLM 在这些任务上的表现较差，并指出在基于代码的模型开发领域中存在一个显著未被充分研究的领域，即结合运行时上下文。

发布时间: 4/18/2025

查看原文

一种处理文本文档图特征聚类中负相似性的方法——扩展版

作者: Mieczys{\l}aw A. K{\l}opotek, S{\l}awomir T. Wierzcho\'n, Bart{\l}omiej Starosta, Dariusz Czerski, Piotr Borkowski

arXiv:2504.12360v1 类型: cross 摘要：本文探讨了由不同于传统词向量空间（如doc2vec、GloVe等）的文档嵌入产生的负相似性导致的图谱聚类问题。讨论了组合Laplacian和规范化Laplacian的解决方案。实验研究表明，文献中提出以及在本研究中提出的不同解决方案各有优势和不足。研究展示了GloVe嵌入经常导致基于规范化Laplacian的图谱聚类出现问题，尤其是由于负相似性。此外，应用治愈相似性负性的方法可以提高基于组合Laplacian和规范化Laplacian的图谱聚类的准确性，并且可以使得原本为词向量空间嵌入开发的解释方法适用于GloVe嵌入。

发布时间: 4/18/2025

查看原文

揭露大型语言模型中混合专家模型中的隐藏协作

作者: Yuanbo Tang, Yan Tang, Naifan Zhang, Meixuan Chen, Yang Li

arXiv:2504.12359v1 类别: cross 摘要: 基于专家混合适应的语言模型 (MoE LLMs) 在多任务适应性方面通过动态将输入路由到专门的专家中展现了显著的潜力。尽管它们取得了成功，但专家之间的协作机制仍然不够清楚，这限制了这些模型的可解释性和优化。在本文中，我们关注两个关键问题：(1) 识别专家协作模式，以及 (2) 通过专家修剪优化 MoE LLMs。为了解决第一个问题，我们提出了一种层次稀疏字典学习 (HSDL) 方法，以揭示专家之间的协作模式。对于第二个问题，我们引入了贡献感知的专家修剪 (CAEP) 算法，该算法有效地修剪了低贡献的专家。我们的广泛实验表明，专家协作模式与特定的输入类型密切相关，并且在各种任务中具有语义意义。此外，修剪实验表明，我们的方法平均提高了 2.5% 的整体性能，优于现有方法。这些发现提供了关于增强 MoE LLMs 的效率和解释性的宝贵见解，为更好地理解专家交互并提高模型优化提供了清晰的理解。

发布时间: 4/18/2025

查看原文

向核能部门的人工智能观测台迈进：一种前瞻性的治理工具

作者: Aditi Verma, Elizabeth Williams

arXiv:2504.12358v1 安全类型：交叉学科摘要：AI模型正迅速渗透到核能研究和工作的各个方面，但这种渗透对安全、安全性和保障方面的影响尚不为人所完全理解。在本文中，我们呼吁为核能领域创建一种前瞻性的AI治理系统，并创建一个全球AI观测站，作为实施前瞻治理的手段。本文通过引用科学与技术研究、公共政策以及 foresight 研究中的工作，探讨了核能AI观测站以及前瞻性治理系统的轮廓。

发布时间: 4/18/2025

查看原文

利用大型语言模型进行社交媒体上药物使用和过量症状的多分类和多标签检测

作者: Muhammad Ahmad, Muhammad Waqas, ldar Batyrshin, Grigori Sidorov

arXiv:2504.12355v1 类型:交叉摘要：药物过量滥用仍然是一个关键的全球健康问题，通常由阿片类药物、止痛药和精神科药物的误用驱动。传统研究方法存在局限性，而社交媒体则提供了有关自我报告的药物使用和过量使用症状的实时洞察。本研究提出了一种基于注释社交媒体数据训练的AI驱动NLP框架，用于检测常用药物及其相关的过量使用症状。我们通过结合大型语言模型和人工注释者的混合注释策略，应用了传统的机器学习模型、神经网络和先进的基于变换器的模型。我们的框架在多类分类中的准确率为98%，在多标签分类中的准确率为97%，比基线模型高出了最多8%。这些发现突显了AI在支持公共卫生监测和个人化干预策略方面的潜力。

发布时间: 4/18/2025

查看原文

WaterFlow：使用稳定扩散学习快速且 robust 的水印

作者: Vinay Shukla, Prachee Sharma, Ryan Rossi, Sungchul Kim, Tong Yu, Aditya Grover

arXiv:2504.12354v1 公告类型：交叉摘要：在图像中嵌入水印的能力是计算机视觉领域的一个 fundamental 问题，近年来由于生成图像的快速增加，这一问题变得更加突出。当前最先进的技术在实际部署中面临着计算和统计上的挑战，如执行速度缓慢。此外，其他工作在追求快速水印速度的同时，在其鲁棒性和感知质量方面遭受重大损失。在本文中，我们提出了 WaterFlow (WF)，一种基于学习到的潜在依赖水印的快速且极其鲁棒的高质量视觉水印方法。我们的方法利用预训练的潜在扩散模型将任意图像编码到潜在空间，并生成一种学习到的水印，然后将其植入潜在的空间的傅里叶域。该变换通过可逆流层指定，增强了预训练模型的潜在空间的表达能力，从而更好地保持图像质量同时允许稳健且可管理的检测。最值得注意的是，WaterFlow 在通用鲁棒性方面表现出最先进的性能，并且是首款能够有效抵御复杂组合攻击的方法。我们在三个广泛使用的现实和生成数据集中验证了我们的发现：MS-COCO、DiffusionDB 和 WikiArt。

发布时间: 4/18/2025

查看原文

基于深度生成模型的合成个体特异性脑MRI分割生成

作者: Ruijie Wang, Luca Rossetto, Susan M\'erillat, Christina R\"ocke, Mike Martin, Abraham Bernstein

arXiv:2504.12352v1 宣告类型: cross 摘要: 据我们所知，现有的所有能够为特定个体生成合成脑磁共振成像（MRI）扫描的方法都要求有关该个体大脑的详细结构或体积信息。然而，这样的大脑信息往往稀缺、昂贵且难以获取。在本文中，我们提出了一种能够使用个体可轻松获取且通常易于获得的人口统计、访谈和认知测试信息来生成合成脑MRI分割的方法——特别是3D白质（WM）、灰质（GM）和脑脊液（CSF）分割。我们的方法采用了新型的深度生成模型 CSegSynth，该模型在现有的显要的生成模型（包括条件变分自动编码器（C-VAE）、条件生成对抗网络（C-GAN）和条件潜在扩散模型（C-LDM））中表现出色。我们通过广泛的评估展示了我们合成分割的高质量。另外，在评估个体特定生成的有效性时，我们在测试个体的真实WM、GM和CSF体积与基于生成的个体特定分割预测的体积之间的皮尔逊相关系数分别为0.80、0.82和0.70，取得了优异的体积预测效果。

发布时间: 4/18/2025

查看原文

基于原型引导的扩散模型在数字病理学中的应用：在minimal临床数据下实现基础模型性能

作者: Ekaterina Redekop, Mara Pleasure, Vedrana Ivezic, Zichen Wang, Kimberly Flores, Anthony Sisk, William Speier, Corey Arnold

arXiv:2504.12351v1 Announce Type: cross 摘要：数字病理学中的基础模型利用大量数据集来学习复杂病理学图像的有用紧凑特征表示。然而，关于数据集大小与性能之间的相关性的驱动因素缺乏透明度，这提出了一个问题，即增加更多数据是否总是为了提高性能而必要。在本研究中，我们提出了一种基于原型的扩散模型，以大规模生成高保真合成病理学数据，从而实现大规模自我监督学习，同时减少对真实患者样本的依赖，同时保持下游性能。利用采样过程中组织学原型的指导，我们的方法确保生成数据具有生物学和诊断上具有意义的变异。我们证明，尽管使用的数据量仅为大型真实世界数据集中的60倍至760倍，但在我们的合成数据集上训练的自监督特征仍能实现具有竞争力的性能。值得注意的是，使用我们合成数据训练的模型在多个评估指标和任务上显示出了统计上可比或更好的性能，甚至与在数量级更大的数据集上训练的模型相比也是如此。结合合成数据和真实数据的混合方法进一步提升了性能，在多个评估中取得了最佳结果。这些发现强调了生成式AI在数字病理学训练数据创建中的潜力，显著减少了对大量临床数据集的依赖，并突显了我们方法的高效性。

发布时间: 4/18/2025

查看原文