arXiv 论文列表

作者: Ting-Ju Wei, Chuin-Shan Chen

arXiv:2411.06565v3 宣布类型: replace-cross 摘要：机器学习的迅速发展为材料科学提供了无数机会，尤其是在加速材料的设计和分析方面。然而，在获取高质量的材料数据集方面仍存在重大挑战，且成本高昂。虽然基于大型数据集预训练的基模型已经在自然语言处理等领域通过转移学习利用潜在特征取得了优异的成绩，但在材料科学领域的应用仍然有限。在这里，我们介绍了一种专门针对复合材料的基模型。该模型在短纤维复合材料的数据集上预训练，以学习稳健的潜在特征，在转移学习中即使训练数据有限也能准确预测均质化刚度。此外，通过将这些学习到的特征转移到基于相互作用的材料网络中，该模型能够有效预测材料的非线性行为，这是一种本构代理模型。这些结果表明，我们的基模型能够捕捉复杂材料行为的潜力。我们的研究结果验证了基模型在复合材料中的可行性和有效性。我们期望将此方法扩展到更复杂的三维复合材料、多晶材料等领域。此外，该框架即使在实验数据稀缺的情况下也能实现高精度预测，为更高效和成本效益更高的材料设计和分析铺平了道路。

发布时间: 4/10/2025

查看原文

GWQ: Gradient-意识权重量化for大型语言模型

作者: Yihua Shao, Yan Gu, Siyu Chen, Haiyang Liu, Zijian Ling, Minxi Yan, Ziyang Yan, Chenyu Zhang, Michele Magno, Haotong Qin, Yan Wang, Jingcai Guo, Ling Shao, Hao Tang

arXiv:2411.00850v3 宣布类型: 替换-交叉摘要：大型语言模型（LLMs）在解决复杂语言任务方面表现出色。然而，其庞大的参数数量为部署带来了巨大的挑战。因此，将LLMs压缩到低位数可以使其能够在资源受限的设备上部署。为了解决这一问题，我们提出了一种基于梯度的权重量化（GWQ）方法，这是第一个利用梯度来定位异常值的低位数权重量化方法，只需少量校准数据即可进行异常值检测。GWQ 优先在FP16精度下保留最好的1%异常值，而其余非异常值权重则以低位数存储。我们广泛评估了GWQ在包括语言建模、地面检测、大规模多任务语言理解以及视觉-语言问答在内的不同任务上。结果表明，使用GWQ量化的模型比其他量化方法表现更好。在量化过程中，GWQ 只需一个校准集即可实现有效的量化。此外，GWQ 在与原始模型相比时实现了1.2倍的推理加速，并有效减少了推理内存消耗。

发布时间: 4/10/2025

查看原文

Bio2Token：使用Mamba的任意生物分子结构的所有原子token化

作者: Andrew Liu, Axel Elaldi, Nathan Russell, Olivia Viessmann

arXiv:2410.19110v3 更新类型: 替换-交叉摘要：高效地编码和表示大型高保真3D分子结构对于生物分子设计应用至关重要。尽管如此，许多表示学习方法仍然限制在建模较小的系统或使用系统的粗粒度近似，例如在氨基酸残基的分辨率上建模蛋白质，而不是在原子水平上建模。为解决这一问题，我们开发了量化自动编码器，能够学习完整的蛋白质、RNA和小分子结构的原子级标记，重建准确性低于1埃。我们证明，简单的Mamba状态空间模型架构相比SE(3)不变的IPA架构更高效，达到了可竞争的准确性，并且可以扩展到几乎有10万个原子的大系统。bio2token 学习到的结构标记可能在未来作为所有原子生成模型的输入使用。

发布时间: 4/10/2025

查看原文

ELOQ：增强LLM检测(out-of-scope)问题的资源

作者: Zhiyuan Peng, Jinming Nian, Alexandre Evfimievski, Yi Fang

arXiv:2410.14567v3 宣告类型: 替换-交叉摘要：大型语言模型（LLMs）在对话式AI系统中广泛用于生成对用户查询的响应。然而，许多自然问题缺乏明确的答案。现有研究主要集中在虚假前提这类问题上，但往往忽略了范围内问题（out-of-scope questions），即提供的文档在语义上与查询非常相似，但并不包含所需的答案。在本文中，我们提出了一种指导式的幻觉方法，以高效地从给定文档集合中生成多样化的范围内问题。然后，我们根据LLMs在混淆检测和适当响应生成方面的有效性进行评估。此外，我们介绍了一种改进的检测范围内问题的方法，增强了基于LLM的问题回答系统的可靠性。

发布时间: 4/10/2025

查看原文

人类和大语言模型偏见在仇恨言论标注中的体现：注释人员和目标的社科demographic分析

作者: Tommaso Giorgi, Lorenzo Cima, Tiziano Fagni, Marco Avvenuti, Stefano Cresci

arXiv:2410.07991v5 通知类型: replace-cross 摘要：在线平台的兴起加剧了仇恨言论的传播，迫切需要可扩展且有效的检测方法。然而，仇恨言论检测系统的准确性高度依赖于人工标注的数据，而人工标注数据本身极易受到偏见的影响。尽管先前的研究探讨了这一问题，但注释者特性和目标特性的相互作用仍未被探索。我们通过利用一个包含丰富的人口统计信息的广泛数据集，同时涉及注释者和目标，揭示了人类偏见在与目标属性相关时的表现方式。我们的分析揭示了普遍存在的偏见，并基于其强度和普遍存在性进行量化描述和特征化，揭示了显著差异。此外，我们将人类偏见与基于人物的LLM偏见进行比较。我们的研究结果表明，虽然基于人物的LLM确实表现出偏见，但这些偏见与人类注释者的偏见存在显著差异。 Overall, 我们的工作提供了关于仇恨言论注释中人类偏见的新颖且详细的成果，并为AI驱动的仇恨言论检测系统的设计提供了新的见解。

发布时间: 4/10/2025

查看原文

LLM 沙龙是一把双刃剑：利用假阳性进行服务拒绝攻击

作者: Qingzhao Zhang, Ziyang Xiong, Z. Morley Mao

arXiv:2410.02916v3 安全通告类型: replace-cross 摘要：对于开放部署的大语言模型（LLMs），安全性是一个至关重要的考量因素，这促使人们开发出通过安全对齐或护栏机制来确保伦理和负责任使用的保护方法。利用保护方法的假阴性而发起的逃逸攻击已成为LLM安全领域中的一个重点关注方向。然而，我们发现恶意攻击者也可以利用保护方法的假阳性，即使保护模型错误地阻止了安全内容，从而导致服务中断（DoS），影响LLM用户。为了弥补这一被忽视的威胁的知识空白，我们探索了多种攻击方法，包括向用户提示模板中插入简短的敌对提示，以及通过被污染的微调来破坏服务器上的LLM。无论是哪种方式，攻击都会从客户端触发保护模式拒绝用户请求。我们的评估证明了这一威胁在多种场景中的严重性。例如，在白盒敌对提示注入的情景中，攻击者可以使用我们的优化过程自动生成看似安全但实际上能普遍阻止单个用户超过97%请求的敌对提示，这些敌对提示大约只有30个字符长。这些发现揭示了LLM保护评估中一个新的维度——对手对抗鲁棒性，特别是针对假阳性。

发布时间: 4/10/2025

查看原文

使用针对高时间分辨率静止卫星图像的应用，基于不确定性感知的深度学习进行热带气旋的中心定位

作者: Ryan Lagerquist, Galina Chirokova, Robert DeMaria, Mark DeMaria, Imme Ebert-Uphoff

arXiv:2409.16507v2 通知类型: 更改交叉摘要: 确定热带气旋（TC）表面环流中心的位置——“中心定位”——是热带气旋预报过程中的一个关键第一步，影响当前和未来对路径、强度和结构的估计。尽管最近自动中心定位方法有所增加，但目前仅有一种方法（ARCHER-2）处于运行状态，其最佳性能是在使用微波或散射计数据时实现的，但这些数据并不是在每个预报周期可用。我们开发了一种名为GeoCenter的深度学习算法；除了运行中的ATCF中的一些标量值外，它仅依赖于静止轨道红外卫星图像，这些图像在昼夜均可高频（10分钟间隔）和低延迟（<10分钟）情况下对所有TC盆地可用。GeoCenter接受一个IR图像动画（时间序列），包括滞后时间最长4小时内的9个通道图像。动画以“首次估算”位置为中心，偏离真正的TC中心位置平均48公里，有时超过100公里；GeoCenter的任务是纠正这种偏差。在独立测试数据集中，GeoCenter的均值/中值/RMS（均方根）误差分别为所有系统26.6/22.2/32.4公里，热带系统24.7/20.8/30.0公里，2-5类飓风系统14.6/12.5/17.3公里。这些值与使用微波或散射计数据时的ARCHER-2误差相似，且仅使用红外数据时优于ARCHER-2的误差。GeoCenter还能进行有效的不确定性量化，生成一个校准得很好的包含150个TC中心位置的集合。此外，GeoCenter所使用的所有预测器均可实时获取，这将使GeoCenter能在每10分钟内操作性地实施。

发布时间: 4/10/2025

查看原文

MemoRAG：增强全局内存检索增强的长期上下文处理

作者: Hongjin Qian, Zheng Liu, Peitian Zhang, Kelong Mao, Defu Lian, Zhicheng Dou, Tiejun Huang

arXiv:2409.05591v3 公告类型: replace-cross 摘要：处理长上下文对大规模语言模型（LLMs）来说是一个重大挑战。虽然近期的进步使LLMs能够处理比以前更长的上下文（例如，32K或128K标记），但计算成本仍然很高，对许多应用程序来说可能仍然不足。检索增强生成（RAG）被认为是解决这个问题的一种有前景的策略。然而，传统的RAG方法因其两个基本要求而存在固有的局限性：1）显式的问题查询，2）结构良好的知识。然而，在一般的长上下文处理任务中，这些条件并不成立。在这项工作中，我们提出了一种名为MemoRAG的新颖RAG框架，该框架配备了全局增强检索的记忆功能。MemoRAG采用了双系统架构。首先，它使用一个轻量级但具有长距离处理能力的系统来创建长上下文的全局记忆。当任务出现时，它生成草稿答案，为检索工具定位长上下文中相关的信息提供有用的线索。其次，它利用一个昂贵但表达能力强的系统，基于检索到的信息生成最终答案。在此基本框架的基础上，我们通过键值压缩的形式实现了记忆模块，并通过生成质量的反馈（即RLGF）增强了其记忆和提示能力。在我们的实验中，MemoRAG在各种长上下文评估任务中表现出优越的性能，不仅在传统RAG方法遇到困难的复杂场景中表现优异，在RAG通常被应用的较简单场景中也表现出色。

发布时间: 4/10/2025

查看原文

超越炒作：对医疗场景下视觉-语言模型的客观审视

作者: Yang Nan, Huichi Zhou, Xiaodan Xing, Guang Yang

arXiv:2408.08704v2 Announce Type: replace-cross 摘要：近年来，大型视觉-语言模型（LVLMs）在各种任务中展现出了令人瞩目的能力，引起了人工智能领域的广泛关注。然而，它们在医学等专业领域的性能和可靠性仍然没有得到充分评估。特别的是，大多数评估过度集中于通过简单的跨模态视觉问答（VQA）来评估VLMs，而忽略了LVLMs的深层次特征。在本研究中，我们引入了RadVUQA，这是一个新的放射学视觉理解与问答基准，旨在全面评估现有的LVLMs。RadVUQA 主要从五个维度验证LVLMs：1）解剖学理解，评估模型识别生物结构的能力；2）跨模态理解，包括模型解析语言和视觉指令以产生所需结果的能力；3）定量和空间推理，评估模型的空间意识以及将定量分析与视觉和语言信息结合的能力；4）生理学知识，测量模型理解器官和系统功能和机制的能力；5）鲁棒性，评估模型在处理不协调和合成数据时的能力。结果表明，通用的LVLMs和医学专用的LVLMs在跨模态理解能力和定量推理方面存在关键缺陷。我们的研究揭示了现有LVLMs与临床医生之间存在的巨大差距，强调了开发更稳健和智能的LVLMs的迫切需求。代码可在 https://github.com/Nandayang/RadVUQA 查看。

发布时间: 4/10/2025

查看原文

草图参考：一种草图合成的多任务评估基准

作者: Xingyue Lin, Xingjian Hu, Shuai Peng, Jianhua Zhu, Liangcai Gao

arXiv:2408.08623v2 通知类型: 替换-交叉摘要: 草图是一种强大的艺术技巧，用于捕捉真实世界物体的关键视觉信息，并在图像合成研究中越来越受到关注。然而，该领域缺乏一个统一的基准来评估各种合成方法的性能。为了解决这一问题，我们提出了 SketchRef，这是第一个全面的草图合成多任务评估基准。SketchRef 充分利用了草图和参考照片之间的共同特征。它引入了两项主要任务：类别预测和结构一致性估计，后者在之前的研究所中被很大程度上忽视了。这些任务进一步被分为四个领域中的五个子任务：动物、一般事物、人体、面部。考虑到草图中可识别性和简单性之间的固有权衡，我们首次通过引入一个受限于简单性的一种可识别性计算方法 mRS 来量化这种平衡，确保公平和有意义的评估。为了验证我们的方法，我们收集了 7,920 名艺术爱好者的反馈，证实了我们提出的评估指标的有效性。此外，我们还在基准上评估了现有草图合成方法的性能，突出显示了它们的优点和缺点。我们希望这项研究能够建立一个标准化基准，并为推进草图合成算法提供有价值的见解。

发布时间: 4/10/2025

查看原文