LLM2D

arXiv 论文列表

作者: Natalia Sikora, Robert L. Manschke, Alethea M. Tang, Peter Dunstan, Dean A. Harris, Su Yang
arXiv:2504.08824v1 宣布类型: cross 摘要:结直肠癌(CRC)是第二大癌症死亡原因,也是全球第三常见的恶性肿瘤。由于结直肠癌的非特异性且常常令人尴尬的症状,早期检测始终是个难题,患者往往忽视或犹豫不报。至关重要的是,结直肠癌的诊断阶段对其存活率有重大影响,I期的存活率在80-95%之间,而IV期则急剧下降到10%。不幸的是,在英国,只有14.4%的病例在最早期阶段(I期)被诊断。 在本研究中,我们提出了ColonScopeX,这是一种利用可解释人工智能(XAI)方法增强结直肠癌早期检测的机器学习框架。该方法采用了一种多模态模型,结合了使用Savitzky-Golay算法进行指纹平滑处理的血液样本测量信号,以及详细的患者元数据,包括用药史、合并症、年龄、体重和BMI。通过利用XAI技术,我们旨在使模型的决策过程透明且可解释,从而增强对其预测的信任和理解。所提出的框架可以作为分诊工具或一般人群筛查工具使用。 本研究突显了结合多样化患者数据源和可解释机器学习以应对医学诊断中关键挑战的潜力。
发布时间: 4/15/2025
查看原文
作者: Xiaobing Yu, Jin Yang, Xiao Wu, Peijie Qiu, Xiaofeng Liu
arXiv:2504.08823v1 适应类型: 跨域 摘要: 如何在具有不同预测类别标签和领域的连续任务中持续适应预训练模型,并最终学会一种适用于多种任务的一般化模型,一直是一个长期存在的挑战。连续学习(CL)已经成为了利用预训练模型(例如,变压器)进行序列任务的一种有前景的方法。虽然许多现有的CL方法会逐步存储额外的学习结构,如低秩适应(LoRA)适配器或提示,有时甚至会保留以前样本的特征以保持性能。这导致随着任务数量的增加,参数增长变得不可持续,存储成本也会增加。此外,当前的方法往往缺乏对任务相似性的认识,这进一步阻碍了模型在不干扰之前获得的知识的情况下有效地适应新任务的能力。为了解决这些挑战,我们提出了一种名为FM-LoRA的新型高效低秩适应方法,该方法结合了动态秩选择器(DRS)和动态元提示(DMP)。该框架通过利用一个共享的低秩子空间来更有效地分配模型容量,而这个低秩子空间对于保持知识至关重要,从而避免了持续参数扩展。在ImageNet-R、CIFAR100和CUB200上的分类增量学习(CIL)基准测试,以及DomainNet上的领域增量学习(DIL)基准测试中,以变压器作为 backbone 的广泛实验表明,FM-LoRA 能够有效缓解灾难性遗忘,同时在各种任务和领域中提供稳健的表现。
发布时间: 4/15/2025
查看原文
arXiv:2504.08818v1 类别: cross 摘要:使用预训练的大语言模型(LLMs)作为时间序列预测的基础最近吸引了显著的研究兴趣。然而,LLM基础模型在这一领域的有效性仍是一个有争议的话题。基于彻底的经验分析,我们观察到在小数据集上训练和测试基于LLM的模型往往会使得编码器和解码器过度适应数据集,从而掩盖了LLM基础模型的真实预测能力。为了探究LLM在时间序列预测中的真正潜力,我们引入了三种具有相同架构但不同预训练策略的预训练模型。大规模预训练使我们能够创建出针对LLM基础模型的无偏差的编码器和解码器组件。通过受控实验,我们评估了LLM的零样本和少样本预测性能,提供对其能力的见解。广泛的实验表明,尽管LLM基础模型显示出一些潜力,但其预测性能仍然有限。我们的源代码在匿名仓库中公开:https://anonymous.4open.science/r/LLM4TS-0B5C。
发布时间: 4/15/2025
查看原文
作者: Takahiro Misawa, Ai Koizumi, Ryo Tamura, Kazuyoshi Yoshimi
arXiv:2504.08817v1 Announce Type: 横向交叉研究 摘要:生成式 AI 近期在各个领域产生了深远的影响,包括日常生活、研究和教育。为了探索其在数据驱动材料科学中的高效利用,我们在 2024 年 7 月组织了一场黑客马拉松——AIMHack2024。在这次黑客马拉松中,来自材料科学、信息科学、生物信息学和凝聚态物理学等多个领域的研究人员共同探讨了生成式 AI 如何促进研究和教育。基于黑客马拉松的结果,本文提出了以下主题:(1)开展 AI 辅助软件试验,(2)构建面向软件的 AI 导师,(3)开发软件的 GUI 应用程序。尽管生成式 AI 的发展日新月异,本文提供了其早期在数据驱动材料科学中的应用记录,并指出了将 AI 整合到研究和教育中的策略。
发布时间: 4/15/2025
查看原文
作者: Junfeng Fang, Yukai Wang, Ruipeng Wang, Zijun Yao, Kun Wang, An Zhang, Xiang Wang, Tat-Seng Chua
arXiv:2504.08813v1 Announce Type: cross 摘要:多模态大型推理模型(MLRMs)——增强版的多模态语言模型(MLLMs),具备推理能力——的快速发展已经彻底改变了各种应用。然而,它们的安全性影响尚未得到充分探索。虽然先前的工作揭示了一维推理模型中的关键漏洞,但MLRMs引入了从跨模态推理路径中独特的风险。本文通过大规模实证研究,首次系统性地分析了MLRMs的安全性,将MLRMs与其基础MLLMs进行比较。我们的实验揭示了三个关键发现:(1)推理税:获得推理能力导致继承的安全对齐 catastrophic 崩溃。MLRMs在对抗攻击下表现出37.44%更高的逃狱成功率。(2)安全盲点:虽然安全性下降是普遍存在的,但某些场景(如非法活动)遭受25倍更高的攻击率——远超过平均3.4倍的增长,揭示了特定场景的漏洞,并且这种一致性令人担忧地跨模态和数据集。(3)新兴自我校正:尽管推理-答案安全性紧密结合,MLRMs显示出初具雏形的自我校正——16.9%的逃狱推理步骤被安全答案覆盖,暗示了内在的保护机制。这些发现强调了场景感知安全审计和机制的紧迫性,以增强MLRMs的自我校正潜力。为了推动研究,我们开源了OpenSafeMLRM,这是首个用于MLRM安全评估的工具包,提供了对主流模型、数据集和逃狱方法的统一接口。我们的工作呼吁立即采取努力以加固增强推理的人工智能,并确保其变革潜力与伦理保护相一致。
发布时间: 4/15/2025
查看原文
arXiv:2504.08810v1 交叉公告类型 摘要:复杂化学空间和有限的知识范围存在偏差,对人类科学家构成了巨大挑战,而在自动化材料发现中表现得更为明显。现有的智能方法更多依赖数值计算,导致探索效率低下和难以解释的结果。为桥接这一差距,我们介绍了一种由语言推理多智能体系统(MAS)驱动的原则指导材料发现系统,即PriM。我们的框架将自动假设生成与实验验证结合在一个MAS圆桌系统中,从而在保持科学严谨性的同时实现系统性的探索。基于我们的框架,纳米 helix 的案例研究显示了更高的材料探索率和更高的属性值,并提供了透明的推理路径。这种方法为功能材料的理性设计开发了一种自动化和透明的范式,具有广泛的影响。代码已在我们的 GitHub(https://github.com/amair-lab/PriM)上公开可供查看。
发布时间: 4/15/2025
查看原文
作者: Xiaomei Zhang, Zhaoxi Zhang, Yanjun Zhang, Xufei Zheng, Leo Yu Zhang, Shengshan Hu, Shirui Pan
arXiv:2504.08798v1 宣布类型: cross 摘要: 文本对抗样本对自然语言处理系统的可靠性构成了严重威胁。最近的研究表明,对抗样本往往会偏离正常文本的基本流形,而预训练的掩码语言模型可以近似正常数据的基本流形。这些发现启发了使用掩码语言模型检测文本对抗攻击的探索。我们首先介绍了基于掩码语言模型检测(MLMD)的方法,利用掩码语言建模(MLM)目标中的掩码和取消掩码操作来诱导正常文本和对抗文本之间流形变化的差异。尽管MLMD实现了竞争力的检测性能,但其耗时的一对一掩码策略引入了显著的计算开销。我们的后验分析表明,输入中大量的非关键词在检测中并不重要,但消耗了资源。基于此,我们引入了基于梯度的MLMD(GradMLMD),该方法利用梯度信息来识别并跳过检测过程中的非关键词,显著减少了资源消耗而不影响检测性能。
发布时间: 4/15/2025
查看原文
作者: Jorge A. Huertas, Pascal Van Hentenryck
arXiv:2504.08793v1 宣告类型: cross 摘要: 在按批次顺序处理(b-sbatch)调度中,作业被分批处理并在其批次内顺序进行。本文考虑了多台并行机器、非相同作业权重和释放时间以及不同家族批次之间的序列相关设置时间。尽管已经在文献中广泛研究了b-sbatch,但在实际设置中,如半导体制造和金属工业,很少有论文考虑到最小批次大小这一常见问题。对于最小批次大小的要求,通常通过动态规划和元启发式方法解决,从未有文章使用约束编程(CP)来解决该问题。本文通过首次提出一种CP模型来解决带最小批次大小的b-batch问题,填补了这一空白。在标准案例上的计算实验将CP模型与文献中已有的两种现有的混合整数规划(MIP)模型进行了比较。结果表明,所提出的CP模型能够处理b-batch的多种变体,并能够在大型实例中更快地生成比MIP模型更好的解决方案。
发布时间: 4/15/2025
查看原文
作者: Zonghang Li, Tao Li, Wenjiao Feng, Mohsen Guizani, Hongfang Yu
arXiv:2504.08791v1 宣布类型: cross 摘要: DeepSeek R1 和 QwQ 32B 的出现已经突破了在家庭设备上运行前沿大规模语言模型 (LLMs) 的性能障碍。虽然消费级硬件变强了,模型量化也得到了改进,但现有的边缘解决方案仍然需要 GPU 集群、大 RAM/VRAM 和高带宽,远远超出了普通家庭集群的处理能力。本文介绍了一种称为 prima.cpp 的分布推理系统,该系统利用 CPU/GPU 的混合、低 RAM/VRAM、Wi-Fi 和跨平台支持,在日常家庭设备上运行 70B 级规模的模型。它使用 mmap 来管理模型权重,并引入了带有数据预取的管道环并行性,以隐藏磁盘加载时间。通过建模计算、通信、磁盘、内存(及其管理行为)以及操作系统之间的异构性,它最优地将模型层分配给每个设备的 CPU 和 GPU,进一步减少了 token 延迟。文中提出了一个称为 Halda 的优雅算法,以解决这个 NP 难分配问题。我们对一个常见的四节点家庭集群进行了评估。在 30B+ 模型上,prima.cpp 的性能优于 llama.cpp、exo 和 dllama,同时内存压力保持在 6% 以下。这使得前沿 30B-70B 模型,如 Llama 3、DeepSeek R1、Qwen 2.5 和 QwQ 可以部署到家庭助手中,从而使先进的人工智能真正地惠及个体。该代码是开源的,并可在 https://github.com/Lizonghang/prima.cpp 获取。
发布时间: 4/15/2025
查看原文
arXiv:2504.08786v1 Announce Type: cross 摘要:近年来,大型语言模型(LLMs)的进步在序列推荐任务中引起了广泛的兴趣。虽然推荐建模的核心在于从相似用户的协作信号中获取信息,但将这些信号有效地转换成LLMs能够理解和利用的形式仍然是一个挑战。关键挑战包括从大规模用户交互中选择相关示范,并确保这些信号与LLMs的推理过程保持一致。为了解决这些挑战,我们提出了AdaptRec,这是一个自我适应框架,通过结合明确定义的协作信号,利用LLMs进行序列推荐。AdaptRec采用了两阶段用户选择机制——用户相似性检索和自适应用户选择——以高效地在大规模数据集中从多指标评估中识别出相关用户序列。我们还开发了一种基于用户的相似性检索提示,使模型能够主动选择相似用户,并在训练过程中不断调整其选择标准。通过从相似用户的协作信号中构建用户上下文化推荐提示,我们将他们的行为序列转换为自然语言,在推荐过程中明确整合这些信息。实验结果表明,AdaptRec在性能上具有显著优势,在完全微调的现实世界数据集上,HitRatio@1分数分别提高了7.13%、18.16%和10.41%,而在少量样本场景中,这些增益分别达到了23.00%、15.97%和17.98%。
发布时间: 4/15/2025
查看原文