arXiv:2412.06845v4 更新类型: replace-cross
摘要:近年来,大型语言模型(LLMs)经历了显著的转变,以其普及度和能力的快速增长为标志。引领这一演进的是如GPT-4和GPT-o1等专有LLMs,它们在人工智能社区中引起了广泛关注,这是由于它们出色的表现和多用途性。与此同时,开源LLMs,如LLaMA,通过易于定制和部署模型的功能,为LLMs的广泛普及做出了巨大贡献。尽管开源LLMs为创新和研究提供了前所未有的机会,但LLMs的商业化也引发了透明度、可再现性和安全性方面的关切。许多开源LLMs未能满足基本的透明度要求,因为它们隐瞒了训练代码和数据等关键组件,这可能阻碍进一步的LLM创新。为缓解这一问题,我们介绍了一个完全开源的LLM——Moxin 7B,该LLM遵循开放科学、开源、开放数据和开放访问的原则。我们发布了预训练代码和配置、训练和微调数据集以及中间和最终检查点,旨在持续承诺完全开源的LLM。在预训练并获得基础模型后,我们使用最先进的后训练框架和指令数据对Moxin Base模型进行微调,以获得Moxin Instruct模型。为了提高推理能力,我们进一步使用来自DeepSeek R1的链式思维数据对Instruct模型进行微调,并使用DeepSeek R1遵循的高效且有效的强化学习算法——Group Relative Policy Optimization(GRPO)对模型进行微调,从而得到Moxin Reasoning模型。实验表明,我们的模型在零样本评估、少样本评估和链式思维评估等各种评估中都表现出优越的性能。
arXiv:2412.06412v2 公告类型: replace-cross
摘要:随着大型语言模型(LLMs)的迅速发展,LLM 基础的代理为跨各个领域利用工具提供了方便和用户友好的方法。在天文学观测领域,新建望远镜显著增加了天文学家的工作量。部署 LLM 助手可以有效减轻这一负担,并降低培训人员的成本。在包含三个观测站点共八台望远镜的近邻星系超新星巡天(NGSS)项目中,该项目旨在从 50 mpc 内的星系中发现瞬变现象,我们开发了 **StarWhisper 望远镜系统** 来管理整个观测过程。该系统自动化了生成观测列表、进行观测、分析数据和向观测者提供反馈等任务。观测列表根据不同站点和策略定制,以确保对天体进行全面覆盖。在手动验证后,这些列表通过系统中的代理上传至望远镜,代理在接收到中性语言指令后启动观测。观测图像在实时进行分析,瞬变现象随即报告给观测者。代理将观测结果修改为实时跟进观测提案,并发送至兴隆观测站群聊,然后将其添加至次日的观测列表中。此外,系统中的AI代理的集成提供了在线访问性,节省了天文学家的时间,并促进了业余天文学家在NGSS项目中的更大参与。
arXiv:2411.14922v2 通告类型: 替换-交叉
摘要: 由于其广泛的知识和推断能力,大规模语言模型(LLMs)已成为序列推荐的一种有前景的工具。研究人员探索了各种方法利用这些能力,但现有的大多数方法依赖于简单的输入-输出提示,未能有效地弥合LLMs的一般知识与推荐任务特定需求之间的差距。虽然已经引入了链式思考(CoT)等推理策略来提高性能,但它们往往因为未充分利用用户偏好信息和推理深度不足而产生不准确的推荐。为了解决这些挑战,我们提出了GOT4Rec,这是一种利用图推理(GoT)策略的新颖序列推荐方法。我们的方法侧重于用户历史信息中的三种关键类型:短期兴趣、长期兴趣和来自其他用户的协作信息。它使LLMs能够独立推断并生成推荐,随后汇总结果以得出最终项目。这种方法允许LLMs利用增强的推断能力更好地利用用户序列信息,产生更准确的推荐和更全面的解释。在现实世界数据集上的广泛实验表明,GOT4Rec 的有效性超过了现有的最先进的基线方法,平均提高了37.11%。我们的代码可在https://anonymous.4open.science/r/GOT4Rec获得。
arXiv:2411.12919v3 声明类型: replace-cross
摘要: 我们研究了将自我监督去噪作为处理由于高斯噪声而受损的数据的预处理步骤,以训练基于深度学习(DL)的重建方法的影响。用于训练的K空间数据通常是多线圈且固有的噪声较大的。尽管基于DL的重建方法在完全采样数据上进行训练能够实现高质量的重建,但获得大量无噪声的数据集是不切实际的。我们利用广义Stein无偏风险估计(GSURE)进行去噪。我们评估了两种基于DL的重建方法:扩散概率模型(DPMs)和基于模型的深度学习(MoDL)。我们评估了去噪对解决加速多线圈磁共振成像(MRI)重建性能的影响。实验是在T2加权脑部和脂肪抑制的质子密度膝关节扫描上进行的。我们观察到,自我监督去噪能够提升各种场景下MRI重建的质量和效率。具体而言,当训练DL网络时使用去噪后的图像而不是噪声对应的图像,无论是在32 dB、22 dB和12 dB的T2加权脑部数据,还是在24 dB、14 dB和4 dB的脂肪抑制的膝关节数据,都观察到较低的归一化均方根误差(NRMSE)、更高的结构相似性指数(SSIM)和峰值信噪比(PSNR)。总体而言,我们展示了去噪是一种在各种条件下都能提高基于DL的MRI重建方法有效性的不可或缺的预处理技术。通过提升输入数据的质量,去噪能够训练更加有效的DL网络,可能绕过对无噪声参考MRI扫描的需求。
arXiv:2411.10843v2 更新类型: replace-cross
摘要:糖尿病视网膜病变是全球-leading致盲原因,并且需要精确的AI诊断工具。传统的多类分类中的损失函数,如类别交叉熵(CCE),在类不平衡的情况下会失效,尤其是在具有固有挑战性或重叠类别的情况下,会导致有偏且敏感度较低的模型。由于高严重程度的4级糖尿病视网膜病变等类别的例子数量远少于非常早期阶段如0类的类别数量,因此实现类平衡是关键。为此,我们提出了自适应混合焦点-熵损失,该损失结合了焦点损失和熵损失的思想,并通过自适应加权来关注少数类并突出挑战性样本。应用于糖尿病视网膜病变检测的先进技术AHFE模型显示出了良好的性能提升,表明ResNet50在准确率为99.79%、DenseNet121在98.86%、Xception在98.92%、MobileNetV2在97.84%、InceptionV3在93.62%的情况下表现最佳。这表明AHFE如何促进复杂且不平衡的医学数据集中的AI驱动诊断性能提升。
arXiv:2411.03883v3 宣告类型: replace-cross
摘要: 问答是一个自然语言理解任务,涉及对显式上下文和未陈述的相关领域知识的推理。尽管训练成本高昂,大多数现代问答系统的骨干——大型语言模型(LLMs)——仍然难以可靠地捕捉医学等专门领域中概念之间微妙的关系。在这项工作中,我们提出了一种参数高效的医学知识增强LLM方法——MEG。MEG使用一个轻量级映射网络将知识图谱嵌入引入LLM,使其能够以经济有效的方式利用外部知识。我们使用四种流行的医学多项选择数据集评估了该方法,并表明LLMs 既能有效地解释知识图谱嵌入,又能从这些嵌入提供的事实依据中获得显著优势。MEG在BioMistral-7B和MediTron-7B这类专门模型上分别实现了6.7%和9.9%的平均准确率提升。最后,我们展示了MEG的性能对图编码器的选择具有鲁棒性。
arXiv:2411.01055v2 宣告类型: 替换交叉
摘要:建筑能源建模在通过准确预测建筑物的实际条件来优化建筑能源系统运行方面发挥着重要作用。在此背景下,已经探索了各种技术,从传统的基于物理的模型到数据驱动的模型。最近,研究人员将基于物理的模型与数据驱动的模型结合起来,形成混合方法。这包括使用基于物理的模型输出作为额外的数据驱动输入,学习基于物理的模型和实际数据之间的残差,学习基于物理的模型的代理模型,或使用实际数据微调代理模型。然而,这些混合方法固有的优势全面比较仍有所缺失。本文的主要目标是通过一个实际案例研究来评估建筑能源建模中四种主要的混合方法,重点关注室内热动力学。为了实现这一目标,我们设计了三个反映建筑文档程度和传感器可用性的常见场景,评估其性能,并使用层次Shapley值分析其解释性。实际研究表明,有三个值得注意的发现。首先,更多的建筑文档和传感器可用性会提高混合方法的预测准确性。其次,混合方法的性能取决于建筑物房间的类型,但使用前向神经网络作为数据驱动子模型的残差方法在所有房间中表现最佳。该混合方法还展示了充分利用基于物理的子模型模拟的强大能力。第三,层次Shapley值证明是一种有效的工具,可以解释和改进混合模型,同时考虑到输入变量的相关性。
arXiv:2411.00348v2 宣告类型: replace-cross
摘要:大规模语言模型(LLMs)已经在各个领域带来了革命性的变化,但仍然容易受到提示注入攻击的影响,即恶意输入使模型忽略原始指令并执行指定的操作。在这篇论文中,我们通过分析LLMs内的注意力模式来研究这些攻击的底层机制。我们引入了分散效应的概念,其中特定的注意力头,称为重要头,将注意力从原始指令转移到注入的指令。基于这一发现,我们提出了一个无训练的检测方法——注意力追踪器(Attention Tracker),该方法在无需额外LLM推理的情况下跟踪指令的注意力模式以检测提示注入攻击。我们的方法在多种模型、数据集和攻击类型下表现出色,相对于现有方法在AUROC上提高了最高10.0%的性能,并且在小型LLM上表现良好。我们通过广泛的评估展示了我们方法的鲁棒性,并提供了有关如何保护集成LLM系统的提示注入漏洞的安全措施的见解。
arXiv:2409.16706v2 通告类型: replace-cross
摘要: 本文提出了一种名为Pix2Next的新颖的图像到图像转换框架,旨在解决从RGB输入生成高质量近红外(NIR)图像的挑战。我们的方法利用先进的Vision Foundation Model (VFM) 在编码器-解码器架构中,结合了交叉注意力机制以增强特征融合。这种设计能够捕捉详细的全局表示,并保留关键的光谱特性,将RGB到NIR的转换视为不仅仅是简单的领域转换问题。多尺度PatchGAN判别器确保在不同细节水平上生成逼真图像,同时精心设计的损失函数将全局上下文理解与局部特征保存相结合。我们使用RANUS数据集进行了实验,以展示Pix2Next在定量指标和视觉质量方面的优势,相对于现有方法,FID分数提高34.81%。此外,我们通过使用生成的NIR数据来增强有限的真实NIR数据集,展示了Pix2Next在下游物体检测任务中的性能改进,证明了其实际应用价值。所提出的方法可以在不增加额外数据采集或标注工作的情况下扩大NIR数据集的规模,潜在地加速基于NIR的计算机视觉应用的发展。
arXiv:2409.05202v2 宣布类型: replace-cross
摘要: 随着深度神经网络在过去的十年中取得了令人兴奋的突破,数据增强在大规模标注数据不可用时已成为正则化技术中备受关注的方法。在现有的增强方法中,Mixup 及其相关数据混合方法因其通过生成数据依赖的虚拟数据同时容易迁移到各种领域而广泛采用,从而获得高性能。本文综述提供了对基础 Mixup 方法及其应用的全面回顾。我们首先以统一框架的形式详述了包含模块的增强训练管道,该框架可以包含各种 Mixup 方法并提供直观的操作流程。然后,我们系统地研究了 Mixup 增强在计算机视觉下游任务、各种数据模态以及 Mixup 的一些分析与定理方面的应用。同时,我们总结了 Mixup 研究的现状和局限性,并指出了有效和高效的 Mixup 增强的进一步工作。本文综述可以为研究人员提供 Mixup 方法的现状,并在 Mixup 领域提供一些见解和指导作用。与此综述相关的在线项目可在 https://github.com/Westlake-AI/Awesome-Mixup。