LLM2D
基于字典学习的科学研究:从显微镜基础模型中提取生物概念
Towards scientific discovery with dictionary learning: Extracting biological concepts from microscopy foundation models
作者: Konstantin Donhauser, Kristina Ulicna, Gemma Elyse Moran, Aditya Ravuri, Kian Kenyon-Dean, Cian Eastwood, Jason Hartford
发布日期: 2/12/2025
arXiv ID: oai:arXiv.org:2412.16247v2

摘要

arXiv:2412.16247v2 宣告类型: replace-cross 摘要:字典学习(DL)已成为大型语言模型解释性的强大工具。通过从人类可解释的数据(例如文本)中提取已知概念(例如金门大桥),稀疏DL可以阐明模型的内部工作机制。在本文中,我们询问DL是否也可以用于从较少人类可解释的科学数据(例如细胞图像)中发现未知概念,从而最终使现代科学发现方法得到增强。作为第一步,我们使用DL算法研究了训练在多细胞图像数据上的显微镜基础模型,在这些模型中,很少有关于哪些高层概念应该出现的先验知识。我们展示了确实可以提取出生物学上有意义的概念,如细胞类型和基因扰动类型。我们还提出了迭代代码本特征学习(ICFL),并将其与预处理步骤结合,该步骤使用来自对照数据集的PCA白化技术。在我们的实验中,我们证明了与TopK稀疏自编码器相比,ICFL和PCA在提取出的选择性特征方面有所改进。