LLM2D
BOLIMES: Boruta和LIME优化的特征选择用于基因表达分类
BOLIMES: Boruta and LIME optiMized fEature Selection for Gene Expression Classification
作者: Bich-Chung Phan, Thanh Ma, Huu-Hoa Nguyen, and Thanh-Nghi Do
发布日期: 2/19/2025
arXiv ID: oai:arXiv.org:2502.13080v1

摘要

arXiv:2502.13080v1 交叉类型: cross 摘要:基因表达分类在生物信息学中是一个关键但具有挑战性的任务,主要是由于基因组数据的高维度和过拟合的风险。为了解决这一问题,我们提出了BOLIMES,一种新颖的功能选择算法,旨在通过系统地优化功能子集来增强基因表达分类。与仅依赖于统计排名或特定分类器的选择的传统方法不同,我们整合了Boruta的稳健性与LIME的可解释性,确保仅保留最相关和最具影响力的基因。BOLIMES首先通过将每个特征与其随机化版本进行比较来使用Boruta进行非相关信息基因的筛选,从而保留有价值的信息。然后利用LIME根据剩余基因对分类器的局部重要性进行排名。最后,迭代分类评估通过选择最大化预测准确性的基因数量来确定最佳功能子集。通过将全面的功能选择与以可解释性为导向的优化相结合,我们的解决方案有效地平衡了维度降低与高水平的分类性能,为高维基因表达分析提供了强大的解决方案。