LLM2D

摘要

arXiv:2410.17758v2 通知类型: 替换-交叉引用摘要: 表格数据集在生物学等科学研究领域中广泛使用。尽管这些领域已经采用了AI方法来增强其发现和分析，但由于其可解释性，它们主要使用基于树的方法。同时，人工神经网络已被证明在解决丰富且复杂非表格问题时提供了更高的灵活性和深度，但在表格数据方面，在性能和可解释性方面却落后于基于树的模型。虽然稀疏性已被证明可以提高人工神经网络模型在复杂非表格数据集中的可解释性和性能，但在训练模型之前，通过利用注意力机制在表格数据中引入稀疏性，这一问题仍然存在开放性。为了解决这一问题，我们建立了一种方法，通过利用注意力机制来捕捉表格数据中特征的重要性，从而在神经网络中注入稀疏性。我们展示了我们的模型，Sparse TABular NET或sTAB-Net，结合了注意力机制，在生物数据集上达到了最先进的水平。此外，这些模型还允许从这些数据集中提取见解，并在SHAP等事后方法方面取得了更好的性能。