LLM2D

摘要

arXiv:2504.20020v1 Announce Type: cross 摘要: 大型语言模型（LLMs）在自然语言处理、计算机视觉、数据挖掘等方面显著推进了机器学习研究，但仍表现出在推理、事实一致性以及可解释性方面的关键局限性。在本文中，我们介绍了一种新的学习范式——模块化机器学习（MML），作为新一代LLMs的基本方法。MML将复杂结构的LLMs分解为三个相互依赖的组成部分：模块化表示、模块化模型和模块化推理，旨在增强LLMs在反事实推理、减轻幻觉、促进公平性、安全性和透明度方面的能力。具体而言，所提出的MML范式可以：i) 通过分离语义组件清晰地阐明LLMs的内部工作机制；ii) 允许灵活且任务适配的模型设计；iii) 使解释性和基于逻辑的决策过程成为可能。我们通过利用诸如分离表示学习、神经架构搜索和神经符号学习等先进技术，提出了MML基础的LLMs的可行实现方式。我们批判性地指出了关键挑战，如连续神经过程和离散符号过程的集成、联合优化和计算可扩展性，并提出了值得进一步探索的有希望的未来研究方向。最终，MML范式与LLMs的结合有可能弥合统计（深度）学习与形式（逻辑）推理之间的差距，从而为各种实际应用中的稳健、适应性和可信赖的AI系统铺平道路。