摘要
arXiv:2504.20020v1 Announce Type: cross
摘要: 大型语言模型(LLMs)在自然语言处理、计算机视觉、数据挖掘等方面显著推进了机器学习研究,但仍表现出在推理、事实一致性以及可解释性方面的关键局限性。在本文中,我们介绍了一种新的学习范式——模块化机器学习(MML),作为新一代LLMs的基本方法。MML将复杂结构的LLMs分解为三个相互依赖的组成部分:模块化表示、模块化模型和模块化推理,旨在增强LLMs在反事实推理、减轻幻觉、促进公平性、安全性和透明度方面的能力。具体而言,所提出的MML范式可以:i) 通过分离语义组件清晰地阐明LLMs的内部工作机制;ii) 允许灵活且任务适配的模型设计;iii) 使解释性和基于逻辑的决策过程成为可能。我们通过利用诸如分离表示学习、神经架构搜索和神经符号学习等先进技术,提出了MML基础的LLMs的可行实现方式。我们批判性地指出了关键挑战,如连续神经过程和离散符号过程的集成、联合优化和计算可扩展性,并提出了值得进一步探索的有希望的未来研究方向。最终,MML范式与LLMs的结合有可能弥合统计(深度)学习与形式(逻辑)推理之间的差距,从而为各种实际应用中的稳健、适应性和可信赖的AI系统铺平道路。