LLM2D

摘要

arXiv:2502.09218v1 交叉公告类型摘要：本文提出了一种完整的可解释系统，用于解释一组数据，抽象其潜在特征，并选择自然语言进行描述。该系统依赖于两个关键阶段：(i) 从数据中识别出新兴属性并将其转化为抽象概念，和(ii) 将这些概念转换为自然语言。尽管大规模语言模型展示了令人印象深刻的自然语言生成能力，但其统计性质及其内部机制的复杂性仍迫使我们将其作为一种黑盒技术使用，从而牺牲了可信度。开发一种数据解释管道将有助于其在医疗信息处理等关键安全领域中的应用，并允许非专业人士和视障人士访问叙述信息。为此，我们认为知识表示和自动推理研究领域可能会提供一种有效的替代方案。基于先前研究针对第一阶段(i) 的工作，我们专注于第二阶段，名为Concept2Text。由于该系统具有可解释性，数据转换可以通过逻辑规则轻松建模，再次强调了声明性编程在实现AI可解释性中的作用。本文探索了一种基于Prolog/CLP的重写系统来解释用类和关系术语表述的概念，并从通用本体中推导出常识，生成自然语言文本。该系统的功能包括分层树重写、模块化多语言生成、在语义、语法和词汇层面上支持等效变体，以及透明的基于规则的系统。我们概述了该系统的架构，并通过一些示例展示了其灵活性，这些示例能够根据输入概念生成大量多样且等效的重写。