LLM2D

摘要

arXiv:2502.00136v1 宣告类型: cross 摘要：本文介绍了灵感来自于政府系统的大型语言模型（LLMs）的伦理对齐的三支制衡框架。该框架包含三个独立且相互作用的组成部分：作为执行分支进行知识生成的LLMs；作为立法分支制定伦理绳索的DIKE；以及作为司法分支进行情境解释的ERIS。对抗性的DIKE-ERIS二元性使该架构能够适应多样化的文化背景，同时保持一致的伦理原则。通过提供可解释性、适应性和文化意识的伦理推理，该架构解决了带有反馈的人工强化学习（RLHF）的局限性。通过自我监督学习和对抗性测试，我们的框架展示了情感建模如何指导语言行为趋向伦理结果，同时在知识生成、伦理监督和情境解释之间保持独立性。