LLM2D
一种三支权力制衡框架:针对大型语言模型上下文意识伦理对齐的监管体系
A Three-Branch Checks-and-Balances Frameworkfor Context-Aware Ethical Alignment of Large Language Models
作者: Edward Y. Chang
发布日期: 2/4/2025
arXiv ID: oai:arXiv.org:2502.00136v1

摘要

arXiv:2502.00136v1 宣告类型: cross 摘要:本文介绍了灵感来自于政府系统的大型语言模型(LLMs)的伦理对齐的三支制衡框架。该框架包含三个独立且相互作用的组成部分:作为执行分支进行知识生成的LLMs;作为立法分支制定伦理绳索的DIKE;以及作为司法分支进行情境解释的ERIS。对抗性的DIKE-ERIS二元性使该架构能够适应多样化的文化背景,同时保持一致的伦理原则。通过提供可解释性、适应性和文化意识的伦理推理,该架构解决了带有反馈的人工强化学习(RLHF)的局限性。通过自我监督学习和对抗性测试,我们的框架展示了情感建模如何指导语言行为趋向伦理结果,同时在知识生成、伦理监督和情境解释之间保持独立性。