LLM2D
从人类反馈中进行强化学习的伦理与说服:一种过程修辞方法
Ethics and Persuasion in Reinforcement Learning from Human Feedback: A Procedural Rhetorical Approach
作者: Shannon Lodoen, Alexi Orchard
发布日期: 5/15/2025
arXiv ID: oai:arXiv.org:2505.09576v1

摘要

arXiv:2505.09576v1 交叉种类公告 摘要:自2022年以来,诸如ChatGPT和Claude之类的生成AI聊天机器人版本采用了专有的技术——人类反馈强化学习(RLHF)进行训练,利用人类标注者的反馈来微调语言模型的输出。结果,RLHF的集成极大地增强了这些大型语言模型(LLMs)的输出,并使其交互和回应相较于仅使用监督学习的早期版本显得更加“人机合一”。人类和机器生成文本的日益融合可能对透明性、信任、偏见以及人际交往产生严重的伦理、社会技术和教育学影响。为了突显这些影响,本文对由RLHF增强的生成AI聊天机器人目前正在重塑的一些核心程序和技术过程进行了修辞分析:维护语言规范、信息寻求实践以及对社交关系的期望。迄今为止,关于生成AI和LLMs的修辞研究主要集中在生成内容的说服力上。利用Ian Bogost的程序修辞概念,本文将修辞研究的焦点从内容分析转向RLHF增强的LLMs中内置的说服机制。通过这一理论研究探讨了人工智能伦理学的新方向,关注人工智能驱动技术重定向的程序如何加强霸权语言使用、延续偏见、脱离上下文学习以及侵犯人类关系。因此,这将引起教育工作者、研究人员、学者以及越来越多的生成AI聊天机器人用户的兴趣。