摘要
arXiv:2501.14844v2 宣告类型: replace-cross
摘要:检测生成模型生成输出中的偏见对于减少其在关键应用场景中潜在风险至关重要。然而,现有的大多数用于识别生成文本中偏见的方法都是将模型孤立地进行考虑,而忽视了它们的上下文应用。具体来说,涉及生成模型的多智能体系统中可能产生的偏见仍需进一步研究。为了解决这一问题,我们提出了一种框架,用于量化多智能体系统中的对话型大型语言模型(LLMs)中的偏见。我们的方法涉及模拟小型回声室,在这些回声室中,由观点一致的LLM对在极化话题上展开讨论。出乎意料的是,我们观察到生成的消息中立场出现了显著变化,特别是在所有智能体初始表达保守观点的回声室内,这些智能体按之前记录的许多LLMs的政治偏见,倾向于自由主义立场。重要的是,在当前最先进的基于问卷的偏见检测方法中,未能检测到实验中在回声室中观察到的偏见。这凸显了对于多智能体系统中的偏见检测和缓解开发更复杂工具套件的迫切需求。用于执行实验的代码可在 https://anonymous.4open.science/r/LLMsConversationalBias-7725 公开获取。