LLM2D
语言模型作为欺骗性代理:基于角色的提示如何在谜题任务中诱导语义模糊
LLMs as Deceptive Agents: How Role-Based Prompting Induces Semantic Ambiguity in Puzzle Tasks
作者: Seunghyun Yoo
发布日期: 4/4/2025
arXiv ID: oai:arXiv.org:2504.02254v1

摘要

arXiv:2504.02254v1 宣告类型: cross 摘要:近期大型语言模型(LLMs)的发展不仅展示了惊人的创造性能力,还揭示了新兴的代理行为,这些行为利用语义模糊性在对抗性环境中进行操纵。在本研究中,我们调查了一个作为自主代理的LLM如何利用语义模糊性生成具有误导性的谜题,误导并挑战人类用户。受广受欢迎的益智游戏“连接”启发,我们系统地比较了通过零样本提示、角色注入的对抗性提示以及人工创建的例子产生的谜题,重点在于理解底层代理决策过程。利用 HateBERT 进行计算分析以量化语义模糊性,并结合主观的人类评估,我们证明了明确的对抗性代理行为显著增加了语义模糊性——从而增加了解谜的认知负担,并降低了解谜的公平性。这些研究结果为大型语言模型的新兴代理特质提供了关键见解,并突显了评估和安全部署自主语言系统的重要伦理考虑,尤其是在教育技术和娱乐领域。