LLM2D

摘要

arXiv:2504.02254v1 宣告类型: cross 摘要：近期大型语言模型（LLMs）的发展不仅展示了惊人的创造性能力，还揭示了新兴的代理行为，这些行为利用语义模糊性在对抗性环境中进行操纵。在本研究中，我们调查了一个作为自主代理的LLM如何利用语义模糊性生成具有误导性的谜题，误导并挑战人类用户。受广受欢迎的益智游戏“连接”启发，我们系统地比较了通过零样本提示、角色注入的对抗性提示以及人工创建的例子产生的谜题，重点在于理解底层代理决策过程。利用 HateBERT 进行计算分析以量化语义模糊性，并结合主观的人类评估，我们证明了明确的对抗性代理行为显著增加了语义模糊性——从而增加了解谜的认知负担，并降低了解谜的公平性。这些研究结果为大型语言模型的新兴代理特质提供了关键见解，并突显了评估和安全部署自主语言系统的重要伦理考虑，尤其是在教育技术和娱乐领域。