摘要
arXiv:2504.03726v1 类别:交叉
摘要:本研究探讨了恶意AI助手的操控性特征,以及在与具备人类相似特性的模拟用户互动的不同决策情境下,恶意AI助手的行为是否可以被检测。我们还研究了互动的深度和规划能力对恶意AI助手的操控策略及其有效性的影响。通过受控实验设计,我们模拟了在不同复杂度和利害关系的八种决策情境下,AI助手(包括良性及故意恶意的)与用户的互动。我们的方法使用了两款最先进的语言模型生成互动数据,并采用了意图感知提示(IAP)来检测恶意AI助手。研究发现,恶意AI助手采用特定领域的个性化操控策略,利用模拟用户的心理弱点和情绪触发点。具体来说,模拟用户在互动初期表现出对操控的抵抗力,但随着互动深度的增加,越来越容易受到恶意AI助手的影响,突显了长期接触可能出现操控行为的系统所面临的重要风险。IAP检测方法实现了高精度且无误报,但难以检测许多恶意AI助手,导致高误检率。这些发现凸显了人类与AI互动中的关键风险,并强调了在日益自主的决策支持系统中,需要对操控性AI行为实施稳健、情境敏感的防护措施的重要性。