LLM2D

摘要

arXiv:2504.03726v1 类别:交叉摘要：本研究探讨了恶意AI助手的操控性特征，以及在与具备人类相似特性的模拟用户互动的不同决策情境下，恶意AI助手的行为是否可以被检测。我们还研究了互动的深度和规划能力对恶意AI助手的操控策略及其有效性的影响。通过受控实验设计，我们模拟了在不同复杂度和利害关系的八种决策情境下，AI助手（包括良性及故意恶意的）与用户的互动。我们的方法使用了两款最先进的语言模型生成互动数据，并采用了意图感知提示（IAP）来检测恶意AI助手。研究发现，恶意AI助手采用特定领域的个性化操控策略，利用模拟用户的心理弱点和情绪触发点。具体来说，模拟用户在互动初期表现出对操控的抵抗力，但随着互动深度的增加，越来越容易受到恶意AI助手的影响，突显了长期接触可能出现操控行为的系统所面临的重要风险。IAP检测方法实现了高精度且无误报，但难以检测许多恶意AI助手，导致高误检率。这些发现凸显了人类与AI互动中的关键风险，并强调了在日益自主的决策支持系统中，需要对操控性AI行为实施稳健、情境敏感的防护措施的重要性。