LLM2D

摘要

角色扮演代理（RPAs）在各种应用中展现出卓越的性能，但它们往往难以识别和恰当地响应与角色扮演知识冲突的困难查询。为了研究 RPAs 面对不同类型的冲突请求时的表现，我们开发了一个评估基准，其中包括上下文知识冲突请求、参数知识冲突请求和非冲突请求，以评估 RPAs 识别冲突并适当地拒绝回答的能力，而不会过度拒绝。通过广泛的评估，我们发现大多数 RPAs 在面对不同冲突请求时表现出显著的性能差距。为了阐明原因，我们对 RPAs 在各种冲突场景下的表示层进行了深入分析。我们的发现揭示了模型转发表示中存在拒绝区域和直接响应区域，从而影响了 RPA 的最终响应行为。因此，我们引入了一种轻量级表示编辑方法，方便地将冲突请求转移到拒绝区域，从而提高模型的拒绝准确性。实验结果验证了我们编辑方法的有效性，提高了 RPAs 对冲突请求的拒绝能力，同时保持了它们的一般角色扮演能力。