LLM2D

摘要

arXiv:2502.12576v1 宣告类型: cross 摘要：随着社交媒体的兴起，儿童在在线环境中越来越容易受到诱骗的风险。在在线对话中检测诱骗实例是一个重大挑战，因为互动不一定包含性暗示，因为捕食者需要花时间建立信任和与受害者的关系。此外，捕食者使用间接和编码的语言来逃避检测。虽然以往的研究已经对Transformer进行了微调，以自动识别聊天对话中的诱骗行为，但它们忽略了编码和间接语言对模型预测的影响，以及这些影响与人类对诱骗行为的看法如何一致。在本文中，我们解决了这一缺口，并在分类三种不同参与者群体中的诱骗风险不同程度的任务中评估了双编码器，即执法官员、真实受害者和诱饵。利用模糊理论框架，我们将人类对诱骗行为的评估映射到估计实际的诱骗风险等级。我们的分析表明，微调后的模型无法识别捕食者使用间接语言途径和编码语言逃避检测的实例。此外，我们发现这些实例的特点是样本中出现未知词汇（OOV词）的比例较高，导致模型误分类。我们的研究结果突显了在诱骗情境中，需要更 robust 的模型来识别来自噪声聊天输入中的编码语言的重要性。