LLM2D

摘要

软件工程（SE）聊天机器人因其在增强开发流程中的作用而越来越受到关注。聊天机器人的核心是自然语言理解平台（NLU），它使聊天机器人能够理解和响应用户查询。在部署 NLU 之前，需要用标记数据对其进行训练。然而，由于高质量数据集的稀缺性，为 SE 聊天机器人获取此类标记数据具有挑战性。这种挑战的出现是因为训练 SE 聊天机器人需要在典型语言数据集中找不到的专业词汇和短语。因此，聊天机器人开发人员通常诉诸于手动注释用户查询以收集训练有效聊天机器人所需的数据，这是一个既耗时又资源密集的过程。以前的研究提出了支持聊天机器人从业者注释用户提出的查询的方法。然而，这些方法需要人工干预来生成规则，称为标记函数（LF），这些规则根据数据中的特定模式识别和分类用户查询。为了解决这个问题，我们提出了一种通过从标记的用户查询中提取模式来自动生成 LF 的方法。我们通过将其应用于四个不同的 SE 数据集（即 AskGit、MSA、Ask Ubuntu 和 Stack Overflow）的查询来评估我们方法的有效性，并衡量从使用生成的 LF 标记的查询训练 NLU 中获得的性能提升。我们发现生成的 LF 有效地标记了数据，AUC 得分高达 85.3%，并且在所研究的数据集中，NLU 的性能提升高达 27.2%。此外，我们的结果表明，用于生成 LF 的 LF 数量会影响标记性能。我们相信，我们的方法可以节省用户查询标记的时间和资源，使从业者能够专注于聊天机器人的核心功能。