LLM2D

摘要

arXiv:2505.04759v1 交叉公告类型摘要：应用评论是用户反馈的关键来源，提供了有关应用性能、功能、易用性和整体用户体验的重要见解。有效地分析这些评论对于指导应用开发、优先考虑功能更新以及提高用户满意度至关重要。将评论分类为功能性需求和非功能性需求在区分与特定应用功能相关的反馈（功能性需求）和与更广泛的质量属性（如性能、易用性和可靠性）有关的反馈方面发挥着关键作用。两类需求对于做出知情的开发决策至关重要。传统上，对应用评论进行分类的方法受限于需要构建大型、领域特定的数据集，这通常成本高昂且耗时。本研究探讨了使用ChatGPT进行零样本学习以将应用评论分类为功能性需求、非功能性需求、两类或非类的可能性。我们使用包含1,880个手动标注评论的基准数据集进行评估，这些评论来自十个涵盖多个领域的不同应用。我们的研究结果表明，尽管存在某些挑战和局限性，ChatGPT在评论分类上的F1分数达到了0.842。此外，我们还研究了评论可读性和长度等因素对分类准确性的影响，并进行手动分析以识别更容易被分类错误的评论类别。