摘要
鉴于会话式人工智能的进步,大型语言模型 (LLM) 的评估对于确保其在各种会话任务中的最佳性能至关重要。本文对五种流行的LLM(Llama、OPT、Falcon、Alpaca和MPT)的功能和局限性进行了全面的研究评估。该研究涵盖了各种会话任务,包括预约、移情回应生成、心理健康和法律咨询、劝说和谈判。为了进行评估,我们采用了广泛的测试设置,使用了从自动评估到人工评估的多种评估标准,包括使用通用和特定于任务的指标来准确衡量LLM的性能。我们的评估结果表明,没有一个模型能够在所有任务中都表现最佳。相反,它们的性能随具体任务的要求而显著变化。一些模型在某些任务中表现出色,但在其他任务中则表现较差。这些发现强调了在选择最适合会话应用的LLM时,考虑特定任务的要求和特征的重要性。