摘要
arXiv:2502.04349v1 宣告类型:交叉
摘要:大型语言模型(LLMs)的迅速进化已经改变了对话代理,使其能够实现复杂的人机交互。然而,评估框架往往侧重于单一任务,未能捕捉多轮对话的动态性质。本文介绍了一种动态基准框架,通过与合成用户交互来评估基于LLM的对话代理。该框架结合生成代理模拟,评估其在关键维度上的表现:信息提取、情境意识以及适应性互动。通过模拟用户行为的各方面,我们的工作提供了一种可扩展、自动化且灵活的基准测试方法。应用场景实验(以贷款申请为例)表明,在单次提取和少量示例提取条件下,该框架的有效性得到了验证。结果显示,适应性策略提高了数据提取准确性,特别是在处理模糊响应时更为明显。未来的工作将扩展其在更广泛领域的适用性,并加入额外的评估指标(如对话连贯性、用户参与度)。本研究提供了一种结构化、可扩展的方法来评估基于LLM的对话代理,有助于其实现实际部署。