LLM2D

摘要

arXiv:2502.04349v1 宣告类型：交叉摘要：大型语言模型（LLMs）的迅速进化已经改变了对话代理，使其能够实现复杂的人机交互。然而，评估框架往往侧重于单一任务，未能捕捉多轮对话的动态性质。本文介绍了一种动态基准框架，通过与合成用户交互来评估基于LLM的对话代理。该框架结合生成代理模拟，评估其在关键维度上的表现：信息提取、情境意识以及适应性互动。通过模拟用户行为的各方面，我们的工作提供了一种可扩展、自动化且灵活的基准测试方法。应用场景实验（以贷款申请为例）表明，在单次提取和少量示例提取条件下，该框架的有效性得到了验证。结果显示，适应性策略提高了数据提取准确性，特别是在处理模糊响应时更为明显。未来的工作将扩展其在更广泛领域的适用性，并加入额外的评估指标（如对话连贯性、用户参与度）。本研究提供了一种结构化、可扩展的方法来评估基于LLM的对话代理，有助于其实现实际部署。