LLM2D
基于LLM的对话数据采集动态基准框架
Dynamic benchmarking framework for LLM-based conversational data capture
作者: Pietro Alessandro Aluffi, Patrick Zietkiewicz, Marya Bazzi, Matt Arderne, Vladimirs Murevics
发布日期: 2/10/2025
arXiv ID: oai:arXiv.org:2502.04349v1

摘要

arXiv:2502.04349v1 宣告类型:交叉 摘要:大型语言模型(LLMs)的迅速进化已经改变了对话代理,使其能够实现复杂的人机交互。然而,评估框架往往侧重于单一任务,未能捕捉多轮对话的动态性质。本文介绍了一种动态基准框架,通过与合成用户交互来评估基于LLM的对话代理。该框架结合生成代理模拟,评估其在关键维度上的表现:信息提取、情境意识以及适应性互动。通过模拟用户行为的各方面,我们的工作提供了一种可扩展、自动化且灵活的基准测试方法。应用场景实验(以贷款申请为例)表明,在单次提取和少量示例提取条件下,该框架的有效性得到了验证。结果显示,适应性策略提高了数据提取准确性,特别是在处理模糊响应时更为明显。未来的工作将扩展其在更广泛领域的适用性,并加入额外的评估指标(如对话连贯性、用户参与度)。本研究提供了一种结构化、可扩展的方法来评估基于LLM的对话代理,有助于其实现实际部署。