LLM2D

摘要

arXiv:2502.13001v1 宣告类型: 新摘要: 会议总结受到高质量数据有限的限制，主要是由于隐私限制和收集过程成本高昂。我们通过FAME数据集解决了这一缺口，该数据集包含由我们新的多Agent会议合成框架MIMIC生成的500场英文会议和300场德文会议，该框架通过定义心理上合理的参与者角色配置、概述对话内容并协调大型语言模型（LLM）辩论来生成基于给定知识源的会议记录。一个模块化的后处理步骤进一步细化这些输出，减轻潜在的重复性和过于正式的语气，确保在大规模上产生连贯且可信的对话。我们还提出了一种基于心理合理性的评估框架，用于评估自然度、社会行为的真实性以及对话内容的难度。人类评估结果显示，FAME接近真实的会议自发性（自然度评分为4.5/5），保留了以发言人为中心的挑战（口语语言为3/5），并引入了更丰富的信息导向难度（难度评分为4/5）。这些发现突显了FAME是真实世界会议条件的良好且可扩展的代理。它为会议总结研究提供了新的测试场景，并为需要对话数据的任务或在行为限制下模拟社会场景的其他以对话为中心的应用程序提供了支持。