LLM2D

摘要

arXiv:2504.02891v1 问卷类型：跨学科摘要：目标：传统的基于电话的调查是收集生物医药和医疗数据最便捷和广泛使用的方法之一，然而它们往往成本高昂、劳动密集，且难以有效扩展现行规模。为克服这些局限，我们提出了一种由对话大型语言模型（LLM）驱动的端到端调查收集框架。材料与方法：我们的框架包括一名负责设计调查和招募参与者的研究员，一名由LLM驱动的对话电话代理，该代理呼叫参与者并管理调查；一名第二级LLM（GPT-4o），用于分析调查过程中生成的对话转录；以及一个用于存储和组织结果的数据库。为了测试我们的框架，我们招募了8名参与者，其中包括5名以英语为母语者和3名非英语母语者，并进行了40次调查。我们评估了由LLM生成的对话转录的准确性、GPT-4o推断的调查回答的准确性以及整体参与者体验。结果：尽管对话转录每行平均存在7.7%的单词错误率，GPT-4o仍然成功从对话转录中提取了调查回答，平均准确率达到98%。虽然参与者报告了对话LLM代理偶尔会出现的错误，但他们表示该代理成功传达了调查的目的，展示了良好的理解能力，并维持了互动的参与度。结论：我们的研究突显了LLM代理在开展和分析医疗保健应用中的电话调查方面的潜力。通过减轻人工访问员的工作负担并提供可扩展的解决方案，这种方法为实际中端到端的AI驱动电话调查收集系统铺平了道路。