LLM2D

摘要

arXiv:2503.20648v1 交叉类型：公告摘要：行为疗法笔记对于法律合规和患者护理都非常重要。与身体健康状况下的进步记录不同，针对行为疗法笔记的质量标准尚未充分发展。为了解决这一差距，我们与持照治疗师合作设计了一个全面的评估框架，用于评估疗法笔记的关键维度：完整性、简洁性和忠实性。此外，我们扩展了一个公开的行为健康对话数据集，其中包含治疗师撰写的内容和由大模型生成的内容，并应用我们的评估框架来衡量它们的质量。我们发现：(1) 基于评分标准的手动评估协议比传统的李克特量表注释提供了更可靠和可解释的结果。(2) 大模型在评估完整性与简洁性方面可以模仿人类评估者的表现，但在忠实性方面则存在问题。(3) 治疗师撰写的内容往往缺乏完整性和简洁性，而由大模型生成的内容则包含幻觉。令人惊讶的是，在盲测中，治疗师更倾向于选择大模型生成的内容，并认为其优于治疗师撰写的内容。