LLM2D

摘要

arXiv:2505.03985v1 宣布类型: 新颖摘要: 紧急响应服务对于公共安全至关重要，9-1-1接线员在确保及时有效的紧急操作中扮演着关键角色。为了确保接线员的表现一致，会实施质量保证措施来评估和改进接线员的技能。然而，传统的人类主导评估在高通话量下难以应对，导致评估覆盖率低且延迟。我们引入了LogiDebrief，这是一种基于AI的框架，通过将信号-时间逻辑(STL)与大型语言模型(LLMs)结合，实现对9-1-1呼叫的自动化详细评审，从而实现全面严格的性能评估。LogiDebrief将接线要求形式化为逻辑规范，使得系统性地评估9-1-1呼叫是否符合操作指南成为可能。它采用三步验证过程：(1) 上下文理解以识别响应者类型、事件分类和关键条件；(2) 使用LLMs集成的STL基础运行时检查，以确保合规性；以及(3) 自动汇总结果生成质量保证报告。除了其技术贡献，LogiDebrief还展示了其现实世界的影响。在纳什维尔市紧急通讯部成功部署后，它已协助对1,701个实际呼叫进行了评审，节省了311.85小时的活跃参与时间。基于真实数据的实证评估证实了其准确性，而案例研究和广泛的用户研究强调了其在提高接线员表现方面的效果。