摘要
本文介绍了SelfScore的开发和验证,这是一个新颖的基准测试,旨在评估自动化大型语言模型(LLM)代理在帮助台和专业咨询任务中的性能。鉴于人工智能在各行各业(尤其是在客户服务领域)的日益融合,SelfScore通过实现自动化代理和人工工作人员的比较,填补了关键的空白。该基准测试评估代理在问题复杂性和响应帮助性方面的表现,确保其评分系统的透明性和简洁性。该研究还开发了自动化LLM代理来评估SelfScore,并探索了检索增强生成(RAG)在特定领域任务中的优势,证明了结合RAG的自动化LLM代理优于未结合RAG的代理。所有自动化LLM代理的表现都优于人工对照组。鉴于这些结果,该研究对可能导致人类劳动者被取代的潜在风险表示担忧,尤其是在人工智能技术表现优异的领域。最终,SelfScore提供了一个基础工具,用于理解人工智能在帮助台环境中的影响,同时倡导在向自动化过渡的过程中应考虑伦理因素。