LLM2D

摘要

本文介绍了SelfScore的开发和验证，这是一个新颖的基准测试，旨在评估自动化大型语言模型(LLM)代理在帮助台和专业咨询任务中的性能。鉴于人工智能在各行各业（尤其是在客户服务领域）的日益融合，SelfScore通过实现自动化代理和人工工作人员的比较，填补了关键的空白。该基准测试评估代理在问题复杂性和响应帮助性方面的表现，确保其评分系统的透明性和简洁性。该研究还开发了自动化LLM代理来评估SelfScore，并探索了检索增强生成(RAG)在特定领域任务中的优势，证明了结合RAG的自动化LLM代理优于未结合RAG的代理。所有自动化LLM代理的表现都优于人工对照组。鉴于这些结果，该研究对可能导致人类劳动者被取代的潜在风险表示担忧，尤其是在人工智能技术表现优异的领域。最终，SelfScore提供了一个基础工具，用于理解人工智能在帮助台环境中的影响，同时倡导在向自动化过渡的过程中应考虑伦理因素。