摘要
arXiv:2409.13588v1 公告类型: 交叉 摘要: 随着大型语言模型(LLMs)的进步,其潜在应用显著增加。然而,评估LLM在用户特定任务上的行为并构建有效的评估流程仍然具有挑战性。许多用户面临从何处开始的困境,常被称为"空白页面"问题。ChainBuddy是ChainForge平台内置的生成评估LLM流程的AI助手,旨在解决这一问题。ChainBuddy提供了一种简单且用户友好的方式来规划和评估LLM行为,使这一过程不再令人生畏,并使其在广泛的潜在任务和用例中更易获取。我们报告了一项针对ChainBuddy与基线界面的用户内研究。我们发现,在使用AI辅助时,参与者报告的工作量要求较低,并且对设置LLM行为评估流程更有信心。我们为未来辅助用户进行开放式AI评估的界面提供了见解。