摘要
arXiv:2409.13588v2 更新类型: 替换-交叉
摘要:随着大型语言模型(LLMs)的发展,它们的应用潜力显著增长。然而,评估LLM在用户定义任务上的行为并构建有效的评估流水线仍然颇具挑战性。许多用户在开始时遇到了困难,这常常被称为“空白页面问题”。ChainBuddy是内置在ChainForge平台中的一个AI工作流生成助手,旨在解决这一问题。从单一的提示或对话开始,ChainBuddy可以在ChainForge中生成一个符合用户要求的启动评估LLM流程。ChainBuddy提供了一种简单直观且用户友好的方式来规划和评估LLM行为,使这一过程对各种可能的任务和应用场景来说不再那么令人畏惧。我们报告了一项针对ChainBuddy和基线界面的被试内用户研究。我们发现,当使用AI辅助时,参与者报告的工作量较小,感觉更加自信,生成的评估LLM行为的流水线质量也更高。然而,我们也发现主观评价和客观评价之间的不匹配:参与者在不同条件下对自己成功的评价相似,而独立专家在使用AI辅助时对参与者的工作流的评价显著较高。结合道宁-克鲁格效应,我们得出了对未来工作流生成助手设计的启示,以减轻过度依赖的风险。