LLM2D

摘要

arXiv:2409.13588v2 更新类型: 替换-交叉摘要：随着大型语言模型（LLMs）的发展，它们的应用潜力显著增长。然而，评估LLM在用户定义任务上的行为并构建有效的评估流水线仍然颇具挑战性。许多用户在开始时遇到了困难，这常常被称为“空白页面问题”。ChainBuddy是内置在ChainForge平台中的一个AI工作流生成助手，旨在解决这一问题。从单一的提示或对话开始，ChainBuddy可以在ChainForge中生成一个符合用户要求的启动评估LLM流程。ChainBuddy提供了一种简单直观且用户友好的方式来规划和评估LLM行为，使这一过程对各种可能的任务和应用场景来说不再那么令人畏惧。我们报告了一项针对ChainBuddy和基线界面的被试内用户研究。我们发现，当使用AI辅助时，参与者报告的工作量较小，感觉更加自信，生成的评估LLM行为的流水线质量也更高。然而，我们也发现主观评价和客观评价之间的不匹配：参与者在不同条件下对自己成功的评价相似，而独立专家在使用AI辅助时对参与者的工作流的评价显著较高。结合道宁-克鲁格效应，我们得出了对未来工作流生成助手设计的启示，以减轻过度依赖的风险。