LLM2D
我需要帮忙!评估大型语言模型寻求用户支持的能力:以文本到 SQL 生成为例
I Need Help! Evaluating LLM's Ability to Ask for Users' Support: A Case Study on Text-to-SQL Generation
作者: Cheng-Kuang Wu, Zhi Rui Tam, Chao-Chung Wu, Chieh-Yen Lin, Hung-yi Lee, Yun-Nung Chen
发布日期: 10/1/2024
arXiv ID: oai:arXiv.org:2407.14767v2

摘要

本研究探讨了大型语言模型主动寻求用户支持的能力。我们提出了评估性能提升和用户负担之间权衡的指标,并研究了大型语言模型是否能够在信息可用性不同的情况下确定何时需要帮助。我们的实验表明,在没有外部反馈的情况下,许多大型语言模型难以识别它们对用户支持的需求。这些发现突出了外部信号的重要性,并为未来关于改进寻求支持策略的研究提供了见解。源代码:https://github.com/appier-research/i-need-help