摘要
arXiv:2504.04363v1 Announce Type: 跨领域
摘要:现有的 Text-to-SQL 模型面临着训练数据不足的问题,这限制了它们对 SQL 查询在新领域应用的推动能力。为了解决这一挑战,已经采用了各种数据合成技术来生成更多多样化和高质量的数据。在本文中,我们提出了一种名为 REFORMER 的框架,该框架无需额外训练即可利用 ChatGPT 的优势,以适应新领域的(问题,SQL 查询)对的合成。我们的数据增强方法基于“检索与编辑”方法,在这种方法中,我们通过使用 ChatGPT 的 SQL 查询解释来填充掩蔽的问题,从而生成新的问题。此外,我们还展示了当适当应用时,循环一致性仍然是一个有价值的验证方法。我们的实验结果表明,REFORMER 一致地优于之前的数据增强方法。为进一步研究 ChatGPT 的能力并创建一个通用的数据增强方法,我们还通过改写数据集中的问题和改写由 ChatGPT 生成的新 SQL 查询的描述来生成新数据。我们的结果显示,改写由 ChatGPT 生成的问题有助于增强原始数据。