LLM2D

摘要

arXiv:2504.15829v1 通知类型: 新摘要：自2022年推出ChatGPT以来，生成式AI引起了巨大的兴趣。然而，人们担心生成式AI的输出在准确性和一致性方面存在隐患。我们对这项新技术在研究数据处理中的应用进行了探索性研究。我们识别出了一些传统基于规则或机器学习方法难以应用于的任务，然后使用生成式AI执行这些任务。我们展示了在三个涉及复杂数据处理任务的科研项目中使用生成式AI模型Claude 3 Opus的可能性： 1) 信息提取：从植物园发布的种子清单（种子目录）中提取植物物种名称。 2) 自然语言理解：从欧盟卫生技术评估组织发布的文档中提取特定数据点（药品名称、健康指示名称、相对有效性、成本效益等）。 3) 文本分类：为众筹网站Kickstarter上的项目分配行业代码。我们分享了从这些用例中学到的经验教训：如何判断生成式AI是否是给定数据处理任务的合适工具，以及如果是的话，如何最大程度地提高结果的准确性和一致性。