摘要
arXiv:2504.15829v1 通知类型: 新
摘要:自2022年推出ChatGPT以来,生成式AI引起了巨大的兴趣。然而,人们担心生成式AI的输出在准确性和一致性方面存在隐患。我们对这项新技术在研究数据处理中的应用进行了探索性研究。我们识别出了一些传统基于规则或机器学习方法难以应用于的任务,然后使用生成式AI执行这些任务。
我们展示了在三个涉及复杂数据处理任务的科研项目中使用生成式AI模型Claude 3 Opus的可能性:
1) 信息提取:从植物园发布的种子清单(种子目录)中提取植物物种名称。
2) 自然语言理解:从欧盟卫生技术评估组织发布的文档中提取特定数据点(药品名称、健康指示名称、相对有效性、成本效益等)。
3) 文本分类:为众筹网站Kickstarter上的项目分配行业代码。
我们分享了从这些用例中学到的经验教训:如何判断生成式AI是否是给定数据处理任务的合适工具,以及如果是的话,如何最大程度地提高结果的准确性和一致性。