摘要
arXiv:2505.03332v2 宣告类型:替换
摘要:对科学手稿进行关键性同行评审是大型语言模型(LLMs)面临的一项重大挑战,部分原因是数据限制和专家推理的复杂性。本报告介绍了持久工作流提示(PWP),这是一种潜在地广泛适用的提示工程方法,旨在使用标准LLM聊天界面(无需编码,无需API)来弥合这一差距。我们提出了一种基于PWP的概念性提示,用于实验化学手稿的关键分析,该提示通过Markdown结构化,具有层次化、模块化的架构,定义了详细的分析工作流程。我们通过迭代应用元提示技术和元推理来开发这一PWP提示,旨在系统地编码专家审查工作流程,包括隐含知识。在一个会话开始时提交一次,该PWP提示为LLM提供了持久工作流程,这些工作流程可通过后续查询触发,引导现代推理LLM进行系统的、多模态的评估。演示显示,PWP指导的LLM在测试案例中识别出重要的方法论缺陷,同时缓解了LLM的输入偏见,并能执行复杂任务,包括区分主张与证据、将文本/照片/图版分析整合以推断参数、执行定量可行性检查、将估计值与主张进行比较以及评估先验合理性。为了确保透明度并促进复制,我们提供了完整的提示、详细的演示分析以及交互式聊天日志作为补充资源。除了特定的应用之外,这项工作还提供了关于元开发过程本身的见解,突显了PWP在详细的工作流程形式化指导下,能够利用现成的LLM进行复杂科学任务的高级分析的潜力。