摘要
arXiv:2502.11736v1 评审类型: 交叉学科
摘要: 学术研究的不断增长与合格评审人员短缺的局面迫切需要创新性的同行评审方法。尽管大型语言模型(LLMs)有望为这一过程自动化带来可能,但它们目前仍存在表面化的评论、虚构事实和缺乏可操作洞察的问题。本研究通过引入一种全面的评价框架来克服这些挑战,该框架衡量与人类评价的一致性、验证事实准确性、评估分析深度并识别可操作的洞察。我们还提出了一种新的对齐机制,使生成的 AI 评审能够针对每个会议和期刊的独特评价优先级进行定制。为了提高这些评审的质量,我们引入了一种自改进循环,以迭代优化 LLM 的评审提示。该框架为评估基于 AI 的评审系统建立了标准化指标,从而增强了 AI 生成的评审在学术研究中的可靠性。