LLM2D

摘要

arXiv:2409.13712v1 公告类型: 交叉摘要: 在学术研究不断扩展的领域中，思想的激增给研究人员带来了重大挑战：如何从影响力较小的思想中辨别出有价值的思想。高效评估这些思想的潜力对于科学进步和论文评审至关重要。在这项工作中，我们专注于思想评估，旨在利用大型语言模型的知识来评估科学思想的价值。首先，我们调查了现有的文本评估研究，并定义了思想定量评估的问题。其次，我们从近四千篇全文手稿论文中精心策划并发布了一个基准数据集，旨在训练和评估不同方法在该任务中的表现。第三，我们通过使用大型语言模型特定层的表示，建立了一个量化思想价值的框架。实验结果表明，我们的方法预测的分数与人类评分相对一致。我们的研究结果表明，大型语言模型的表示在量化思想价值方面比其生成输出更具潜力，展示了自动化思想评估过程的潜力。