LLM2D

摘要

arXiv:2504.15211v1 宣布类型: 新闻摘要: 生成型人工智能（GenAI）系统的评估在公共政策和决策中发挥着关键作用，但现有方法往往受限于基准驱动的点估计比较，无法捕捉不确定性及其更广泛的社会影响。本文主张使用贝叶斯统计作为解决这些挑战的规范性框架。贝叶斯方法通过先验信息融合领域专业知识，能够从新数据中持续学习，并通过后验推理提供稳健的不确定性量化。我们展示了如何将贝叶斯推理应用于GenAI评估，特别是如何纳入利益相关者视角以增强公平性、透明度和可靠性。此外，我们讨论了贝叶斯工作流程作为一种迭代过程，用于模型验证和改进，确保在动态的现实世界背景下对GenAI系统的稳健评估。