LLM2D

摘要

arXiv:2504.16778v2 宣告类型: replace-cross 摘要：生成性人工智能（GenAI）模型已在全球各行各业中变得至关重要，然而目前的评估方法还未适应其广泛应用。传统评估方法通常依赖于基准测试和固定数据集，经常无法反映真实世界的表现，这在实验室测试结果和实际应用之间造成了差距。本文白皮书提出了一种全面的框架，用于评估真实的GenAI系统，强调多样且不断变化的输入以及整体、动态和持续的评估方法。本文为实际操作者提供了如何设计能够准确反映实时能力的评估方法的指导，并为政策制定者提供了基于社会影响而非固定性能数字或参数规模的GenAI政策建议。我们倡导将性能、公平性和伦理整合到整体框架中，并使用结合人工和自动化评估的持续、结果导向的方法，同时保持透明度以增强利益相关者的信任。实施这些策略确保GenAI模型不仅在技术上卓有成效，而且在伦理上负责任且具有影响力。