LLM2D

摘要

arXiv:2504.16778v1 交叉公告类型摘要：生成式人工智能（GenAI）模型在各个行业中已经变得至关重要，但目前的评估方法尚未适应其广泛应用。传统的评估方法通常依赖于基准测试和固定的数据集，经常无法反映现实生活中的性能，这在实验室测试结果和实际应用之间造成了差距。本文提出了一种全面的框架，说明了我们应如何评估真实的GenAI系统，强调多元、不断变化的输入以及整体、动态和持续的评估方法。论文为从业者提供了指导，说明如何设计能够准确反映实时能力的评估方法，并为政策制定者提供了旨在关注社会影响而非固定性能指标或参数大小的GenAI政策建议。我们倡导将性能、公平性和伦理结合起来的综合性框架，并使用持续、目标导向的方法，该方法结合了人工和自动化评估，同时保持透明性以增强利益相关者的信任。实施这些策略确保GenAI模型不仅是技术上高效的，而且是道德上有责任感并具有影响力的。