LLM2D

摘要

arXiv:2306.03100v4 公告类型：替换-交叉摘要：生成大型语言模型（LLMs）的 recent 发展对模型评估提出了新的挑战，这些挑战使得研究界和产业界一直在努力应对。尽管这些模型的多功能性引发了极大的兴趣，但它们不可避免地朝着同质化方向发展：通过一个单一的，通常被称为“通用目的”的模型来驱动各种各样的应用。在本文中，我们认为必须采取批判性的任务来应对这种同质化所带来的挑战和责任：为现有模型（即，社会-技术差距）在多样化的下游应用案例中是否和到何种程度能够满足人类需求提供有效的评估。通过借鉴社会科学研究、人机交互（HCI）以及可解释人工智能（XAI）跨学科领域的关于提高研究现实性的经验教训，我们敦促社区基于真实世界的背景和人类的需求来开发评估方法，并承认在进行评估时现实性和实用成本之间的权衡。通过映射人机交互和当前的自然语言生成评估方法，我们识别出评估方法在LLMs中缩小社会-技术差距的机会，并提出了开放性问题。