LLM2D

摘要

arXiv:2504.21032v1 类别: cross 摘要: 伴随电子政务服务的解释的感知质量对于获得这些机构的信任至关重要，从而进一步增加这些服务的使用。近期生成式AI的进步，具体来说是大型语言模型（LLMs），允许自动化这样的内容表述，揭示解释的可解释性和保真度，并且更广泛地说，适应各种受众。然而，为电子政务服务机构选择合适的LLM类型已经变成一项非平凡的任务。在这项工作中，我们采用了一个先前开发的量表来辅助这一选择，提供了一种系统方法，用于比较各种LLMs生成的解释的感知质量。我们进一步通过税务申报过程展示了其适用性，使用它作为一个示例使用案例，该使用案例可以从采用LLM生成税务退款决定解释中受益。我们通过一项用户研究实现这一目标，其中128名调查受访者被要求对不同版本的LLM生成的税务退款决定解释进行评价，为选择最合适的LLM提供了一种方法论基础。认识到进行此类调查的实际挑战，我们还开始探索自动化这一过程，试图通过选择几种最先进的预测技术来复制人类反馈。