LLM2D

摘要

arXiv:2504.18310v1 Announce Type: 交叉摘要：利用由英国和欧盟登记处授权的基本健康声明，以及来自审查期刊、政府建议、社交媒体和涵盖政治光谱范围的新闻媒体等来源的9,100个记者审核过的公共卫生主张（涉及堕胎、新冠病毒和政治等话题），我们针对21种语言中的六种领先的大语言模型进行了基准测试，发现尽管在以英语为中心的教科书声明上表现出很高的准确性，但在多种非欧洲语言上的表现却下降，并且在不同话题和来源上波动，强调了在将AI应用于全球健康沟通之前进行全面的多语言、领域 aware 的验证的重要性。