LLM2D
人工 intelligence 健康建议的准确性在不同语言和背景下有所差异
Artificial Intelligence health advice accuracy varies across languages and contexts
作者: Prashant Garg, Thiemo Fetzer
发布日期: 4/28/2025
arXiv ID: oai:arXiv.org:2504.18310v1

摘要

arXiv:2504.18310v1 Announce Type: 交叉 摘要:利用由英国和欧盟登记处授权的基本健康声明,以及来自审查期刊、政府建议、社交媒体和涵盖政治光谱范围的新闻媒体等来源的9,100个记者审核过的公共卫生主张(涉及堕胎、新冠病毒和政治等话题),我们针对21种语言中的六种领先的大语言模型进行了基准测试,发现尽管在以英语为中心的教科书声明上表现出很高的准确性,但在多种非欧洲语言上的表现却下降,并且在不同话题和来源上波动,强调了在将AI应用于全球健康沟通之前进行全面的多语言、领域 aware 的验证的重要性。