LLM2D

摘要

arXiv:2503.21393v2 宣布类型: replace-cross 摘要：大规模语言模型（LLMs）在语言翻译方面表现突出，包括低资源语言。关于通过LLMs生成的翻译质量评估的研究相对有限，这包括Gemini、GPT和谷歌翻译。在这项研究中，我们通过使用对印度语言的选定LLMs进行语义和情感分析，解决了这一不足之处，这些印度语言包括梵语、泰卢固语和印地语。我们选择了专家翻译良好的著名文本，并使用LLMs生成其英语翻译，然后与选定的专家（人类）翻译进行比较。我们的研究发现表明，虽然LLMs在翻译准确性方面取得了显著进步，但在保留情感和语义完整性方面仍存在问题，尤其是在比喻性和哲学性语境中。情感分析显示，GPT-4o和GPT-3.5在保留《薄伽梵歌》（梵语-英语）翻译中的情感方面比谷歌翻译表现更好。对于泰卢固语-英语翻译的《塔马斯》（Tamas）和英语翻译的《大哲理》（Maha P）我们也观察到了类似的趋势。从情感角度来看，GPT-4o在翻译这三个语言时的表现与GPT-3.5相似。我们发现，与谷歌翻译相比，LLMs在捕捉情感方面通常表现更佳。