LLM2D

摘要

arXiv:2502.09642v1 Announce Type: cross 摘要：印度是一个多元化社会，在发展人工智能系统方面面临着独特的挑战，包括语言多样性、口头传统、数据可获取性和可扩展性。现有的基础模型主要是在英语上进行训练，这限制了它们对印度人口的有效性。印度语文本仅占Common Crawl语料库的1%，尽管印度占全球人口的18%，导致语言偏差。成千上万种地方语言、方言和代码混合创造了大量的表示挑战，因为训练数据稀疏。我们引入了Krutrim LLM，这是一种针对印度语言景观设计的2兆亿词多语言模型。它包含了已知最大的印度语数据集，缓解了数据稀缺性，并确保在方言方面实现平衡性能。Krutrim在印度基准测试中表现优于或等于最先进的模型，同时保持竞争力的英语性能。尽管训练FLOPS显著较小，但Krutrim LLM在16个任务中的10个上与LLAMA-2相当，平均得分为0.57对0.55。这表明Krutrim在不同的语言环境中具有灵活的多语言流利性。 Krutrim集成了实时搜索以提高对话AI应用的事实准确性。这使得超过10亿的用户能够更方便地使用。通过针对数据不平衡的故意设计选择，Krutrim LLM代表着在构建伦理和全球代表性的人工智能模型方面的实质性进展。