LLM2D
Krutrim LLM:为超过十亿人构建的多语言基础模型
Krutrim LLM: Multilingual Foundational Model for over a Billion People
作者: Aditya Kallappa, Palash Kamble, Abhinav Ravi, Akshat Patidar, Vinayak Dhruv, Deepak Kumar, Raghav Awasthi, Arveti Manjunath, Shubham Agarwal, Kumar Ashish, Gautam Bhargava, Chandra Khatri
发布日期: 2/17/2025
arXiv ID: oai:arXiv.org:2502.09642v1

摘要

arXiv:2502.09642v1 Announce Type: cross 摘要:印度是一个多元化社会,在发展人工智能系统方面面临着独特的挑战,包括语言多样性、口头传统、数据可获取性和可扩展性。现有的基础模型主要是在英语上进行训练,这限制了它们对印度人口的有效性。印度语文本仅占Common Crawl语料库的1%,尽管印度占全球人口的18%,导致语言偏差。成千上万种地方语言、方言和代码混合创造了大量的表示挑战,因为训练数据稀疏。 我们引入了Krutrim LLM,这是一种针对印度语言景观设计的2兆亿词多语言模型。它包含了已知最大的印度语数据集,缓解了数据稀缺性,并确保在方言方面实现平衡性能。Krutrim在印度基准测试中表现优于或等于最先进的模型,同时保持竞争力的英语性能。尽管训练FLOPS显著较小,但Krutrim LLM在16个任务中的10个上与LLAMA-2相当,平均得分为0.57对0.55。这表明Krutrim在不同的语言环境中具有灵活的多语言流利性。 Krutrim集成了实时搜索以提高对话AI应用的事实准确性。这使得超过10亿的用户能够更方便地使用。通过针对数据不平衡的故意设计选择,Krutrim LLM代表着在构建伦理和全球代表性的人工智能模型方面的实质性进展。