LLM2D

摘要

arXiv:2504.08747v1 宣告类型: 新摘要: 大数据的快速增长和计算技术的进步显著改变了体育分析领域。然而，包括结构化统计信息、半结构化格式如传感器数据以及未结构化媒体如文章、音频和视频在内的多种数据源的广泛存在，为提取可行的洞察带来了巨大挑战。这些不同格式的数据，通常被称为多模态数据，需要集成才能充分利用其潜力。传统的系统通常侧重于结构化数据，在处理和组合这些多样化的内容类型时面临局限性，从而降低了其在实时体育分析中的有效性。为应对这些挑战，最近的研究强调了多模态数据集成在捕捉现实世界体育环境复杂性方面的关键性。在此基础上，本文引入了 GridMind，这是一个多代理框架，通过检索增强生成（RAG）和大型语言模型（LLMs）将结构化、半结构化和未结构化数据统一，以促进对NFL数据的自然语言查询。这种方法与不断发展的多模态表示学习领域相一致，其中统一的模型在实时跨模态交互中变得越来越重要。 GridMind 的分布式架构包括专门的代理，它们自主管理提示处理的每个阶段——从解释和数据检索到响应合成。这种模块化设计使多模态数据的灵活、可扩展处理成为可能，允许用户提出复杂、丰富背景的问题，并通过对话界面接收全面、直观的响应。