LLM2D

摘要

arXiv:2504.19142v1 宣布类型：交叉摘要：大多数大型企业构建预定义的数据管道，并定期执行这些管道以使用SQL查询处理各种任务中的运营数据。这些管道的总体周转时间最短的关键问题是管道内并发查询的高效调度。现有的工具主要依赖于简单的启发式规则，因为很难表达查询的复杂特性和相互影响。最新的基于强化学习（RL）的方法有可能从反馈中捕捉这些模式，但由于调度空间庞大、采样成本高和样本利用效率低，直接应用它们仍具有挑战性。鉴于这些挑战，我们提出了BQSched，一种通过强化学习实现批并发查询非侵入性调度器。具体而言，BQSched 设计了一种基于注意力的状态表示来捕捉复杂的查询模式，并提出了一种增强辅助任务的近似策略优化（PPO）算法IQ-PPO，以充分开发利用日志中单个查询完成的丰富信号。在上述的RL框架基础上，BQSched 进一步引入了三种优化策略，包括自适应掩码以修剪动作空间、基于调度增益的查询聚类以应对大规模查询集，以及增量模拟器以降低采样成本。据我们所知，BQSched 是第一个通过RL实现批并发查询非侵入性调度器。广泛的实验表明，BQSched 可以显著提高批并发查询调度的效率和稳定性，同时在数据和查询方面具备显著的可扩展性和适应性。例如，在所有测试的DBMS和规模下，与通常使用的启发式策略和适应性RL调度器相比，BQSched 在TPC-DS基准测试中批查询的总体周转时间平均分别减少了34%和13%。