摘要
arXiv:2502.14785v1 摘要类型: cross
摘要: 根据用户指定的目标属性,在实时预测适合投放多百万美元广告业务的电视机数量(设备覆盖范围)是至关重要的。传统的通过SQL查询连接数以亿条记录的多目标维度的方法非常缓慢。作为权宜之计,许多应用程序将有一个离线过程来计算这些数字并在几小时后呈现结果。在我们的情况下,这个过程需要花费24小时将一个客户上线,从而可能导致潜在的业务损失。为了解决这个问题,我们建立了一个新的实时预测系统,使用MinHash和HyperLogLog (HLL)数据摘要在用户请求时实时计算设备覆盖范围。然而,现有的MinHash实现无法解决多级聚合和交集的复杂问题。本文将展示我们是如何解决这个问题的,此外,我们还改进了MinHash算法,使其使用单指令多数据(SIMD)向量操作以高速度和高准确性处理亿级以上记录的同时占用恒定空间。最后,通过实验我们证明,结果与传统的离线预测系统一样准确,接受的误差率为5%。