筛选

AI Next

UCM面向稀疏化注意力加速的推理架构设计分享

9月14日

11:25 - 12:00

地点: Keynote会场-318 & 328

随着大模型参数与上下文窗口同步膨胀,稠密注意力计算已成为线上推理的绝对瓶颈——显存占用呈二次曲线、延迟随序列长度线性飙升。业界普遍采用KVCache+投机解码来缓解,但在超长序列的极限场景下仍捉襟见肘。本次分享聚焦「稀疏注意力」这一新范式,从算法、插件化设计到软件实现,首次系统性公开我们自研UCM推理记忆数据管理器的稀疏化推理栈的架构设计思路与落地经验。

讲师