活动已结束,感谢参与
讲师
主题
议程安排
赞助商
讲师 PPT
同期活动
会议地点 & PPT 模版
English
中文
活动已结束,感谢参与
筛选
讲师
主题
议程安排
赞助商
讲师 PPT
同期活动
会议地点 & PPT 模版
English
中文
活动已结束,感谢参与
筛选
AI Next
UCM面向稀疏化注意力加速的推理架构设计分享
9月14日
•
11:25 - 12:00
地点:
Keynote会场-318 & 328
随着大模型参数与上下文窗口同步膨胀,稠密注意力计算已成为线上推理的绝对瓶颈——显存占用呈二次曲线、延迟随序列长度线性飙升。业界普遍采用KVCache+投机解码来缓解,但在超长序列的极限场景下仍捉襟见肘。本次分享聚焦「稀疏注意力」这一新范式,从算法、插件化设计到软件实现,首次系统性公开我们自研UCM推理记忆数据管理器的稀疏化推理栈的架构设计思路与落地经验。
讲师
张静斌
华为高级首席架构师兼技术经理
Share: