获取门票
讲师
主题
议程安排
赞助商
Spotlight
同期活动
会议地点 & PPT 模版
English
中文
获取门票
筛选
讲师
主题
议程安排
赞助商
Spotlight
同期活动
会议地点 & PPT 模版
English
中文
获取门票
筛选
Edge AI Workshop
面向端侧的大规模 MoE 部署的协同压缩
9月13日
•
14:30 - 14:55
地点:
会场6-B01
专家混合(MoE)架构是扩展大语言模型的重要方法,能够在保持低计算成本的同时增加模型容量。然而,最新的超大规模MoE模型仍有数千亿参数,需要非常大的内存和存储空间,使得在边缘或资源受限环境中的部署变得困难。本演讲介绍了一个针对超大规模MoE模型的压缩框架,结合了专家剪枝、MoE专用混合精度量化和激活优化。该框架既减少了模型权重大小,又降低了激活使用的内存。在128GB内存限制下,实现了据我们所知首次高效部署DeepSeek-V3等大规模模型,性能优于相同内存限制下的统一低位量化方法。
讲师
王言治
美国东北大学教授
Share: