筛选

Edge AI Workshop

面向端侧的大规模 MoE 部署的协同压缩

9月13日

14:30 - 14:55

地点: 会场6-B01

专家混合(MoE)架构是扩展大语言模型的重要方法,能够在保持低计算成本的同时增加模型容量。然而,最新的超大规模MoE模型仍有数千亿参数,需要非常大的内存和存储空间,使得在边缘或资源受限环境中的部署变得困难。本演讲介绍了一个针对超大规模MoE模型的压缩框架,结合了专家剪枝、MoE专用混合精度量化和激活优化。该框架既减少了模型权重大小,又降低了激活使用的内存。在128GB内存限制下,实现了据我们所知首次高效部署DeepSeek-V3等大规模模型,性能优于相同内存限制下的统一低位量化方法。

讲师