Edge AI Workshop

面向端侧的大规模 MoE 部署的协同压缩

9月13日

•

14:30 - 14:55

地点： 会场6-B01

专家混合（MoE）架构是扩展大语言模型的重要方法，能够在保持低计算成本的同时增加模型容量。然而，最新的超大规模MoE模型仍有数千亿参数，需要非常大的内存和存储空间，使得在边缘或资源受限环境中的部署变得困难。本演讲介绍了一个针对超大规模MoE模型的压缩框架，结合了专家剪枝、MoE专用混合精度量化和激活优化。该框架既减少了模型权重大小，又降低了激活使用的内存。在128GB内存限制下，实现了据我们所知首次高效部署DeepSeek-V3等大规模模型，性能优于相同内存限制下的统一低位量化方法。

讲师

王言治

美国东北大学教授