SGLang Workshop

基于Mooncake的SGLang Prefill/Decode分离方案

9月14日

•

10:50 - 11:25

地点： 会场3-268

大语言模型(LLM)推理包含两个不同的阶段：Prefill和Decode。Prefill阶段是计算密集型的，处理整个输入序列，而Decode阶段是内存密集型的，管理用于生成token的键值(KV)缓存。传统上，这些阶段在统一引擎内处理，其中prefill和decode批次的组合调度会带来效率低下的问题。为了解决这些挑战，我们在SGLang中引入了Prefill和Decoding(PD)分离，这使得能够为每个阶段进行定制优化。

讲师

蔡尚铭

高级工程师, 阿里云