筛选

SGLang Workshop

基于Mooncake的SGLang Prefill/Decode分离方案

9月14日

10:50 - 11:25

地点: 会场3-268

大语言模型(LLM)推理包含两个不同的阶段:Prefill和Decode。Prefill阶段是计算密集型的,处理整个输入序列,而Decode阶段是内存密集型的,管理用于生成token的键值(KV)缓存。传统上,这些阶段在统一引擎内处理,其中prefill和decode批次的组合调度会带来效率低下的问题。为了解决这些挑战,我们在SGLang中引入了Prefill和Decoding(PD)分离,这使得能够为每个阶段进行定制优化。

讲师