活动已结束,感谢参与
讲师
主题
议程安排
赞助商
讲师 PPT
同期活动
会议地点 & PPT 模版
English
中文
活动已结束,感谢参与
筛选
讲师
主题
议程安排
赞助商
讲师 PPT
同期活动
会议地点 & PPT 模版
English
中文
活动已结束,感谢参与
筛选
SGLang Workshop
基于Mooncake的SGLang Prefill/Decode分离方案
9月14日
•
10:50 - 11:25
地点:
会场3-268
大语言模型(LLM)推理包含两个不同的阶段:Prefill和Decode。Prefill阶段是计算密集型的,处理整个输入序列,而Decode阶段是内存密集型的,管理用于生成token的键值(KV)缓存。传统上,这些阶段在统一引擎内处理,其中prefill和decode批次的组合调度会带来效率低下的问题。为了解决这些挑战,我们在SGLang中引入了Prefill和Decoding(PD)分离,这使得能够为每个阶段进行定制优化。
讲师
蔡尚铭
高级工程师, 阿里云
Share: