筛选

AI 模型 × 基础设施

昇腾高吞吐投机推理框架Omni-Infer

9月13日

16:15 - 16:50

地点: 会场4-338

EAGLE/MTP为代表的高接受率的投机推理方案,正推动着投机推理的落地。投机推理一次推理计算多个token,能够充分发挥昇腾高计算密度带宽比的特点。为此,我们开发适配了高性能推理框架omniinfer,来充分发挥昇腾的性能。针对eagle、mtp等投机推理方案模型结构上的特点,我们优化投机推理的调度框架,降低昇腾的空闲时间,并对采样方式进行优化,维持模型精度、提升接受率。当然,针对昇腾硬件的特点,我们也实现了针对性的硬件优化。

讲师