活动已结束,感谢参与
讲师
主题
议程安排
赞助商
讲师 PPT
同期活动
会议地点 & PPT 模版
English
中文
活动已结束,感谢参与
筛选
讲师
主题
议程安排
赞助商
讲师 PPT
同期活动
会议地点 & PPT 模版
English
中文
活动已结束,感谢参与
筛选
AI 模型 × 基础设施
昇腾高吞吐投机推理框架Omni-Infer
9月13日
•
16:15 - 16:50
地点:
会场4-338
EAGLE/MTP为代表的高接受率的投机推理方案,正推动着投机推理的落地。投机推理一次推理计算多个token,能够充分发挥昇腾高计算密度带宽比的特点。为此,我们开发适配了高性能推理框架omniinfer,来充分发挥昇腾的性能。针对eagle、mtp等投机推理方案模型结构上的特点,我们优化投机推理的调度框架,降低昇腾的空闲时间,并对采样方式进行优化,维持模型精度、提升接受率。当然,针对昇腾硬件的特点,我们也实现了针对性的硬件优化。
讲师
丁益斌
博士, 华为
Share: