2 月 4 日消息,据“华为计算”今日消息,随着大语言模型迅猛发展,参数量已迈入千亿甚至万亿级别,MoE(注:混合专家)稀疏架构凭借兼顾模型容量与计算效率的优势,成为 AI 领域核心研究方向。
在此背景下,南京大学李猛博士团队,依托南京大学鲲鹏昇腾科教创新孵化中心的算力支持,基于华为昇腾,开展专家等价性驱动的 MoE 无损显存高效优化研究,成功攻克系列技术瓶颈,实现显存消耗降低 50% 以上、推理延迟显著提升的重要突破。
项目聚焦 MoE 模型部署的核心痛点:大参数量模型部署时,高显存占用导致仅能驻留少量热专家,大量参数需频繁在内存与显存间切换,引发严重推理延迟;同时,自主化硬件适配需求日益迫切。
团队基于对 MoE 专家冗余性与等价性的创新观察,提出软硬件协同优化方案,通过四项核心技术构建异构推理混合部署框架,实现全链路效率提升。
首先,团队创新设计三级流水线并行架构,将参数加载、CPU 串行计算与 GPU 并行推理深度重叠,大幅减轻数据传输压力,让计算与参数传输高度并行;
其二,突破传统路由机制,基于专家等价性将专家划分为高分、中分、可替代低分三类,优先缓存核心专家,利用等价专家灵活替代未加载的低分专家,显著减少冗余传输与显存占用;
其三,首创共享专家引导的在线预取机制,无需离线训练即可精准预测后续所需专家,提前完成参数加载,有效隐藏预取延迟;
最后,设计双指针动态负载均衡算法,根据任务规模智能分配 CPU 与 GPU 算力,充分发挥异构计算优势,规避小批量任务的加载延迟问题。
依托昇腾的硬件特性与 CANN 软件栈,团队针对性研发异构推理加速引擎 MoE-Ascend,涵盖动态专家路由管理、专家预测预取、算子适配等核心功能模块,实现昇腾平台的深度适配与优化。
该引擎可支持昇腾等多硬件环境,在保持模型精度无损的前提下,不仅将显存消耗降至原方案的一半,推理速度也较同类方法提升 2 倍以上,提升显存缓存命中率到 70% 以上,破解 MoE 模型对国外高端硬件的依赖。
该项目构建的推理优化工具链计划开源至昇腾社区、DeepModeling 社区及 GitHub,供科研与工程开发者复用扩展。
未来,项目成果将应用于 AI 推理平台、智能客服、语音生成等多个场景,尤其适配昇腾等自主 NPU 部署环境,为边缘侧智能服务提供支撑。