随着大模型技术的不断发展,模型结构和参数量级快速演化。大模型技术的应用层出不穷。大模型展现惊人效果,但训练和推理成本高,一直是巨大挑战。
随着大模型技术的发展,moe大模型证明了稀疏moe技术能降低计算量、提升推理速度,模型效果甚至超过同规模稠密模型。阿里云pai和nvidia团队合作,基于megatron-core moe框架,解决了moe大模型训练落地时的核心问题,在下游任务上取得了很好的模型效果。megatron-core moe支持并行性、路由和负载均衡等特性,提供了一个强大的moe训练框架。阿里云pai的moe训练工具由pai平台、pai-megatron-patch和nvidia megatron-core组成。通过测试,验证了训练工具的可靠性和稳定性。