Model Sharding

Performance

Splitting model across devices for parallelism

Pipeline or tensor model parallelism partitions model weights across GPUs to train or serve very large models.

Learn more about concepts related to Model Sharding

Distributed Training

Training across multiple machines or GPUs

Distributed Data Parallel (DDP)

PyTorch mechanism for synchronous multi-GPU training