CUDA与MPS的深度学习训练与推理速度比较

初次编写时间:2023/06/17

随着各深度学习框架在ARM Mac上支持了MPS后端,目前可以使用Mac的GPU进行深度学习任务。

具体的配置方法网络上有很多,且很简单,这里不再赘述,主要比较MPS后端与CUDA后端的速度差异。

训练速度推理速度
Nvidia Geforce RTX3060 12GB (Windows, CUDA)4.66x1.43x
Nvidia Tesla P100 (Kaggle, CUDA)6.03x1.45x
Apple M1 GPU (丐版7核, MPS)1.00x1.00x

测试基准 (所有测试基于PyTorch)

训练速度:https://huggingface.co/docs/transformers/quicktour#trainer-a-pytorch-optimized-training-loopopen in new window

推理速度:https://huggingface.co/docs/transformers/quicktour#pipelineopen in new window