Полное руководство по установке драйверов NVIDIA в Google Compute Engine

Хотите использовать возможности графических процессоров NVIDIA в Google Compute Engine (GCE)? Независимо от того, являетесь ли вы разработчиком, специалистом по данным или исследователем, ускорение графического процессора может значительно улучшить ваши рабочие нагрузки и повысить производительность. В этой статье мы рассмотрим различные способы установки драйверов NVIDIA в Google Compute Engine, дополненные разговорными объяснениями и полезными примерами кода. Давайте погрузимся!

Метод 1. Использование образа драйвера графического процессора NVIDIA, предоставленного Google

Google Compute Engine предоставляет предварительно настроенный образ драйвера графического процессора NVIDIA, что упрощает процесс установки. Выполните следующие действия:

  1. Создайте новый экземпляр в GCE с поддержкой графического процессора.
  2. Укажите образ драйвера NVIDIA в процессе создания экземпляра.
  3. Запустите экземпляр и убедитесь, что драйверы графического процессора запущены и работают.

Пример кода:

gcloud compute instances create INSTANCE_NAME \
  --image-family=cos-stable \
  --image-project=cos-cloud \
  --boot-disk-size=10GB \
  --accelerator=type=nvidia-tesla-v100,count=1 \
  --metadata="install-nvidia-driver=True"

Метод 2: установка вручную с использованием файла запуска NVIDIA

Если вы предпочитаете более практический подход, вы можете вручную установить драйверы NVIDIA, используя официальный файл запуска NVIDIA. Вот как:

  1. SSH к вашему экземпляру GCE.
  2. Загрузите соответствующий файл запуска драйвера графического процессора NVIDIA в зависимости от модели вашего графического процессора и операционной системы экземпляра GCE.
  3. Отключите драйвер ядра Nouveau и перезагрузите экземпляр.
  4. Установите драйвер NVIDIA, используя файл запуска.
  5. Проверьте установку и перезагрузите экземпляр.

Пример кода:

sudo apt-get update
sudo apt-get install build-essential
sudo apt-get install linux-headers-$(uname -r)
wget http://us.download.nvidia.com/URL_TO_NVIDIA_RUNFILE
sudo chmod +x NVIDIA_RUNFILE
sudo service gdm3 stop  # For Ubuntu with GNOME desktop
sudo sh NVIDIA_RUNFILE
sudo reboot

Метод 3. Использование оптимизированной для контейнеров ОС с поддержкой графического процессора NVIDIA

Если вы предпочитаете использовать контейнерные рабочие нагрузки, вы можете использовать оптимизированную для контейнеров ОС (COS) с поддержкой графического процессора NVIDIA. Вот схема процесса:

  1. Создайте экземпляр COS с поддержкой графического процессора.
  2. Установите плагин устройства NVIDIA GPU для Kubernetes.
  3. Разверните контейнеры с ускорением на графическом процессоре в Kubernetes.

Пример кода:

gcloud compute instances create INSTANCE_NAME \
  --image-family=cos-stable \
  --image-project=cos-cloud \
  --boot-disk-size=10GB \
  --accelerator=type=nvidia-tesla-v100,count=1
kubectl apply -f https://raw.githubusercontent.com/GoogleCloudPlatform/container-engine-accelerators/stable/nvidia-driver-installer/cos/daemonset-preloaded.yaml

Метод 4: использование образа виртуальной машины глубокого обучения

Google предлагает образы виртуальных машин глубокого обучения, в которых предварительно установлены популярные платформы глубокого обучения и драйверы графического процессора. Выполните следующие действия:

  1. Создайте новый экземпляр, используя образ виртуальной машины глубокого обучения.
  2. Запустите экземпляр и убедитесь, что драйверы NVIDIA установлены и работают.

Пример кода:

gcloud compute instances create INSTANCE_NAME \
  --image-family=tf2-latest-gpu \
  --image-project=deeplearning-platform-release \
  --boot-disk-size=100GB \
  --accelerator=type=nvidia-tesla-v100,count=1