Infrastructure

snapshot

Мгновенный снимок состояния диска GPU-инстанса для резервного копирования или клонирования.

Что такое snapshot в контексте GPU-инстансов

Snapshot (снимок) — полная копия состояния диска виртуальной машины или контейнера в определённый момент времени. Позволяет:

  • Восстановить инстанс после сбоя
  • Создать шаблон настроенной среды
  • Клонировать конфигурацию для новых инстансов

Применение в ML

Сохранение настроенной среды: после установки CUDA, PyTorch, специфических зависимостей и скачивания модели — сделать snapshot. При создании нового инстанса восстановиться из snapshot вместо повторной настройки.

До экспериментов: snapshot перед рискованными изменениями в среде или экспериментальными установками.

Перед долгим обучением: помимо чекпоинтов самой модели, иметь snapshot диска — дополнительная страховка.

Snapshot vs чекпоинт

Snapshot диска Checkpoint модели
Что содержит Всё: ОС, библиотеки, код, данные Только веса и состояние оптимизатора
Размер Десятки–сотни ГБ 14–140+ ГБ
Скорость создания Минуты Секунды–минуты
Назначение Восстановление среды Возобновление обучения

Типичный workflow

# 1. Настроить инстанс
pip install -r requirements.txt
huggingface-cli download meta-llama/Llama-3.1-8B-Instruct --local-dir /models/

# 2. Создать snapshot через UI или API провайдера

# 3. При следующем запуске — восстановить из snapshot:
#    Экономит 30–60 минут настройки и скачивания

Связанные термины

Готовы запустить GPU-задачу?

Запустить GPU-сервер