Infrastructure
snapshot
Мгновенный снимок состояния диска GPU-инстанса для резервного копирования или клонирования.
Что такое snapshot в контексте GPU-инстансов
Snapshot (снимок) — полная копия состояния диска виртуальной машины или контейнера в определённый момент времени. Позволяет:
- Восстановить инстанс после сбоя
- Создать шаблон настроенной среды
- Клонировать конфигурацию для новых инстансов
Применение в ML
Сохранение настроенной среды: после установки CUDA, PyTorch, специфических зависимостей и скачивания модели — сделать snapshot. При создании нового инстанса восстановиться из snapshot вместо повторной настройки.
До экспериментов: snapshot перед рискованными изменениями в среде или экспериментальными установками.
Перед долгим обучением: помимо чекпоинтов самой модели, иметь snapshot диска — дополнительная страховка.
Snapshot vs чекпоинт
| Snapshot диска | Checkpoint модели | |
|---|---|---|
| Что содержит | Всё: ОС, библиотеки, код, данные | Только веса и состояние оптимизатора |
| Размер | Десятки–сотни ГБ | 14–140+ ГБ |
| Скорость создания | Минуты | Секунды–минуты |
| Назначение | Восстановление среды | Возобновление обучения |
Типичный workflow
# 1. Настроить инстанс
pip install -r requirements.txt
huggingface-cli download meta-llama/Llama-3.1-8B-Instruct --local-dir /models/
# 2. Создать snapshot через UI или API провайдера
# 3. При следующем запуске — восстановить из snapshot:
# Экономит 30–60 минут настройки и скачивания
Связанные термины
- чекпоинт — сохранение состояния обучения (не диска)
- persistent volume — постоянное хранилище данных
- GPU-инстанс — диск которого снимается в snapshot
Готовы запустить GPU-задачу?
Запустить GPU-сервер