GPU Hardware
spot-инстанс
Прерываемый облачный инстанс по сниженной цене, который может быть отозван в любой момент.
Что такое spot-инстанс
Spot-инстанс (прерываемый инстанс) — облачный ресурс, предоставляемый по значительно сниженной цене (30–90% скидка) в обмен на возможность провайдера прервать работу инстанса в любой момент (обычно с уведомлением за 30–120 секунд).
Логика простая: облачный провайдер имеет простаивающие GPU-мощности. Вместо того чтобы они пустовали, их предлагают по сниженной цене тем, кто может терпеть прерывания.
На Vast.ai прерываемые инстансы называются interruptible и дешевле on-demand в 1.5–3×.
Когда spot-инстансы подходят
Подходит:
- Обучение с частыми чекпоинтами — если прервут, продолжите с последнего сохранения
- Batch-инференс или массовая обработка данных — легко возобновляется
- Эксперименты, разработка, прототипирование
Не подходит:
- Production-инференс с SLA — неприемлемые downtime
- Многодневное обучение без надёжных чекпоинтов — риск потери прогресса
- Интерактивные задачи, требующие непрерывности
Практика использования spot-инстансов
# Сохранять чекпоинты часто (каждые 30–60 минут)
trainer = Trainer(
...
save_steps=500,
save_total_limit=3, # хранить 3 последних чекпоинта
)
# Или через callback для мгновенного сохранения при сигнале прерывания
import signal
def handle_interrupt(signum, frame):
trainer.save_model('./checkpoint-emergency')
sys.exit(0)
signal.signal(signal.SIGTERM, handle_interrupt)
Связанные термины
- GPU-инстанс — стандартный (on-demand) инстанс
- чекпоинт — сохранение состояния обучения
- Vast.ai — маркетплейс с spot/interruptible инстансами (внешняя ссылка)
Готовы запустить GPU-задачу?
Запустить GPU-сервер