GPU Hardware

spot-инстанс

Прерываемый облачный инстанс по сниженной цене, который может быть отозван в любой момент.

Что такое spot-инстанс

Spot-инстанс (прерываемый инстанс) — облачный ресурс, предоставляемый по значительно сниженной цене (30–90% скидка) в обмен на возможность провайдера прервать работу инстанса в любой момент (обычно с уведомлением за 30–120 секунд).

Логика простая: облачный провайдер имеет простаивающие GPU-мощности. Вместо того чтобы они пустовали, их предлагают по сниженной цене тем, кто может терпеть прерывания.

На Vast.ai прерываемые инстансы называются interruptible и дешевле on-demand в 1.5–3×.

Когда spot-инстансы подходят

Подходит:

  • Обучение с частыми чекпоинтами — если прервут, продолжите с последнего сохранения
  • Batch-инференс или массовая обработка данных — легко возобновляется
  • Эксперименты, разработка, прототипирование

Не подходит:

  • Production-инференс с SLA — неприемлемые downtime
  • Многодневное обучение без надёжных чекпоинтов — риск потери прогресса
  • Интерактивные задачи, требующие непрерывности

Практика использования spot-инстансов

# Сохранять чекпоинты часто (каждые 30–60 минут)
trainer = Trainer(
    ...
    save_steps=500,
    save_total_limit=3,   # хранить 3 последних чекпоинта
)

# Или через callback для мгновенного сохранения при сигнале прерывания
import signal
def handle_interrupt(signum, frame):
    trainer.save_model('./checkpoint-emergency')
    sys.exit(0)
signal.signal(signal.SIGTERM, handle_interrupt)

Связанные термины

  • GPU-инстанс — стандартный (on-demand) инстанс
  • чекпоинт — сохранение состояния обучения
  • Vast.ai — маркетплейс с spot/interruptible инстансами (внешняя ссылка)

Готовы запустить GPU-задачу?

Запустить GPU-сервер