Компьютерное зрение на GPU: задачи и выбор ресурсов

Задача страницы. Быстро сориентировать, какие классы задач компьютерного зрения запускаются на облачных GPU, какие профили GPU и режимы включать (on‑demand/interruptible), как собирать потоки для изображений и видео, и куда идти дальше за деталями.

TL;DR

  • Разделяйте сценарии: онлайн (низкая латентность/RTSP) vs batch (throughput/экономия).
  • Начинайте с профилей 24–48–80 ГБ VRAM: 24 ГБ — детекция/классификация/OCR и стихи batch‑потоков; 48 ГБ — real‑time аналитика 576–1080p с несколькими моделями/ветками; 80 ГБ — сложные пайплайны, мульти‑камеры, 3D‑реконструкция и высокое разрешение.
  • Используйте interruptible для пакетных задач (детекция на архивах, реклассификация датасетов), on‑demand — для онлайн‑аналитики/демо.

Быстрые ссылки по подзадачам

Классы задач CV и выбор GPU

Класс Примеры SLA/метрики Режим Ресурсы
Детекция/классификация YOLO‑детект, ResNet/ViT p95 < 50–120 мс/кадр Онлайн/Batch 24–48 ГБ VRAM; INT8/FP16; NVDEC
Сегментация SAM/Mask‑детект p95 < 150–300 мс; IoU Онлайн/Интерактив 24–48 ГБ; pin‑memory
OCR (dok‑потоки) Кириллица, формуляры pages/min, CER/WER Batch 24 ГБ; I/O NVMe
Видео‑аналитика RTSP, мультикамеры fps/camera, drop‑rate Онлайн 48–80 ГБ; NVDEC/NVENC
ReID/Tracking ТЦ/склады IDF1/MOTA, fps Онлайн 24–48 ГБ; mix‑precision
3D‑реконструкция MVS/NeRF/SLAM iters/min, PSNR Batch 48–80 ГБ; много NVMe
Медицинские CT/MRI/US Dice/F1, p95 Batch/Онлайн 48–80 ГБ; приватность

Типовые пайплайны

A) Онлайн видео‑аналитика (несколько RTSP)

RTSP → GPU-декод → детектор → трекер + ReID → бизнес-правила → алерты/стрим
                                                    ↘ логи/метрики → хранилище

B) Batch‑классификация/детекция изображений

Object storage → шардирование → GPU-воркеры (препроц → инференс → постпроц) → сводный репорт

C) 3D‑реконструкция (MVS/NeRF)

Снимки/видео → извлечение кадров → оценка поз → оптимизация (MVS/NeRF) → экспорт

Выбор режима: on‑demand vs interruptible

  • On‑demand — низкая латентность/стриминг/демо/разметка.
  • Interruptible — пачки изображений, оффлайн‑OCR, гео‑анализ, 3D‑обучение.

Экономика и sizing (быстрые формулы)

GPU_needed ≈ (C × fps × t_inf × (1 + α)) / U
Cost_per_camera ≈ (GPU_hour_price × GPU_needed) / C
Imgs_per_hour ≈ 3600 / (S × t_step)

Где C — число камер, fps — целевой fps, t_inf — время инференса кадра, α — накладные, U — допустимая загрузка GPU.

Чек‑лист перед запуском

  • Выбран сценарий: онлайн vs batch; сформулированы SLA/метрики (fps, p95 latency, drop‑rate).
  • Подобран профиль GPU (24/48/80 ГБ) и режим (on‑demand/interruptible).
  • Собран минимальный пайплайн (декод → инференс → постпроц), подтверждён throughput.
  • Подключены метрики/алерты/логи; заведены квоты/лимиты.
  • Настроены правила безопасности и политики хранения.

Навигация по разделу «Компьютерное зрение»

YOLOv8/v9SAMDINOv2/CLIPВидео‑аналитикаOCRTracking/ReID3D‑реконструкцияМедицинаГеопространственныеСинтетические данныеEdge‑экспорт

Инфраструктура: ПроизводительностьХранилищеМониторингПланировщик стоимостиInterruptible‑паттерны

Готовы запустить?

Запустить GPU-сервер