Компьютерное зрение на GPU: задачи и выбор ресурсов
Задача страницы. Быстро сориентировать, какие классы задач компьютерного зрения запускаются на облачных GPU, какие профили GPU и режимы включать (on‑demand/interruptible), как собирать потоки для изображений и видео, и куда идти дальше за деталями.
TL;DR
- Разделяйте сценарии: онлайн (низкая латентность/RTSP) vs batch (throughput/экономия).
- Начинайте с профилей 24–48–80 ГБ VRAM: 24 ГБ — детекция/классификация/OCR и стихи batch‑потоков; 48 ГБ — real‑time аналитика 576–1080p с несколькими моделями/ветками; 80 ГБ — сложные пайплайны, мульти‑камеры, 3D‑реконструкция и высокое разрешение.
- Используйте interruptible для пакетных задач (детекция на архивах, реклассификация датасетов), on‑demand — для онлайн‑аналитики/демо.
Быстрые ссылки по подзадачам
- Детекция/треккинг (YOLOv8/v9) — Realtime/батчи, несколько камер, NMS/ByteTrack.
- Сегментация интерактивная (SAM/SEEM) — Инструменты разметки/правки.
- Эмбеддинги/ретривал (DINOv2/CLIP) — Поиск по изображениям, дедупликация датасетов.
- Видео‑аналитика (RTSP/мультикамеры) — Декод, пайплайны, буферизация, алерты.
- OCR на GPU (dok‑потоки, кириллица) — Построение пайплайнов, языковая поддержка.
- ReID/треккинг объектов — Ассоциация треков, ReID‑фичи.
- 3D‑реконструкция (MVS/NeRF/SLAM) — Фотограмметрия, NeRF/GS, карты глубины.
- Медицинские изображения — Сегментация/классификация, приватность/политики.
- Геопространственные/SAR‑сцены — Тайлы, пирамиды, большие растры.
- Синтетические данные (Unity/Unreal/Omniverse) — Генерация сцен, доменный разрыв.
- Экспорт моделей на edge (TensorRT/ONNX) — Квантизация, пайплайны упаковки.
Классы задач CV и выбор GPU
| Класс | Примеры | SLA/метрики | Режим | Ресурсы |
|---|---|---|---|---|
| Детекция/классификация | YOLO‑детект, ResNet/ViT | p95 < 50–120 мс/кадр | Онлайн/Batch | 24–48 ГБ VRAM; INT8/FP16; NVDEC |
| Сегментация | SAM/Mask‑детект | p95 < 150–300 мс; IoU | Онлайн/Интерактив | 24–48 ГБ; pin‑memory |
| OCR (dok‑потоки) | Кириллица, формуляры | pages/min, CER/WER | Batch | 24 ГБ; I/O NVMe |
| Видео‑аналитика | RTSP, мультикамеры | fps/camera, drop‑rate | Онлайн | 48–80 ГБ; NVDEC/NVENC |
| ReID/Tracking | ТЦ/склады | IDF1/MOTA, fps | Онлайн | 24–48 ГБ; mix‑precision |
| 3D‑реконструкция | MVS/NeRF/SLAM | iters/min, PSNR | Batch | 48–80 ГБ; много NVMe |
| Медицинские | CT/MRI/US | Dice/F1, p95 | Batch/Онлайн | 48–80 ГБ; приватность |
Типовые пайплайны
A) Онлайн видео‑аналитика (несколько RTSP)
RTSP → GPU-декод → детектор → трекер + ReID → бизнес-правила → алерты/стрим
↘ логи/метрики → хранилище
B) Batch‑классификация/детекция изображений
Object storage → шардирование → GPU-воркеры (препроц → инференс → постпроц) → сводный репорт
C) 3D‑реконструкция (MVS/NeRF)
Снимки/видео → извлечение кадров → оценка поз → оптимизация (MVS/NeRF) → экспорт
Выбор режима: on‑demand vs interruptible
- On‑demand — низкая латентность/стриминг/демо/разметка.
- Interruptible — пачки изображений, оффлайн‑OCR, гео‑анализ, 3D‑обучение.
Экономика и sizing (быстрые формулы)
GPU_needed ≈ (C × fps × t_inf × (1 + α)) / U
Cost_per_camera ≈ (GPU_hour_price × GPU_needed) / C
Imgs_per_hour ≈ 3600 / (S × t_step)
Где C — число камер, fps — целевой fps, t_inf — время инференса кадра, α — накладные, U — допустимая загрузка GPU.
Чек‑лист перед запуском
- Выбран сценарий: онлайн vs batch; сформулированы SLA/метрики (fps, p95 latency, drop‑rate).
- Подобран профиль GPU (24/48/80 ГБ) и режим (on‑demand/interruptible).
- Собран минимальный пайплайн (декод → инференс → постпроц), подтверждён throughput.
- Подключены метрики/алерты/логи; заведены квоты/лимиты.
- Настроены правила безопасности и политики хранения.
Навигация по разделу «Компьютерное зрение»
YOLOv8/v9 • SAM • DINOv2/CLIP • Видео‑аналитика • OCR • Tracking/ReID • 3D‑реконструкция • Медицина • Геопространственные • Синтетические данные • Edge‑экспорт
Инфраструктура: Производительность • Хранилище • Мониторинг • Планировщик стоимости • Interruptible‑паттерны
Готовы запустить?
Запустить GPU-сервер