Компьютерное зрение на GPU: задачи и выбор ресурсов

Задача страницы. Быстро сориентировать, какие классы задач компьютерного зрения запускаются на облачных GPU, какие профили GPU и режимы включать (on‑demand/interruptible), как собирать потоки для изображений и видео, и куда идти дальше за деталями.

TL;DR

Разделяйте сценарии: онлайн (низкая латентность/RTSP) vs batch (throughput/экономия).
Начинайте с профилей 24–48–80 ГБ VRAM: 24 ГБ — детекция/классификация/OCR и стихи batch‑потоков; 48 ГБ — real‑time аналитика 576–1080p с несколькими моделями/ветками; 80 ГБ — сложные пайплайны, мульти‑камеры, 3D‑реконструкция и высокое разрешение.
Используйте interruptible для пакетных задач (детекция на архивах, реклассификация датасетов), on‑demand — для онлайн‑аналитики/демо.

Быстрые ссылки по подзадачам

Детекция/треккинг (YOLOv8/v9) — Realtime/батчи, несколько камер, NMS/ByteTrack.
Сегментация интерактивная (SAM/SEEM) — Инструменты разметки/правки.
Эмбеддинги/ретривал (DINOv2/CLIP) — Поиск по изображениям, дедупликация датасетов.
Видео‑аналитика (RTSP/мультикамеры) — Декод, пайплайны, буферизация, алерты.
OCR на GPU (dok‑потоки, кириллица) — Построение пайплайнов, языковая поддержка.
ReID/треккинг объектов — Ассоциация треков, ReID‑фичи.
3D‑реконструкция (MVS/NeRF/SLAM) — Фотограмметрия, NeRF/GS, карты глубины.
Медицинские изображения — Сегментация/классификация, приватность/политики.
Геопространственные/SAR‑сцены — Тайлы, пирамиды, большие растры.
Синтетические данные (Unity/Unreal/Omniverse) — Генерация сцен, доменный разрыв.
Экспорт моделей на edge (TensorRT/ONNX) — Квантизация, пайплайны упаковки.

Классы задач CV и выбор GPU

Класс	Примеры	SLA/метрики	Режим	Ресурсы
Детекция/классификация	YOLO‑детект, ResNet/ViT	p95 < 50–120 мс/кадр	Онлайн/Batch	24–48 ГБ VRAM; INT8/FP16; NVDEC
Сегментация	SAM/Mask‑детект	p95 < 150–300 мс; IoU	Онлайн/Интерактив	24–48 ГБ; pin‑memory
OCR (dok‑потоки)	Кириллица, формуляры	pages/min, CER/WER	Batch	24 ГБ; I/O NVMe
Видео‑аналитика	RTSP, мультикамеры	fps/camera, drop‑rate	Онлайн	48–80 ГБ; NVDEC/NVENC
ReID/Tracking	ТЦ/склады	IDF1/MOTA, fps	Онлайн	24–48 ГБ; mix‑precision
3D‑реконструкция	MVS/NeRF/SLAM	iters/min, PSNR	Batch	48–80 ГБ; много NVMe
Медицинские	CT/MRI/US	Dice/F1, p95	Batch/Онлайн	48–80 ГБ; приватность

Типовые пайплайны

A) Онлайн видео‑аналитика (несколько RTSP)

RTSP → GPU-декод → детектор → трекер + ReID → бизнес-правила → алерты/стрим
                                                    ↘ логи/метрики → хранилище

B) Batch‑классификация/детекция изображений

Object storage → шардирование → GPU-воркеры (препроц → инференс → постпроц) → сводный репорт

C) 3D‑реконструкция (MVS/NeRF)

Снимки/видео → извлечение кадров → оценка поз → оптимизация (MVS/NeRF) → экспорт

Выбор режима: on‑demand vs interruptible

On‑demand — низкая латентность/стриминг/демо/разметка.
Interruptible — пачки изображений, оффлайн‑OCR, гео‑анализ, 3D‑обучение.

Экономика и sizing (быстрые формулы)

GPU_needed ≈ (C × fps × t_inf × (1 + α)) / U
Cost_per_camera ≈ (GPU_hour_price × GPU_needed) / C
Imgs_per_hour ≈ 3600 / (S × t_step)

Где C — число камер, fps — целевой fps, t_inf — время инференса кадра, α — накладные, U — допустимая загрузка GPU.

Чек‑лист перед запуском

Выбран сценарий: онлайн vs batch; сформулированы SLA/метрики (fps, p95 latency, drop‑rate).
Подобран профиль GPU (24/48/80 ГБ) и режим (on‑demand/interruptible).
Собран минимальный пайплайн (декод → инференс → постпроц), подтверждён throughput.
Подключены метрики/алерты/логи; заведены квоты/лимиты.
Настроены правила безопасности и политики хранения.

Навигация по разделу «Компьютерное зрение»

YOLOv8/v9 • SAM • DINOv2/CLIP • Видео‑аналитика • OCR • Tracking/ReID • 3D‑реконструкция • Медицина • Геопространственные • Синтетические данные • Edge‑экспорт

Инфраструктура: Производительность • Хранилище • Мониторинг • Планировщик стоимости • Interruptible‑паттерны

Готовы запустить?

Запустить GPU-сервер