Карта сайта
Все страницы CloudCompute.ru
Основные страницы
Решения
LLM Inference
- LLM‑агенты и инструменты: function calling и контекст
- Затраты инференса LLM: TPS‑таргеты и ценообразование
- Guardrails для LLM: фильтрация, PII и аудит
- llama.cpp: INT4/INT8 и компактный сервинг LLM
- Мультимодельный сервинг LLM: VRAM и планирование
- Наблюдаемость сервинга LLM: метрики и трассировка
- Ollama на GPU-сервере: запуск LLM в облаке
- Квантование LLM: INT4/INT8, AWQ, GPTQ и FP8
- SGLang/LightLLM: лёгкий высокоскоростной сервинг
- Стриминг токенов для LLM: SSE/WebSocket и тайм‑ауты
- TensorRT‑LLM: компиляция и FP8‑оптимизация
- Text Generation Inference (TGI): пулы моделей и шедулинг
- vLLM: быстрый инференс LLM на GPU — запуск на облаке
LLM Training
- Чекпоинты в обучении LLM: форматы и перезапуск
- Датасеты для LLM: токенизация, фильтрация, шардирование
- Распределённый I/O для обучения LLM: веб‑шарды и префетч
- Оценка LLM: Perplexity, MT‑Bench и Arena‑подходы
- LoRA/QLoRA для LLM: экономия VRAM и практики батчинга
- FSDP и DeepSpeed: масштабирование обучения LLM
- Обучение LLM на JAX/XLA: планирование и память
- Оптимизация памяти LLM: Flash‑Attention, checkpointing, paged‑KV
- Смешанная точность в обучении LLM: BF16/FP16/FP8
- Мультимодальные LLM: текст+изображения/видео
- Оптимизаторы для LLM: AdamW, Lion, AdaFactor
- Предобучение LLM: VRAM, I/O и чекпоинты
- RLHF и DPO для LLM: пайплайн и лучшие практики
Рендеринг
- Пайплайны ассетов: кеши, версии и артефакты
- Blender Cycles на GPU: headless‑фермы и тайлинг
- Деноайзинг на GPU: OptiX и ускорение рендера
- Houdini Karma XPU: VRAM и кэширование на GPU
- Гибридные пайплайны: AI‑генерация + классический рендер
- NVIDIA Omniverse/Isaac: совместная работа в 3D
- PBR‑выпечка карт: пакетные задания на GPU
- Redshift/Octane/V‑Ray на GPU: производительность и лицензии
- Удалённые GPU‑станции для студий: Parsec/Sunshine
- Unreal Engine: сборки и рендер на облачных GPU
- Транскодирование видео: ffmpeg, NVENC и AV1
Компьютерное зрение
- 3D‑реконструкция: MVS/NeRF/SLAM на GPU
- DINOv2 и CLIP: эмбеддинги и поиск изображений
- Экспорт моделей для edge: ONNX и TensorRT
- Геопространственное CV: спутники/SAR и большие тайлы
- Медицинское CV на GPU: классификация и сегментация
- OCR на GPU: потоковые документы и кириллица
- Segment Anything/SEEM: интерактивная сегментация на GPU
- Синтетические данные для CV: Unity/Unreal/Omniverse
- ReID и трекинг: высокая частота кадров на GPU
- Видео‑аналитика на GPU: мультикамерные пайплайны
- YOLOv8/v9 на GPU: детекция и трекинг в реальном времени
HPC
- AutoDock‑GPU: HTS‑скрининг на облачных GPU
- Чекпоинты и перезапуск HPC‑задач на GPU
- Граф‑аналитика на GPU: PageRank и сообщества
- GROMACS на GPU: MPI/NCCL и масштабирование
- LAMMPS на GPU: межузловое масштабирование
- Линейная алгебра на GPU: cuBLAS и cuSPARSE
- Монте‑Карло на GPU: финансовые и научные расчёты
- NAMD/AMBER на GPU: ускорение MD‑симуляций
- CFD на GPU (OpenFOAM‑CUDA): сборки и I/O
- Оптимизация и матпрограммирование на GPU
- Clara Parabricks: геномика на GPU
Генерация изображений и видео
- Automatic1111: плагины, xformers и hi‑res
- Пакетная генерация на interruptible GPU: стратегия
- ComfyUI на GPU: графовые пайплайны и кэш
- ControlNet и IP‑Adapter: точный контроль генерации
- Восстановление лиц: GFPGAN/CodeFormer — ограничения
- LoRA fine-tuning Kandinsky 5.0 на облачном GPU
- Kandinsky Video на облачном GPU: генерация видео через Video Lite и Video Pro
- Kandinsky 5.0 на облачном GPU: запуск, настройка, стоимость
- Stable Diffusion 3: совместимость и throughput
- Stable Diffusion XL: VRAM и производительность
- Стилевой перенос и эффекты на GPU
- Текст → 3D: NeRF и Gaussian Splatting на GPU
- Суперрезолюция на GPU: Real‑ESRGAN и альтернативы
- Генерация и интерполяция видео: многокадровые пайплайны
Прочие решения
- Детекция аномалий на GPU: real‑time и батч
- Распознавание речи на GPU: Whisper и WhisperX
- Аудио‑эмбеддинги на GPU: поиск и классификация
- BlazingSQL: GPU‑SQL и ANSI‑совместимость
- Компьютерное зрение на GPU: задачи и выбор ресурсов
- CI/CD для GPU‑нагрузок: контейнеры и пайплайны
- Планировщик стоимости GPU: On‑Demand vs Interruptible
- Диааризация на GPU: метрики и пайплайны
- Цифровые двойники на GPU: визуализация и аналитика
- Эмбеддинги на GPU: батч‑планирование и хранение
- FP8 и BF16: выбор формата вычислений
- Gradio и FastAPI на GPU: API и UI для моделей
- GNN на GPU: GraphSAGE/GAT и выборка
- HPC на облачных GPU: стек, сеть и диски
- Гибридные пайплайны: CV+LLM, DIFF+LLM и ETL+ML
- Генерация изображений на GPU-облаке: ComfyUI, Automatic1111
- Генерация изображений и видео на GPU: SD/SDXL/SD3
- Interruptible‑инстансы: чекпоинты и устойчивость
- NVIDIA Isaac Sim на GPU: физика и сенсоры
- Инференс LLM на GPU: режимы сервинга и SLA
- Обучение LLM на облачных GPU: сценарии и выбор ресурсов
- MIG‑партиционирование на A100/H100: экономика и практика
- Мониторинг и логи GPU‑нагрузок: NVML, Prometheus и Grafana
- Multi‑GPU и multi‑node: стратегии параллелизма, NCCL и топологии
- Музыкальные модели на GPU: генерация и демиксинг
- Машинный перевод на GPU: seq2seq/Transformer и низкая латентность
- Планирование траекторий на GPU
- Оптимизация на GPU: смешанная точность, профайлинг и I/O
- RAG на GPU: индексирование, retrieval и latency‑бюджет
- RAPIDS на GPU: cuDF/cuML и ускорение ETL
- Реал‑тайм стриминг на GPU: низкая латентность
- Рекомендательные системы на GPU: DLRM и двухбашенные модели
- Рендеринг на облачных GPU: оффлайн vs интерактив
- ROS2/Gazebo на GPU: симуляция и реплеи
- Безопасность ML на GPU: ключи, токены и приватные данные
- Spark RAPIDS: ускорение Spark‑пайплайнов на GPU
- Улучшение речи на GPU: шумоподавление и сепарация
- Данные и хранение на GPU: чекпоинты, кэш и пайплайны
- Шаблоны запусков GPU: Jupyter, SSH и Docker
- Throughput vs Latency: баланс в продакшене
- NVIDIA Triton: мультифреймворк‑сервинг на GPU
- Синтез речи (TTS) на GPU: качество vs латентность
- Voice Conversion на GPU: конфиденциальность и качество
Видеокарты и цены
RTX 4070S
RTX 5060 Ti
RTX 4070 Ti
RTX 5060
RTX 4060 Ti
RTX 5070 Ti
NVIDIA RTX 3090
RTX 5070
RTX 4070S Ti
RTX 4070
RTX 5080
RTX PRO 4000
NVIDIA RTX 4090
RTX 5880Ada
A100 PCIE
NVIDIA RTX 5090
RTX 6000Ada
A40
NVIDIA L40
RTX PRO 6000 S
RTX PRO 5000
RTX PRO 6000 WS
H100 PCIE
H200 NVL
NVIDIA B200
NVIDIA H200 SXM
Документация
Глоссарий
GPU Hardware
- AMD MI300X
- compute capability
- CUDA
- CUDA Core
- CUDA Toolkit
- cuDNN
- datacenter GPU
- ECC memory
- FLOPS / TFLOPS
- GDDR6
- GPU
- GPU passthrough
- GPU utilization
- GPU-инстанс
- GPU-кластер
- HBM (High Bandwidth Memory)
- MIG (Multi-Instance GPU)
- NCCL
- NVIDIA A100
- NVIDIA Driver
- NVIDIA H100
- NVIDIA H200
- NVIDIA L40S
- NVIDIA RTX 4090
- NVLink
- NVMe SSD
- PCIe
- SM (Streaming Multiprocessor)
- spot-инстанс
- Streaming Multiprocessor
- TDP (Thermal Design Power)
- Tensor Core
- VRAM
- пропускная способность памяти GPU
Inference
- AWQ
- batching
- continuous batching
- decode
- GGUF
- GPTQ
- KV-кеш
- llama.cpp
- Ollama
- PagedAttention
- pipeline parallelism
- prefill
- prompt caching
- serving
- SGLang
- speculative decoding
- streaming
- structured outputs
- temperature
- tensor parallelism
- TGI (Text Generation Inference)
- tokens per second
- top-p (nucleus sampling)
- TPOT (Time Per Output Token)
- TTFT (Time to First Token)
- vLLM
- инференс
- квантизация
- контекстное окно
Training
- AdamW
- batch size
- BF16
- DeepSpeed
- DPO
- epoch
- fine-tuning
- FP16
- FP8
- FSDP
- gradient accumulation
- gradient checkpointing
- instruction tuning
- learning rate
- LoRA
- lr scheduler
- microbatch
- mixed precision
- overfitting
- PEFT
- pretraining
- PyTorch
- QLoRA
- RLHF
- SFT (Supervised Fine-Tuning)
- warmup
- weight decay
- ZeRO
- чекпоинт
Image Generation
Speech
ML Fundamentals
- activation function
- attention
- backpropagation
- BPE
- feedforward layer
- GQA
- gradient
- hidden state
- layer normalization
- logits
- loss
- MoE (Mixture of Experts)
- multi-head attention
- perplexity
- regularization
- RoPE
- self-attention
- shape
- softmax
- датасет
- нормализация
- параметр модели
- тензор
- токен
- токенизатор
- токенизация
- трансформер
- эмбеддинг