GPU Hardware

NVIDIA A100

Datacenter-GPU NVIDIA на архитектуре Ampere с 80 ГБ HBM2e для обучения и инференса.

Что такое NVIDIA A100

A100 — серверный GPU NVIDIA на архитектуре Ampere (2020). До прихода H100 был стандартом де-факто для обучения LLM и производственного инференса. Поставляется в двух версиях: 40 ГБ (первое поколение) и 80 ГБ (расширенная версия).

Технические характеристики

Параметр A100 40GB A100 80GB
VRAM 40 ГБ HBM2 80 ГБ HBM2e
Пропускная способность памяти 1555 ГБ/с 2000 ГБ/с
TF32 TFLOPS 312 312
FP16 TFLOPS 624 624
TDP 400 Вт 400 Вт
NVLink NVLink 3.0 (600 GB/s) NVLink 3.0
MIG До 7 экземпляров До 7 экземпляров

Для каких задач подходит

A100 40GB — инференс моделей до 30B в BF16, fine-tuning моделей до 13B, обучение небольших моделей.

A100 80GB — инференс 70B-моделей в BF16 (один GPU), обучение моделей до 65B с gradient checkpointing, многозадачный production-сервис.

# Пример: инференс Llama 3 70B на двух A100 80GB
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-3-70B-Instruct \
  --tensor-parallel-size 2

A100 vs H100

A100 80GB H100 80GB
FP16 TFLOPS 624 1979
Память BW 2000 ГБ/с 3350 ГБ/с
FP8 Нет Есть
NVLink 600 GB/s 900 GB/s
Относительная цена ~2.5×
Рекомендован для Большинство задач Крупные LLM, FP8

A100 остаётся отличным выбором по соотношению цена/производительность для задач обучения и инференса, где FP8 не критичен.

MIG: деление GPU

A100 поддерживает MIG — разделение на до 7 изолированных экземпляров (7× 10 ГБ). Это позволяет предоставлять небольшие GPU-ресурсы нескольким независимым задачам.

Связанные термины

  • NVIDIA H100 — преемник с лучшей производительностью
  • MIG — деление A100 на изолированные экземпляры
  • HBM — тип памяти A100
  • tensor parallelism — для запуска 70B на 2× A100

Готовы запустить GPU-задачу?

Запустить GPU-сервер