GPU Hardware

NVIDIA A100

Datacenter-GPU NVIDIA на архитектуре Ampere с 80 ГБ HBM2e для обучения и инференса.

Что такое NVIDIA A100

A100 — серверный GPU NVIDIA на архитектуре Ampere (2020). До прихода H100 был стандартом де-факто для обучения LLM и производственного инференса. Поставляется в двух версиях: 40 ГБ (первое поколение) и 80 ГБ (расширенная версия).

Технические характеристики

Параметр	A100 40GB	A100 80GB
VRAM	40 ГБ HBM2	80 ГБ HBM2e
Пропускная способность памяти	1555 ГБ/с	2000 ГБ/с
TF32 TFLOPS	312	312
FP16 TFLOPS	624	624
TDP	400 Вт	400 Вт
NVLink	NVLink 3.0 (600 GB/s)	NVLink 3.0
MIG	До 7 экземпляров	До 7 экземпляров

Для каких задач подходит

A100 40GB — инференс моделей до 30B в BF16, fine-tuning моделей до 13B, обучение небольших моделей.

A100 80GB — инференс 70B-моделей в BF16 (один GPU), обучение моделей до 65B с gradient checkpointing, многозадачный production-сервис.

# Пример: инференс Llama 3 70B на двух A100 80GB
docker run --gpus all -p 8000:8000 vllm/vllm-openai:latest \
  --model meta-llama/Llama-3-70B-Instruct \
  --tensor-parallel-size 2

A100 vs H100

	A100 80GB	H100 80GB
FP16 TFLOPS	624	1979
Память BW	2000 ГБ/с	3350 ГБ/с
FP8	Нет	Есть
NVLink	600 GB/s	900 GB/s
Относительная цена	1×	~2.5×
Рекомендован для	Большинство задач	Крупные LLM, FP8

A100 остаётся отличным выбором по соотношению цена/производительность для задач обучения и инференса, где FP8 не критичен.

MIG: деление GPU

A100 поддерживает MIG — разделение на до 7 изолированных экземпляров (7× 10 ГБ). Это позволяет предоставлять небольшие GPU-ресурсы нескольким независимым задачам.

Связанные термины

NVIDIA H100 — преемник с лучшей производительностью
MIG — деление A100 на изолированные экземпляры
HBM — тип памяти A100
tensor parallelism — для запуска 70B на 2× A100

Готовы запустить GPU-задачу?

Запустить GPU-сервер