Infrastructure

Hugging Face Hub

Платформа для публикации, обмена и загрузки ML-моделей, датасетов и демо-приложений.

Что такое Hugging Face Hub

Hugging Face Hub — крупнейший публичный репозиторий ML-моделей и датасетов. Содержит 900K+ моделей, 200K+ датасетов, охватывает все основные архитектуры: LLM (Llama, Mistral, Qwen, Gemma), vision, audio, multimodal. Является стандартным источником для загрузки предобученных моделей.

Интеграция в Python-экосистему через huggingface_hub и transformers делает загрузку моделей тривиальной.

Загрузка моделей

# Через transformers (автоматически)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
    "meta-llama/Llama-3.1-8B-Instruct",
    torch_dtype="bfloat16",
    device_map="auto"
)

# Через huggingface_hub CLI
pip install huggingface_hub

# Скачать файл(ы) в конкретную директорию
huggingface-cli download \
  bartowski/Llama-3.2-3B-Instruct-GGUF \
  Llama-3.2-3B-Instruct-Q4_K_M.gguf \
  --local-dir ./models/

# Скачать всю модель
huggingface-cli download meta-llama/Llama-3.1-8B-Instruct --local-dir ./llama-3

Аутентификация для приватных моделей

Llama 3, Gemma и другие модели требуют принятия лицензии и токена:

huggingface-cli login  # ввести HF_TOKEN

# Или через переменную окружения
export HF_TOKEN=hf_xxxxxxxxxxxx

from huggingface_hub import login
login(token="hf_xxxxxxxxxxxx")

Хранение весов на GPU-инстансе

При скачивании больших моделей (70B = 140 ГБ) важно размещать их на NVMe-диске:

export HF_HOME=/data/huggingface  # изменить дефолтный кеш (~/.cache/huggingface)
huggingface-cli download meta-llama/Llama-3-70B-Instruct

Связанные термины

GGUF — формат моделей для llama.cpp, публикуемых на HF Hub
fine-tuning — результаты часто публикуются на HF Hub
NVMe SSD — куда скачивать большие модели

Готовы запустить GPU-задачу?

Запустить GPU-сервер