Infrastructure
Hugging Face Hub
Платформа для публикации, обмена и загрузки ML-моделей, датасетов и демо-приложений.
Что такое Hugging Face Hub
Hugging Face Hub — крупнейший публичный репозиторий ML-моделей и датасетов. Содержит 900K+ моделей, 200K+ датасетов, охватывает все основные архитектуры: LLM (Llama, Mistral, Qwen, Gemma), vision, audio, multimodal. Является стандартным источником для загрузки предобученных моделей.
Интеграция в Python-экосистему через huggingface_hub и transformers делает загрузку моделей тривиальной.
Загрузка моделей
# Через transformers (автоматически)
from transformers import AutoModelForCausalLM, AutoTokenizer
model = AutoModelForCausalLM.from_pretrained(
"meta-llama/Llama-3.1-8B-Instruct",
torch_dtype="bfloat16",
device_map="auto"
)
# Через huggingface_hub CLI
pip install huggingface_hub
# Скачать файл(ы) в конкретную директорию
huggingface-cli download \
bartowski/Llama-3.2-3B-Instruct-GGUF \
Llama-3.2-3B-Instruct-Q4_K_M.gguf \
--local-dir ./models/
# Скачать всю модель
huggingface-cli download meta-llama/Llama-3.1-8B-Instruct --local-dir ./llama-3
Аутентификация для приватных моделей
Llama 3, Gemma и другие модели требуют принятия лицензии и токена:
huggingface-cli login # ввести HF_TOKEN
# Или через переменную окружения
export HF_TOKEN=hf_xxxxxxxxxxxx
from huggingface_hub import login
login(token="hf_xxxxxxxxxxxx")
Хранение весов на GPU-инстансе
При скачивании больших моделей (70B = 140 ГБ) важно размещать их на NVMe-диске:
export HF_HOME=/data/huggingface # изменить дефолтный кеш (~/.cache/huggingface)
huggingface-cli download meta-llama/Llama-3-70B-Instruct
Связанные термины
- GGUF — формат моделей для llama.cpp, публикуемых на HF Hub
- fine-tuning — результаты часто публикуются на HF Hub
- NVMe SSD — куда скачивать большие модели
Готовы запустить GPU-задачу?
Запустить GPU-сервер