Infrastructure

model registry

Централизованное хранилище версий ML-моделей с метаданными, метриками и статусами деплоя.

Что такое model registry

Model registry — репозиторий для управления версиями обученных ML-моделей. Хранит бинарные артефакты (веса), метаданные (параметры обучения, датасет, метрики), статусы (staging, production, archived) и историю изменений.

Решает проблему «какая версия модели в продакшене и почему?» — без registry это быстро теряется.

Популярные инструменты

Инструмент Тип Описание
MLflow Open-source Tracking + registry, простой в использовании
Weights & Biases (W&B) Cloud/self-hosted Лучший UI, tracking + registry
DVC Open-source Git-like versioning для моделей и данных
Hugging Face Hub Cloud Публичный/приватный registry для трансформеров

MLflow: базовый workflow

import mlflow

# Логировать эксперимент
with mlflow.start_run():
    mlflow.log_param("model", "llama-3-8b")
    mlflow.log_param("lora_r", 16)
    mlflow.log_metric("eval_loss", 0.85)
    mlflow.log_metric("perplexity", 4.2)
    
    # Зарегистрировать модель
    mlflow.transformers.log_model(
        transformers_model={"model": model, "tokenizer": tokenizer},
        artifact_path="llama-3-finetuned",
        registered_model_name="llama-3-customer-support"
    )

# Перевести в production
client = mlflow.tracking.MlflowClient()
client.transition_model_version_stage(
    name="llama-3-customer-support",
    version=3,
    stage="Production"
)

Связанные термины

  • чекпоинт — артефакт, версионируемый в registry
  • object storage — хранит бинарные файлы registry
  • fine-tuning — производит версии моделей для registry

Готовы запустить GPU-задачу?

Запустить GPU-сервер