Infrastructure

object storage

Масштабируемое хранилище файлов с HTTP-доступом (S3/MinIO) для датасетов и артефактов.

Что такое object storage

Object storage — тип хранилища данных, оптимизированный для хранения больших неструктурированных файлов: датасетов, моделей, артефактов обучения. Доступ через HTTP/HTTPS API, стандарт де-факто — Amazon S3-совместимый API.

Ключевые особенности:

  • Неограниченная масштабируемость — хранить петабайты без настройки RAID
  • Дешёвый — значительно дешевле сетевых файловых систем
  • Доступный — API из любого языка, CLI-инструменты (aws-cli, rclone, s5cmd)

Применение в ML

  • Хранение обучающих датасетов (изображения, текст, аудио)
  • Публикация чекпоинтов модели
  • Артефакты MLflow/W&B экспериментов
  • Скачивание на GPU-инстансы перед обучением

S3-совместимые сервисы

Сервис Описание
AWS S3 Оригинал
Selectel Российский S3-совместимый
Yandex Object Storage Российский, S3-API
MinIO Self-hosted S3
Cloudflare R2 Дешёвый egress

Работа с S3

# AWS CLI (работает с любым S3-совместимым)
pip install awscli

# Скачать датасет
aws s3 cp s3://my-bucket/dataset/ ./dataset/ --recursive \
  --endpoint-url https://storage.yandexcloud.net  # для Yandex

# Загрузить чекпоинт
aws s3 cp ./checkpoint-5000/ s3://my-bucket/checkpoints/run-001/5000/ --recursive

# rclone для удобной синхронизации
rclone sync ./models s3:my-bucket/models/ --progress

Python (boto3)

import boto3

s3 = boto3.client("s3",
    endpoint_url="https://storage.yandexcloud.net",
    aws_access_key_id="KEY",
    aws_secret_access_key="SECRET"
)

s3.download_file("my-bucket", "model.gguf", "./model.gguf")

Связанные термины

  • persistent volume — блочное хранилище для горячих данных
  • чекпоинт — основной артефакт для хранения в object storage
  • model registry — метаданные поверх object storage

Готовы запустить GPU-задачу?

Запустить GPU-сервер