Infrastructure
object storage
Масштабируемое хранилище файлов с HTTP-доступом (S3/MinIO) для датасетов и артефактов.
Что такое object storage
Object storage — тип хранилища данных, оптимизированный для хранения больших неструктурированных файлов: датасетов, моделей, артефактов обучения. Доступ через HTTP/HTTPS API, стандарт де-факто — Amazon S3-совместимый API.
Ключевые особенности:
- Неограниченная масштабируемость — хранить петабайты без настройки RAID
- Дешёвый — значительно дешевле сетевых файловых систем
- Доступный — API из любого языка, CLI-инструменты (aws-cli, rclone, s5cmd)
Применение в ML
- Хранение обучающих датасетов (изображения, текст, аудио)
- Публикация чекпоинтов модели
- Артефакты MLflow/W&B экспериментов
- Скачивание на GPU-инстансы перед обучением
S3-совместимые сервисы
| Сервис | Описание |
|---|---|
| AWS S3 | Оригинал |
| Selectel | Российский S3-совместимый |
| Yandex Object Storage | Российский, S3-API |
| MinIO | Self-hosted S3 |
| Cloudflare R2 | Дешёвый egress |
Работа с S3
# AWS CLI (работает с любым S3-совместимым)
pip install awscli
# Скачать датасет
aws s3 cp s3://my-bucket/dataset/ ./dataset/ --recursive \
--endpoint-url https://storage.yandexcloud.net # для Yandex
# Загрузить чекпоинт
aws s3 cp ./checkpoint-5000/ s3://my-bucket/checkpoints/run-001/5000/ --recursive
# rclone для удобной синхронизации
rclone sync ./models s3:my-bucket/models/ --progress
Python (boto3)
import boto3
s3 = boto3.client("s3",
endpoint_url="https://storage.yandexcloud.net",
aws_access_key_id="KEY",
aws_secret_access_key="SECRET"
)
s3.download_file("my-bucket", "model.gguf", "./model.gguf")
Связанные термины
- persistent volume — блочное хранилище для горячих данных
- чекпоинт — основной артефакт для хранения в object storage
- model registry — метаданные поверх object storage
Готовы запустить GPU-задачу?
Запустить GPU-сервер