Чем предстоит заниматься
- Разворачивать и поддерживать ML-инфраструктуру в Kubernetes (ML-модели, сервисы, базы данных).
- Автоматизировать деплоймент ML-сервисов с помощью Helm, ArgoCD.
- Разворачивать и настраивать инструменты мониторинга (Grafana, Prometheus, Litellm, Sentry).
- Разворачивать и оптимизировать инференс-серверы (Triton, vLLM).
- Настраивать и мониторить базы данных (PostgreSQL, Redis, Qdrant) в Kubernetes.
- Работать с облачными сервисами (Yandex Cloud) и управлять инфраструктурой через Terraform.
- Оптимизировать CI/CD-процессы и логику развертывания ML-моделей.
- Участвовать в разработке и улучшении инструментов для экспериментов и мониторинга ML-моделей.
- Поддерживать ClearML для управления ML-экспериментами и пайплайнами.
- Взаимодействовать с ML-командой, помогая автоматизировать процесс обучения, тестирования и деплоя моделей и сервисов.
Требования
- Опыт 2+ лет в DevOps/MLOps или ML-разработке с переходом в Ops (также можем рассмотреть опыт DevOps без опыта в ML, но с желанием разбираться).
- Глубокое понимание Kubernetes, работы сервисов в облаке.
- Опыт работы с Helm, ArgoCD.
- Опыт написания Terraform-модулей.
- Понимание мониторинга (Grafana, Prometheus) и логирования (Loki).
- Понимание CI/CD-процессов.
Будет плюсом
- Опыт работы с GPU-инфраструктурой.
- Опыт оптимизации ML-инференса (TensorRT, ONNX, Quantization).
- Опыт работы с распределёнными базами (Qdrant).
- Опыт работы с ML-оркестрацией (Clearml, Airflow).
- Опыт работы с Python-сервисами (FastAPI, AIOHTTP.
- Опыт работы с ML-инференс серверами (Triton, vLLM или аналогов).