Чем предстоит заниматься:
- Разрабатывать и поддерживать инфраструктуры для экспериментов, обучения и деплоя ML-моделей в batch и online режимах;
- Внедрять и развивать общие MLOps-инструменты: CI/CD пайплайны на базе GitLab, Model Registry, Feature Store, Data Quality, мониторинг моделей;
- Поддерживать и развивать платформенные компоненты: кластеры, оркестрации, пайплайны обработки данных, системы развёртывания;
- Взаимодействовать с командами Data Scientist, Data Engineering и Platform-инженерами для обеспечения стабильной и масштабируемой инфраструктуры;
- Автоматизировать процессы с использованием IaC-подходов (Terraform, Ansible), Helm, Kubernetes;
- Поддерживать и оптимизировать инфраструктуры в Yandex Cloud и Bare Metal;
- Работать с системами обработки данных: Spark, Airflow, Trino, JupyterHub;
- Участвовать в построении мониторинга и обеспечения качества данных и моделей.
Требования:
- Опыт разработки, внедрения и автоматизации ML или Data Egineering решений (от 1 года);
- Понимание принципов CI/CD, разработки и эксплуатации распределённых систем;
- Уверенный опыт работы с Kubernetes, Helm, Docker;
- Практический опыт работы со Spark, Airflow;
- Уверенное владение Python, Linux, методами работы с большими данными;
- Опыт работы с инфраструктурным кодом (Terraform, Ansible);
- Понимание основ алгоритмов машинного обучения;
- Знание английского языка для работы с технической документацией.
Будет плюсом:
- Опыт работы с Kubeflow, Trino, JupyterHub, Hadoop, Oracle;
- Опыт настройки мониторинга (в том числе ML-моделей);
- Опыт работы с Yandex Cloud.