Что нужно делать
- Развивать существующие MLOps инструменты, утилиты и библиотеки, повышать их надежность, внедрять новые "фичи";
- Дорабатывать существующие Open-source инструменты под нужды команды, патчить и контрибьютить;
- Внедрять MLOps инструменты для автоматизации процессов жизненного цикла ML-моделей;
- Оптимизировать инфраструктуру для Highload ML сервисов, заниматься оптимизацией инференса ML моделей;
- Обеспечивать быстрое масштабирование и высокую доступность ML инфраструктуры;
- Помогать DS'ам в создании пайплайнов и сервисов в production среде (помощь в продуктивизации), оптимизировать их производительность;
- Развивать системы мониторинга и логирования ML решений;
- Помогать проектировать и планировать ресурсы, инфраструктуру и архитектуру решений;
- Участвовать в разработке стратегии развития MLOps направления;
- Менторить младших специалистов;
- Повышать качество внешней и внутренней документации по нашим продуктам.
Требования
- Экспертное владение Python;
- Опыт деплоя в production с помощью Kubernetes, глубокое понимание его работы, опыт работы с Helm-чартами;
- Опыт построения сложных CI/CD пайплайнов (Gitlab CI/CD) и продвинутый опыт использования VCS (Git);
- Опыт инференса ML/LLM моделей в production под высокой нагрузкой (Triton Nvidia Inference Server, vLLM);
- Знания и опыт в оптимизации ML моделей для инференса;
- Практический опыт внедрения с дальнейшей эксплуатацией MLOps инструментов для пользователей - Airflow, Dagster, Argo Workflows, Prefect, Flyte, MLFlow, JupyterHub, DVC, LakeFS, Seldon Core, KubeFlow и др;
- Понимание современных алгоритмов машинного обучения и жизненного цикла ML модели;
- Опыт написания пайплайнов / оптимизации запросов на Spark под экосистемой Hadoop;
- Понимание современных архитектур распределенных систем / опыт реализации и использования для обучения/инференса;
- Знание библиотек для веб-разработки: asyncio, FastAPI, Celery (SAQ);
- Знакомство с компонентами мониторинга и логирования (Thanos, Grafana, OpenSearch).