Чем предстоит заниматься:
- Создавать стабильные отказоустойчивые и масштабируемые системы обработки данных.
- Писать регрессионные тесты (в разработке используем TDD).
- Создавать инструменты мониторинга.
- Настраивать процессы CI/CD.
- Проектировать архитектуру систем обработки данных.
- Создавать и валидировать прототипы решений.
- Работать над продуктизацией моделей catboost и нейросетевых моделей.
Требования:
- Продвинутое владение Python и понимание основ ООП.
- Хорошее знание PySpark (как Dataframe API так и Spark SQL API).
- Хорошее знание основ ML, ML-процессов и основных метрик качества ML-моделей.
- Опыт в оптимизации производительности запросов и ETL процессов.
- Уверенный технический бэкграунд (вы представляете себе, что такое контейнеры, k8s, kafka и т. д).
Будет плюсом:
- Опыт разработки/продуктизации нейросетевых моделей.
- Опыт работы с Airflow.
- Опыт написания микросервисов на языке Golang.