Чем предстоит заниматься:
- Написание пайплайнов по работе с данными с использованием Airflow, Spark (пример: регулярный расчет фичей для модели, построение витрин с данными. их обновление, расчет метрик качества данных для мониторинга);
- Оптимизация расчета фичей для модели для выдерживания SLA при масштабировании продукта под большее количество магазинов;
- Настройка мониторинга и алертинга качества данных и фичей с использованием Zabbix, Grafana;
- Написание unit тестов (pytest), тестов для различных участков ML пайплайна, участие в код ревью.
Требования:
- Применяешь основные подходы к распределенной обработке больших данных (MapReduce, MPP, etc);
- Можешь применять основные подходы и практики проектирования OLAP баз данных;
- Знаешь основные подходы и практики по проектированию реляционных баз данных;
- Используешь языки программирования Python (Java, Scala);
- Знаешь SQL;
- Используешь рабочие инструменты: Hadoop, Hive, Spark, Airflow, PostgreSQL, Git, Docker
- Умеешь работать с Greenplum, Clickhouse;
- Знаешь Kafka;
- Умеешь работать с K8S.
Будет дополнительным плюсом:
- Опыт работы с ML.