Чем предстоит заниматься:
- Проектировать, разрабатывать и поддерживать инструменты для создания надёжных пайплайнов обработки данных;
- Участвовать в развитии системы для создания и использования ML-моделей;
- Исследовать и интегрировать в продукт новые источники данных;
- Создавать витрины признаков для ML-моделей.
Требования:
- Знание алгоритмов и структур данных;
- Умение писать качественный, поддерживаемый код на Scala, Python, SQL;
- Опыт использования Hadoop, знание механизмов распределённого хранения и обработки данных (HDFS, Spark, Hive);
- Знакомство с Git, Linux, Docker;
- Опыт работы с терминалом по SSH.
Будет плюсом:
- Умение использовать Luigi, Airflow, Kafka;
- Опыт написания Spark UDF/UDAF на Catalyst API и трансформеров spark.ml;
- Знание Java и нюансов JVM;
- Понимание классических ML-моделей, задач и методов DS.