Чем предстоит заниматься:
- Заниматься написанием пайплайнов по работе с данными с использованием Airflow, Spark (пример: регулярный расчет фичей для модели, построение витрин с данными, их обновление, расчет метрик качества данных для мониторинга);
- Оптимизировать расчеты для выдерживания SLA;
- Настраивать мониторинг и алертинг качества данных и фичей;
- Проектировать продукты (пример: пайплайны данных, микросервисы, взаимодействие с бэкендом);
- Выбирать оптимальное хранилище данных, движка расчетов, под различные проекты/продукты подразделения;
- Заниматься миграцией на новые версии hadoop, spark;
- Общаться с заказчиком/продуктом, понимать бизнес-логику (пример: приземлить желания бизнеса на наши доступные данные). Также детальное погружение в требования бизнеса и оценка трудозатрат, поиск альтернатив;
- Общаться с аналитиками (пример: поставить задачу на проверку качества данных смежной команде и по итогам сделать ревью), перевод концепций в SQL.
Требования:
- Владеешь опытом работы с Python от 5 лет;
- Имеешь опыт с Hadoop, Hive, Spark, понимание архитектуры больших данных;
- Обладаешь опытом работы с потоками данных (Kafka или аналог);
- Знаешь SQL;
- Знаешь классические алгоритмы и структуры данных;
- Имеешь опыт работы с docker, git (kubernetes, pyspark, airflow и ds фреймворков – не обязательно, но будет плюсом);
- Умеешь нанимать команду и развивать ее, брать ответственность за ее результат.
Будет плюсом:
- Понимание процессов тестирвоания (unit tests, pytest), тестов для различных участков ML пайплайна, участие в код ревью;
- Внедрение и поддержание правил оформления кода в команде (с использованием CI, а также собственной харизмы);
- Опыт работы с ML, выведения ML моделей в прод.