Чем предстоит заниматься:
- Делать расчет витрин на кластере Hadoop с помощью Spark;
- Осуществлять доставку результатов расчета в аналитические СУБД;
- Заниматься выстраиванием регламентов;
- Поддерживать разработанные пайплайны;
- Оптимизировать и развивать пайплайны;
- Анализировать и устранять ошибки в работе регламента, перезапускать процессы.
Требования:
- Опыт работы в роли дата инженера не менее 1 года;
- Базовые знания Python (предстоит работа с большими объемами данных);
- Знание SQL (знание аналитических функций, навыки оптимизации и чтения планов запросов);
- Навыки работы с терминалом, git, airflow (или другие оркестраторы);
- Хорошо если есть опыт с MPP (но необязательно);
Будет плюсом:
- Будут плюсом знания Spark и Hadoop (Понимание назначение, архитектура HDFS, понимание механизма работы, дополнительным плюсом будет опыт взаимодействия с Hive или аналогами типа Impala).