Чем предстоит заниматься:
- Участвовать в разработке data-transfer инструмента для автоматизации перегрузки данных из различных источников;
- Формировать и поддерживать озера данных на HDFS;
- Дорабатывать существующие и создавать новые Airflow операторы;
- Оптимизировать интеграции со стриминговыми источниками данных (например, Kafka);
- Формировать аналитические витрины и интегрировать их в Hadoop;
- Внедрять процессы контроля качества данных (DQ);
- Работать с экосистемой Hadoop для обработки больших объемов информации.
Требования:
- Опыт в Data Engineering (от 2 лет);
- Знание Hadoop, HDFS, Airflow, Kafka, ClickHouse, Spark;
- Умение проектировать ETL-процессы и работать с распределенными системами;
- Понимание принципов DQ (Data Quality);
- Опыт оптимизации процессов интеграции данных.