Чем предстоит заниматься:
- Пайплайны на Spark;
- Участвовать в построении Lakehouse на Hadoop;
- Создавать и развивать процессы управления данными и их качеством;
- Извлекать, преобразовывать, загружать и обрабатывать данные, ETL/ELT (Python/Airflow);
- Оптимизировать процессы поставки данных под бизнес требования;
- Работать с большим разнообразием первоисточников данных (Kafka, Nats, другие БД, api).
Требования:
- Уверенный опыт программирования на Python (не менее 2-х лет);
- Уверенные знания SQL и опыт работы с базами данных;
- Опыт работы с Apache Airflow;
- Опыт работы с Hadoop (spark/yarn/hdfs/hive)
- Умение оптимизировать SQL запросы;
- Опыт работы с высоко нагруженными системами и большим объёмом данных;
- Понимание концепций построения хранилищ данных (DWH).
Будет плюсом:
- Знания и опыт работы с DBT;
- Опыт с Trino;
- Опыт работы с Greenplum/Postgres.