Чем предстоит заниматься:
- Разработка процессов загрузки данных из внешних источников в DataLake и формирование витрин данных в DWH (Airflow, Spark, Hive);
- Разработка стриминговых пайплайнов на Spark Streaming;
- Совместно с командой и архитектором заниматься развитием подходов к обработке данных;
- Разработка автотестов на процессы загрузки данных;
- Разработка мониторингов качества данных.
Требования:
- Уверенное знание SQL;
- Понимание принципов работы БД и построения хранилищ данных;
- Опыт работы с большими объемами данных и оптимизации производительности;
- Опыт разработки на Python;
- Опыт работы с Hadoop стеком (Spark, Hive);
- Опыт работы с Airflow и ETL-инструментами.
Будет плюсом:
- Опыт разработки стриминговых пайплайнов;
- Опыт работы с Kafka;
- Опыт работы с MS SQL Server;
- Опыт работы с С#;
- Опыт работы с Docker, Kubernetes;
- Опыт работы с Prometheus, Grafana.