Чем предстоит заниматься:
- Работать с витринами данных;
- Интегрировать источники данных в DataLake;
- Обрабатывать потоковые данные (streaming);
- Контролировать качество загружаемых данных;
- Проводить код ревью
- Отвечать за оптимизацию, рефакторинг и поддержку решений
Требования:
- Понимание работы СУБД и принципов построения хранилищ данных;
- Знание Airflow и Docker
- Опыт работы с Hadoop (Spark, HDFS, YARN etc.);
- Отличное знание SQL, Python/Scala/Java;
- 1+ опыт работы с облачными платформами Yandex Cloud Platform/ Azure/ AWS;
- Знание Git
- Английский на уровне intermediate и выше