Чем предстоит заниматься:
- Реализация ETL в Hadoop (с помощью Airflow).
- Работа с различными источниками данных: Oracle, MS SQL, API личных кабинетов, микросервисы.
- Батч и стримы с помощью PySpark и Kafka.
- Подготовка витрин для анализа (Hive + Spark+ SQL).
Требования:
- Уверенное владение Python.
- Опыт использования эко-системы Hadoop: HDFS, Apache AirFlow, Hive, Kafka, Spark.
- Знание SQL.
- Опыт работы с реляционными базами данных (Oracle).