Чем предстоит заниматься:
- разработка NRT ETL процессов используя Spark Streaming и Clickhouse;
- разработка батчевых ETL процессов с использованием Apache Spark и Airflow;
- мониторинг и обеспечение качества данных поступающих в хранилище;
- оптимизация текущих решений.
Требования:
- опыт работы с Clickhouse - понимание архитектуры и особенностей СУБД, умение читать план запроса, обладать навыками оптимизации;
- опыт работы с Apache Spark (Pyspark 3.4.1 и более актуальными версиями). Понимание архитектуры Spark, навык отладки и отимизации кода;
- опыт работы с Apache Airflow;
- продвинутый уровень SQL;
- Python на среднем уровне.
Будет плюсом:
- опыт работы со стриминговыми пайплайнами данных (Spark Streaming в приоритете);
- опыт работы с Trino;
- опыт работы с s3 (minio);
- опыт работы с архитектурой Data Lake.
