Чем предстоит заниматься:
- дорабатывать Kafka Connect для задачи загрузки данных в Data Lake;
- разрабатывать, оптимизировать и мониторить ETL-процессы на основе технологий Airflow, S3, Greenplum, ClickHouse, используя Python и Spark (Scala);
- подключать новые источники к Trino;
- создавать инструменты для упрощения ETL разработки;
- развивать существующее CDC-решение на базе Debezium и Spark Streaming: улучшать мониторинг, автоматизировать то, что делается вручную;
- развивать практику использования Trino в компании;
- участвовать в разборах инцидентов по сервисам команды.
Требования:
- понимание принципов организации хранилищ данных, работы колоночных СУБД;
- уверенное знание SQL, Python;
- готовность изучать Spark (Scala);
- стремление обосновывать и документировать появляющиеся решения.
Будет плюсом:
- программировал на Scala / Java;
- знаешь фреймворки Apache Spark, Apache Airflow;
- работал с форматами iceberg, parquet, protobuf, avro;
- использовал Trino / Greenplum / ClickHouse;
- знаком с Kafka Connect.