Чем предстоит заниматься
В первые 3 месяца:
- Погружение во фреймворки загрузки данных (Kafka, Debezium, Kafka Connect, S3) и построение витрин;
- Разработка и оптимизация ETL-процессов с использованием AirFlow, dbt, Trino;
- Интеграция новых источников данных и настройка CDC (Change Data Capture).
После адаптации:
- Проектирование эффективных паттернов загрузки (batch/streaming) и моделей данных;
- Развитие инфраструктуры: Kafka-Connect, ClickHouse, Trino;
- Оптимизация производительности запросов (партиционирование, материализованные представления);
- Автоматизация и рефакторинг процессов с упором на near real-time analytics;
- Возможность проектировать и реализовывать новые решения с 0 на современном стеке.
Требования
- Потоковая обработка: Kafka, Debezium, Kafka Connect;
- SQL + оптимизация: Trino, ClickHouse, оконные функции, анализ планов запросов;
- ETL/Orchestration: AirFlow (даги, кастомные операторы), Python (ООП);
- Data Modeling: dbt, Iceberg, OMD.
Будет плюсом
- Опыт работы с ClickHouse;
- Настройка Kafka Connect (JDBC, S3, Debezium connectors);
- Знание Trino;
- Практика с Iceberg + Hive.