Чем предстоит заниматься:
- Разработка и сопровождение ETL-пайплайнов на базе Apache Spark
- Миграция процессов с Oozie на Airflow или Capybara (внутренний аналог)
- Подключение новых источников данных, обработка и агрегация больших объёмов данных
- Автоматизация контроля качества данных, валидации, мониторинга потоков данных
- Оптимизация процессов выгрузки и трансформации данных для аналитиков
- Разгрузка Qlik (перенос тяжёлых задач в Spark/Capybara)
Требования:
- Опыт работы с Big Data-платформами от 2 лет
- Уверенное знание Spark/Airflow
- Уверенное владение SQL (в том числе оптимизация под Hive)
- Понимание принципов работы Hadoop/HDFS, распределённого хранения
- Опыт автоматизации процессов и мониторинга (Airflow, аналогичные системы)
- Умение читать и поддерживать чужой код, писать техническую документацию
Будет плюсом:
- Опыт миграции пайплайнов с Oozie
- Опыт интеграции BI-систем (Qlik, Tableau и т.д.)
- Навыки DevOps-инфраструктуры: Docker, K8s, мониторинг