Чем предстоит заниматься
- Проектирование и разработка отказоустойчивых ETL/ELT процессов в экосистеме Hadoop и Oracle
- Оптимизация и сопровождение пайплайнов данных (Spark, PySpark, Airflow)
- Интеграция новых источников данных и построение витрин для бизнес-заказчиков
- Обеспечение качества и актуальности данных в продуктивных системах
- Участие в архитектурных решениях по хранению и обработке больших данных
- Ad-hoc аналитика и поддержка команд аналитиков и data scientist
Требования
- Высшее техническое образование
- Опыт работы с большими данными от 2 лет
- Хорошее знание Python (pandas, PySpark) и SQL
- Опыт работы с Hadoop/Spark и системами оркестрации (Airflow и др.)
- Понимание принципов построения витрин данных и дата-моделирования
- Опыт оптимизации запросов и пайплайнов обработки данных
- Навыки работы с git и Linux bash
- Ответственность за результат и умение работать в команде