Чем предстоит заниматься:
В первые три месяца:
- Погрузиться во фреймворки загрузки данных и расчета витрин на основе задач по одному из направлений
- Освоиться в предметной области данных
- Проводить code review аналитиков с целью использования ими лучших технических решений и оптимизации производительности
Когда освоишься:
- Создавать новые паттерны загрузки данных и расчета витрин для дальнейшего переиспользования
- Развивать модель данных
- Рефакторить текущие процессы, предлагать лучшие практики работы с данными
- Самостоятельно вести проекты, нужные бизнесу. Декомпозировать их до понятных технических задач
Требования:
- Знать особенности MPP систем
- Уверенно владеть SQL(Оконные функции, партицирование, агрегации, оптимизация запросов, понимание плана запроса)
- Иметь опыт с Python достаточный для разработки операторов в AirFlow(ООП) и написания пайплайнов данных из различных источников
- Понимать принципы работы AirFlow(Даги, таски,операторы,сенсоры,хуки,контекст)
Будет плюсом:
- Опыт в GreenPlum и/или ClickHouse(особенно шардированный)