ЧЕМ ПРЕДСТОИТ ЗАНИМАТЬСЯ
- Разрабатывать и оптимизировать ETL-процессы на стеке Hadoop
- Делать интеграцию с источниками и анализ данных: исследование новых источников (ClickHouse, Kafka, Oracle, GP), оценка объемов и структуры данных
- Заниматься построением продуктовых витрин в Data Vault: разработка витрин согласно прототипу по бизнес требованиям заказчика
- Разрабатывать DQ-проверки (отслеживание дублей, NULLов, аномалий, настройка алертинга)
- Оптимизировать общие процессы в рамках продукта: рефакторинг кода
- Развивать внутренние библиотеки продукта
Требования
- Хорошее знание Python
- Знание SQL на уровне написания сложных запросов (большой вложенности) и оконных функций
- Коммерческий опыт со Spark (PySpark, оптимизация производительности)
- Опыт работы с Airflow (разработка, оркестрация и мониторинг DAGов)
- Опыт работы с Git