Data Secrets

Разрабатывать и оптимизировать ETL-процессы на стеке Hadoop
Делать интеграцию с источниками и анализ данных: исследование новых источников (ClickHouse, Kafka, Oracle, GP), оценка объемов и структуры данных
Заниматься построением продуктовых витрин в Data Vault: разработка витрин согласно прототипу по бизнес требованиям заказчика
Разрабатывать DQ-проверки (отслеживание дублей, NULLов, аномалий, настройка алертинга)
Оптимизировать общие процессы в рамках продукта: рефакторинг кода
Развивать внутренние библиотеки продукта

Хорошее знание Python
Знание SQL на уровне написания сложных запросов (большой вложенности) и оконных функций
Коммерческий опыт со Spark (PySpark, оптимизация производительности)
Опыт работы с Airflow (разработка, оркестрация и мониторинг DAGов)
Опыт работы с Git

Разрабатывать и оптимизировать ETL-процессы на стеке Hadoop
Делать интеграцию с источниками и анализ данных: исследование новых источников (ClickHouse, Kafka, Oracle, GP), оценка объемов и структуры данных
Заниматься построением продуктовых витрин в Data Vault: разработка витрин согласно прототипу по бизнес требованиям заказчика
Разрабатывать DQ-проверки (отслеживание дублей, NULLов, аномалий, настройка алертинга)
Оптимизировать общие процессы в рамках продукта: рефакторинг кода
Развивать внутренние библиотеки продукта

Хорошее знание Python
Знание SQL на уровне написания сложных запросов (большой вложенности) и оконных функций
Коммерческий опыт со Spark (PySpark, оптимизация производительности)
Опыт работы с Airflow (разработка, оркестрация и мониторинг DAGов)
Опыт работы с Git

Junior Data Engineer