Чем предстоит заниматься:
- Построение и поддержка ETL/пайплайнов:
- Разработка, оптимизация и мониторинг для гарантированной доставки данных.
- Развитие сервисной модели для аналитиков:
- Предоставление качественных, документированных и актуальных данных через витрины и инструменты автоматизации, сокращая время на рутинные запросы.
- Повышение надежности и прозрачности:
- Помощь во внедрении единых стандартов на тестирование, мониторинг и алертинг для всех data-процессов.
Требования:
- Знание SQL (CTE, оконные функции, оптимизация запросов).
- Базовые навыки профилирования и оптимизации SQL-запросов (чтение explain plan, понимание индексов).
- Понимание принципов построения ETL/ELT-пайплайнов и опыт работы с Apache Airflow.
- Базовые знания Python для целей обработки данных (Pandas, PySpark). Опыт работы с Git.
- Понимание концепций распределенных систем и работы с большими данными (архитектура Spark, Kafka, Hadoop).
Будет плюсом:
- Практический опыт работы с Apache Kafka. Знание специфики ClickHouse (движки таблиц, особенности кластерной работы).
- Опыт работы с Vertica/Trino. Навыки работы с Docker и оркестраторами (Rancher/Kubernetes)
- Понимание принципов работы gRPC.
- Привычка к ведению документации, понимание принципов Data Catalog (что такое глоссарий, метаданные, lineage).