Чем предстоит заниматься:
- Разработать и оптимизировать процесс забора данных из Hadoop/Spark , а также читать данные из Kafka;
- Построить эффективные витрины данных в ClickHouse для аналитики в Yandex DataLens;
- Разработать и оптимизировать ETL/ELT пайплайны для обработки и трансформации данных;
- Автоматизировать процесс формирования аналитических отчетов в DataLens;
- Улучшить процессы извлечения данных из MsSQL и интеграции с другими системами;
- Проанализировать и переработать существующую архитектуру данных, обеспечивая высокую производительность и отказоустойчивость ;
- Работать с потоковыми данными в Kafka и организовывать качественную доставку данных;
- Настроить мониторинг и контроль качества данных, развернуть систему документирования метаданных (например, OpenMetadata или DataHub );
- В дальнейшем подключать в инструментарий Облачные решения, Trino и т.д.
Требования:
- Опыт работы на позиции Data Engineer от 5 лет ;
- Хорошие знания SQL (ClickHouse, MsSQL, альтернативы);
- Опыт работы с распределенными системами (Hadoop, Spark, альтернативы);
- Навыки работы с потоковыми данными и системами очередей (Kafka );
- Опыт проектирования и разработки ETL/ELT пайплайнов (Airflow, dbt, Dagster или аналог);
- Понимание принципов работы DWH и построения OLAP-витрин ;
- Опыт работы с BI-инструментами (DataLens , Tableau, PowerBI будет плюсом);
- C#/.NET и Python сейчас используется в большей степени— будет плюсом GO/Java/Scala/Kotlin;
- Навыки работы с Git , CI/CD и автоматизацией процессов развертывания.
Будет плюсом:
- Опыт работы с Airflow (dbt, Dagster) или другими инструментами оркестрации пайплайнов;
- Опыт настройки OpenMetadata или DataHub для документирования метаданных;
- Понимание концепций Data Governance и контроля качества данных;
- Опыт работы с контейнеризацией (Docker, Kubernetes );
- Опыт работы с AWS S3, Trino;