Чем предстоит заниматься:
- Разработка с нуля MVP новой дата-платформы и инфраструктуры для ingest/transform;
- Мигрирование существующих пайплайнов с Hadoop/HDFS на новую архитектуру (S3, Kafka, Spark, ClickHouse);
- Работа с большими объёмами данных и высоконагруженными Kafka-топиками;
- Построение отказоустойчивых пайплайнов обработки и доставки данных;
- Участие в архитектурных решениях, внедрение best practices хранения, мониторинга и качества данных;
- Проектирование витрин данных под продуктовую и управленческую аналитику (OLAP);
- Сопровождение миграции BI-отчётов на новую платформу (например, DataLens, Power BI).
Требования:
- Опыт на позиции Data Engineer / Big Data Engineer от 5+ лет;
- Spark и RDD/DataFrames, Partitioning, Tuning;
- Опыт работы с высоконагруженной Kafka;
- Построение дата-архитектуры (DWH, OLAP, ETL/ELT, чанки, шардирование, SLA);
- Работа с облачными хранилищами и построение отказоустойчивой delivery (AWS S3 - плюс);
- Проектирование пайплайнов под отказоустойчивость, traceability и продакшеновую эксплуатацию;
- Работа на одном из языков программирования, например, Scala;
- Работа с ClickHouse;
- SQL.
Будет плюсом:
- Опыт построения дата-платформ и миграции данных между системами / подходами;
- Знание инструментов мониторинга и автоматического контроля качества данных (data contracts);
- Опыт настройки OpenMetadata / DataHub, реализации практик Data Governance;
- Опыт с Trino, Presto, dbt;
- Инфраструктурный опыт: Docker, Kubernetes, CI/CD.