Чем предстоит заниматься:
- Разрабатывать с нуля MVP новой дата-платформы и инфраструктуры для ingest/transform;
- Мигрировать существующие пайплайны с Hadoop/HDFS на новую архитектуру (S3, Kafka, Spark, ClickHouse);
- Работать с большими объёмами данных и высоконагруженными Kafka-топиками;
- Строить отказоустойчивые пайплайны обработки и доставки данных;
- Участвовать в архитектурных решениях, внедрять best practices хранения, мониторинга и качества данных;
- Проектировать витрины данных под продуктовую и управленческую аналитику (OLAP);
- Сопровождать миграцию BI-отчётов на новую платформу (например, DataLens, Power BI).
Требования:
- Имеет 5+ лет опыта на позиции Data Engineer / Big Data Engineer;
- Отлично понимает, как работает Spark и умеет его готовить (RDD/DataFrames, Partitioning, Tuning);
- Имеет опыт работы с высоконагруженной Kafka (десятки/сотни тысяч событий, масштабируемость, latency);
- Работал с ClickHouse и знает, как «выжать» из него максимум;
- Знаком с построением дата-архитектуры (DWH, OLAP, ETL/ELT, чанки, шардирование, SLA);
- Умеет проектировать пайплайны под отказоустойчивость, traceability и продакшеновую эксплуатацию;
- Пишет на одном из языков программирования, например, Scala
- Знает SQL и может читать логику отчетов без боли;
- Понимает, как работать с облачными хранилищами и строить отказоустойчивую delivery (AWS S3 - плюс).
Будет плюсом:
- Опыт построения дата-платформ и миграции данных между системами / подходами;
- Знание инструментов мониторинга и автоматического контроля качества данных (data contracts);
- Опыт настройки OpenMetadata / DataHub, реализации практик Data Governance;
- Опыт с Trino, Presto, dbt;
- Инфраструктурный опыт: Docker, Kubernetes, CI/CD.