Чем предстоит заниматься:
- Проектировать архитектуру модели данных для realtime хранилища рекламной платформы;
- Строить отчетность, показывающую результат и эффективность открутки рекламной кампании в Real-time режиме;
- Обеспечивать качество данных в разных системах, проектировать Data Quality;
- Разрабатывать витрины для продуктовой аналитики рекламы;
- Оптимизировать действующие пайплайны на Spark - мониторить нагрузку на кластер и оптимальность затрачиваемых ресурсов;
- Проектировать хранилища данных на основе Hadoop и Clickhouse, настраивать производительность/мониторинг - думать над тем что и как грузить и в каких партициях;
- Решать задачи, связанные с внедрением облачной инфраструктуры;
- Создавать стабильные отказоустойчивые и масштабируемые аналитические сервисы;
- Анализировать и внедрять инструменты инжиниринга данных.
Требования:
- Опыт работы с Clickhouse;
- Опыт работы со стеком Hadoop (YARN, HDFS, Hive);
- Опыт работы в Spark и Spark Streaming/Flink;
- Опыт в проектировании хранилищ систем near realtime отчетности;
- Понимание инфраструктуры Apache Kafka;
- Владение одним из языков программирования (Java, Scala).
Будет плюсом:
- Опыт сбора и обработки требований;
- Опыт работы с Docker.