Чем предстоит заниматься:
- построение витрин больших объемов (десятки терабайт), в т.ч. с возможностью частичного перестроения
- оптимизация хранения данных в Greenplum: структура, партиционирование, сжатие, разработка и ведение логической схемы данных
- обеспечение гигиены хранилища: контроль консистентности, структурная единообразность, управление зависимостями
- разработка автоматических тестов и мониторинга качества данных в пайплайнах
- работа с Apache Airflow: построение и поддержка DAG’ов
- построение и оптимизация ETL процессов загрузки данных из Clickstream в Greenplum.
Требования:
- высшее техническое образование
- опыт в разработке сервисов Data-аналитики не менее 3-х лет
- понимание принципов распределенных вычислений
- знание и понимание DevOps практик
- отличное знание классических алгоритмов и структур данных.
- знания принципов построения различных систем хранения и обработки данных
- знание SQL, Python
- понимание технологий интеграции REST, Kafka и форматов обмена данными
- опыт работы с экосистемой Hadoop
- опыт работы с ETL-инструментами (к примеру, AirFlow)
- опыт работы с CI/CD pipeline
- знание технологий HDFS, Spark, HBase
- подготовка карты данных и сопроводительной документации.