Чем предстоит заниматься:
- Анализ требований к витринам данных (взаимодействие с владельцем продукта, BI-разработчиками, data scientist-ами);
- Поиск и исследование источников данных для последующей интеграции;
- Оценка пригодности, качества исходных данных;
- Разработка ETL процессов на Spark;
- Оркестрация ETL процессов в Airflow;
- Проектирование баз данных;
- Создание конвейеров данных NiFi.
Требования:
- Проработал от 1 года и более в таких областях как: коммуникационные технологии, безопасность, маркетинг и продажи, финансы;
- Знает языка запросов SQL (в т. ч. DDL, табличные выражения, оконные функции);
- Работал с Hive, PostgreSQL или MS SQL;
- Умеет разрабатывать ETL процессы Spark на Scala (потоковая обработка как преимущество);
- Пользовался AirFlow или другими оркестраторами — Oozie, Luigi, ну или cron;
- Может что-то написать на Python — в объеме чтобы пользоваться AirFlow;
- Умеет проектировать базы данных (знает Data Vault 2.0 например);
- Понимает принципы работы реляционных СУБД и HDFS;
- Имеет представление о колоночных и NoSQL СУБД;
- Понимает подходы к работе с качеством данных;
- Применяет системный подход к работе, думает о конечной бизнес-задаче, мыслит логически, уделяет внимание деталям.