Чем предстоит заниматься:
- проектирование, разработка и оптимизация архитектуры DWH (Greenplum, Data Vault);
- разработка и поддержка ETL-процессов с использованием Nifi и Airflow, подключение новых источников данных;
- написание трансформаций и моделирование данных с использованием DBT;
- мониторинг и контроль работы регламентных процессов обновления данных;
- решение инцидентов с качеством данных;
- создание витрин данных;
- поддержка CI/CD процессов для обработчиков и загрузчиков данных;
- документация обработчиков данных и витрин, которые часто используются;
- рефакторинг имеющихся обработчиков с целью оптимизации;
- создавать решения (например, для заливки моделей / фичей) оптимизированные под запись;
- наполнение базы знаний;
Требования:
- знание методологий проектирования DWH;
- опыт в разработке и поддержке DWH и ETL от 3 лет;
- знание SQL на хорошем уровне: оконные функции, иерархические запросы, оптимизация производительности запросов;
- опыт работы с DBT;
- хорошее знание Python: знать что такое virtualenv, уметь remote-development, уметь оформлять тесты и настраивать линтеры;
- хорошее знание Airflow: уметь писать собственные hooks и operators, умение пользоваться внутренними возможностями airflow по хранению параметров соединений, создание и поддержание документации по дагам;
- Linux: знание основных команд, умение писать bash-скрипты, умение работать с pipe;
- умение работать с docker контейнерами;
- опыт работы с git, настройка пайплайнов в gitlab-ci;
- опыт настройки и использования Apache Kafka, знание Avro формата;
- хорошее знание REST API;
Будет плюсом:
- опыт работы с S3;
- опыт работы с колоночными СУБД (Greenplum, Vertica, Teradata, Clickhouse): уметь разворачивать, проектировать схемы для витрин в зависимости от назначения, настраивать мониторинг и бэкапы, анализ и оптимизация запросов;
- Apache NiFi: хотя бы уверенные теоретические знания;
- Soda Core;
- знание Cloud concepts (Yandex Cloud, AWS);
Как устроен процесс найма:
Видео-звонок с HR → Техническое вью → Финальное вью → Оффер.