Чем предстоит заниматься
- создавать потоки для пакетной транспортировки данных (ETL/ELT) посредством технологий Apache Spark и Apache Airflow;
- развивать потоки для потоковой транспортировки данных (Streaminig) посредством технологий Apache Kafka и Apache Structured Streaming;
- реализовывать оптимальный код для решения бизнес-задач в виде проектов Python и SQL на платформе Apache Hadoop с помощью технологий Apache Spark, Apache Livy, Apache Hive;
- развивать и оптимизировать существующие процессы в системе управления задачами и балансировке нагрузки с помощью Python и Apache Airflow;
- работать с версионным хранилищем кода и сложными процессами непрерывной интеграции и доставки кода на прод (CI/CD GitLab);
- работать с существующими процессами в различных СУБД (Teradata, Postgres, Oracle, Redis) - поддерживать в актуальном состоянии документацию проекта;
- проводить проверку кода младших специалистов
- работать с serverless сервисами в облаке (Yandex Cloud) и системами упаковки ПО (Docker, K8S).
Требования
- опыт работы от 2-х лет на аналогичной должности;
- опыт работы с Apache (Spark, Hive, Airflow):
- уверенное владение Python и SQL.
Будет плюсом
- опыт работы с Linux, Streaming, Docker, Yandex Cloud.