Чем предстоит заниматься
- Осуществлять разработку ETL pipeline над большими данными
- Оптимизировать существующие дата процессы
- Формировать проверки Data Quality
- Поддерживать высоконагруженные потоковые сервисы
- Настраивать алертинг и мониторинг процессов.
Требования
- Основы computer science (алгоритмов)
- Знание ЯП для работы с BigData
- В нашем случае Python (стандартные библиотеки: numpy, pandas, requests)
- Умение писать аналитические SQL запросы
- Опыт работы в нескольких диалектах SQL
- Пользователь Linux, git
- Будет большим плюсом:
- PySpark - понимание параметров Spark сессии и планов запросов
- Понимание архитектуры MPP баз данных - Clickhouse
- Опыт работы с брокерами сообщений - Kafka
- Понимание зачем и как работает CI/CD
- умение перезапустить и понять ошибку из лога
- Понимание хранилища HDFS - умение организовывать файлы нужного размера и сортировки, взаимодействие через cli
- Основы построения хранилищ данных, слои и архитектурные подходы
- Опыт работы с инструментами оркестрации процессов (мы используем Apache Airflow)
- Умение писать различные виды тестов (в том числе unit-тесты) с помощью pytest.