Чем предстоит заниматься
- проектирование и построение DWH
- подготовка витрин данных для отчетности, бизнеса и дата аналитики
- организация пайплайнов сбора данных от бэкендов и других хранилищ
- организация пайплайна подготовки датасетов для обучения ML моделей
- организация мониторинга компонентов корпоративной платформы данных
- разработка ETL/ELT пайплайнов и поддержка существующих
Требования
- Java8+, Scala или Python (один из языков на хорошем уровне)
- знание алгоритмов и структур данных
- знание SQL и принципов работы классических БД
- желание развиваться в BigData и ML
- Hadoop, Spark, YARN, Hive, Impala
- noSQL базы: Cassandra, Elastic
- анализ данных при помощи Python-ноутбуков Jupyter, Zeppelin
- работа с очередями сообщений: Kafka, Rabbit, JMS