Data Secrets

Основы computer science (алгоритмов)
Знание ЯП для работы с BigData
В нашем случае Python (стандартные библиотеки: numpy, pandas, requests)
Умение писать аналитические SQL запросы
Опыт работы в нескольких диалектах SQL
Пользователь Linux, git
Будет большим плюсом:
PySpark - понимание параметров Spark сессии и планов запросов
Понимание архитектуры MPP баз данных - Clickhouse
Опыт работы с брокерами сообщений - Kafka
Понимание зачем и как работает CI/CD
умение перезапустить и понять ошибку из лога
Понимание хранилища HDFS - умение организовывать файлы нужного размера и сортировки, взаимодействие через cli
Основы построения хранилищ данных, слои и архитектурные подходы
Опыт работы с инструментами оркестрации процессов (мы используем Apache Airflow)
Умение писать различные виды тестов (в том числе unit-тесты) с помощью pytest.

Основы computer science (алгоритмов)
Знание ЯП для работы с BigData
В нашем случае Python (стандартные библиотеки: numpy, pandas, requests)
Умение писать аналитические SQL запросы
Опыт работы в нескольких диалектах SQL
Пользователь Linux, git
Будет большим плюсом:
PySpark - понимание параметров Spark сессии и планов запросов
Понимание архитектуры MPP баз данных - Clickhouse
Опыт работы с брокерами сообщений - Kafka
Понимание зачем и как работает CI/CD
умение перезапустить и понять ошибку из лога
Понимание хранилища HDFS - умение организовывать файлы нужного размера и сортировки, взаимодействие через cli
Основы построения хранилищ данных, слои и архитектурные подходы
Опыт работы с инструментами оркестрации процессов (мы используем Apache Airflow)
Умение писать различные виды тестов (в том числе unit-тесты) с помощью pytest.

Стажер Data Engineer