Data Secrets

Data engineer (команда Data lake)

Команда создает хранилища данных и инструменты для их анализа и использования в аналитике, BI, ML. В связи с ростом компании и новыми задачами, Самокат ищемтинженера в группу разработки и развития транспортировки данных.

Чем предстоит заниматься:

дорабатывать Kafka Connect для задачи загрузки данных в Data Lake;
разрабатывать, оптимизировать и мониторить ETL-процессы на основе технологий Airflow, S3, Greenplum, ClickHouse, используя Python и Spark (Scala);
подключать новые источники к Trino;
создавать инструменты для упрощения ETL разработки;
развивать существующее CDC-решение на базе Debezium и Spark Streaming: улучшать мониторинг, автоматизировать то, что делается вручную;
развивать практику использования Trino в компании;
участвовать в разборах инцидентов по сервисам команды.

Требования:

понимание принципов организации хранилищ данных, работы колоночных СУБД;
уверенное знание SQL, Python;
готовность изучать Spark (Scala);
стремление обосновывать и документировать появляющиеся решения.

Будет плюсом:

программировал на Scala / Java;
знаешь фреймворки Apache Spark, Apache Airflow;
работал с форматами iceberg, parquet, protobuf, avro;
использовал Trino / Greenplum / ClickHouse;
знаком с Kafka Connect.

Data engineer (команда Data lake)

Чем предстоит заниматься:

дорабатывать Kafka Connect для задачи загрузки данных в Data Lake;
разрабатывать, оптимизировать и мониторить ETL-процессы на основе технологий Airflow, S3, Greenplum, ClickHouse, используя Python и Spark (Scala);
подключать новые источники к Trino;
создавать инструменты для упрощения ETL разработки;
развивать существующее CDC-решение на базе Debezium и Spark Streaming: улучшать мониторинг, автоматизировать то, что делается вручную;
развивать практику использования Trino в компании;
участвовать в разборах инцидентов по сервисам команды.

Требования:

понимание принципов организации хранилищ данных, работы колоночных СУБД;
уверенное знание SQL, Python;
готовность изучать Spark (Scala);
стремление обосновывать и документировать появляющиеся решения.

Будет плюсом:

программировал на Scala / Java;
знаешь фреймворки Apache Spark, Apache Airflow;
работал с форматами iceberg, parquet, protobuf, avro;
использовал Trino / Greenplum / ClickHouse;
знаком с Kafka Connect.