Data Secrets

Data Engineer (DWH)

Команда занимается развитием и поддержкой корпоративного хранилища данных в Лаборатории Касперского. Один из ключевых проектов - подготовка данных для системы маркетинговых коммуникаций. На текущий момент команда меняет архитектуру проекта с батчевых процессов на стриминговую модель (Kafka + Spark Streaming)

Чем предстоит заниматься:

Разработка процессов загрузки данных из внешних источников в DataLake и формирование витрин данных в DWH (Airflow, Spark, Hive);
Разработка стриминговых пайплайнов на Spark Streaming;
Совместно с командой и архитектором заниматься развитием подходов к обработке данных;
Разработка автотестов на процессы загрузки данных;
Разработка мониторингов качества данных.

Требования:

Уверенное знание SQL;
Понимание принципов работы БД и построения хранилищ данных;
Опыт работы с большими объемами данных и оптимизации производительности;
Опыт разработки на Python;
Опыт работы с Hadoop стеком (Spark, Hive);
Опыт работы с Airflow и ETL-инструментами.

Будет плюсом:

Опыт разработки стриминговых пайплайнов;
Опыт работы с Kafka;
Опыт работы с MS SQL Server;
Опыт работы с С#;
Опыт работы с Docker, Kubernetes;
Опыт работы с Prometheus, Grafana.

Data Engineer (DWH)

Чем предстоит заниматься:

Разработка процессов загрузки данных из внешних источников в DataLake и формирование витрин данных в DWH (Airflow, Spark, Hive);
Разработка стриминговых пайплайнов на Spark Streaming;
Совместно с командой и архитектором заниматься развитием подходов к обработке данных;
Разработка автотестов на процессы загрузки данных;
Разработка мониторингов качества данных.

Требования:

Уверенное знание SQL;
Понимание принципов работы БД и построения хранилищ данных;
Опыт работы с большими объемами данных и оптимизации производительности;
Опыт разработки на Python;
Опыт работы с Hadoop стеком (Spark, Hive);
Опыт работы с Airflow и ETL-инструментами.

Будет плюсом:

Опыт разработки стриминговых пайплайнов;
Опыт работы с Kafka;
Опыт работы с MS SQL Server;
Опыт работы с С#;
Опыт работы с Docker, Kubernetes;
Опыт работы с Prometheus, Grafana.