Чем предстоит заниматься:
- Создание и оптимизация скриптов для обработки данных с использованием Apache Spark и Apache Flink.
- Разработка временных решений для обработки данных, таких как расчет остатков и анализ открытых заказов.
- Настройка и поддержка потоковой обработки данных с использованием Apache Kafka и Apache Flink.
- Интеграция потоковых данных с существующими системами.
- Настройка и управление workflows с использованием Apache Airflow для автоматизации ETL-процессов.
- Мониторинг и оптимизация выполнения задач.
- Развертывание и настройка инфраструктуры для обработки данных в Yandex Cloud.
- Использование Docker и Kubernetes (K8S) для контейнеризации и оркестрации сервисов.
- Написание и оптимизация SQL-запросов для работы с большими объемами данных.
- Анализ производительности и устранение узких мест в процессах обработки данных.
Требования:
- Опыт работы с Apache Spark, Apache Hive и Apache Airflow.
- Знание Python и опыт разработки скриптов для обработки данных.
- Опыт работы с SQL и оптимизацией запросов.
- Базовые знания Yandex Cloud и опыт работ.
- Опыт работы с Linux и настройкой окружения для обработки данных.
- Знание Docker и базовые навыки работы с Kubernetes (K8S).
- Опыт работы с потоковой обработкой данных (streaming).