Чем предстоит заниматься:
- Строить ETL-пайплайны для данных транзакций, логов сессий, агрегатов клиентского и селлерского опыта.
- Оптимизировать ETL-процессы для реального времени (near real-time) или batch-обработки.
- Строить интеграцию с ML-инфраструктурой (автоматическое обновление признаков, мониторинг дрейфа, версионирование моделей, автоматизация процесса дообучения ML моделей).
- Обеспечивать отказоустойчивость и производительность пайплайнов.
Требования:
- Опыт в Data Engineering от 3-х лет.
- Знание Python (ООП, асинхронность, тестирование).
- Опыт работы с Big Data: PySpark / SQL (сложные агрегации, оптимизация запросов), Hadoop, Kafka (стриминг).
- Опыт с ETL-фреймворками (любой из): Airflow, Luigi, Dagster.
- Базы данных: PostgreSQL, ClickHouse (или аналоги).
- Мониторинг данных (Evidently, Whylogs, Grafana, Prometheus).
- Docker, REST API (для интеграции с ML-сервисами).
- Понимание ML-цикла (обучение, инференс, мониторинг).