Чем предстоит заниматься
- Проектирование и разработка масштабируемых фреймворков для ETL/ELT процессов.
- Создание отказоустойчивых решений для загрузки и обработки данных из разнородных источников.
- Оптимизация хранения и доступа к данным в Data Lakehouse.
- Проектирование и внедрение процессов непрерывного тестирования.
- Проведение код-ревью по закрепленным задачам.
- Создание и поддержание понятной документации, настройка метрик качества данных и помощь коллегам в использовании инструментов.
- Участие в разработке компонентов архитектуры Data Lakehouse.
Требования
- Опыт работы с Apache Spark (Python) от 3 лет.
- Опыт работы с Iceberg или Delta Lake/Hudi.
- Опыт работы с big data и построения масштабируемых пайплайнов данных.
- Опыт разработки API для предоставления данных из Data Platform (FastAPI, GraphQL).
- Опыт работы с базами данных (PostgreSQL, ClickHouse, Redis).
- Практический опыт автоматизации пайплайнов с использованием подходов непрерывной интеграции/деплоя (CI/CD) и современных практик DevOps (Concourse, Jenkins, Git Actions, ArgoCD).
Будет плюсом:
- Опыт разработки в паттернах микросервисной архитектуры и понимание механизмов взаимодействия микросервисов.
- Опыт создания масштабируемой инфраструктуры в облаке с помощью Python, Go или Java (или аналогичных языков).
- Опыт работы с одним или несколькими поставщиками облачных услуг и/или хороший опыт развертывания Kubernetes с использованием средств предоставления инфраструктуры (IaaC, как Terraform).
- Опыт промышленного внедрения ML-моделей и разработки MLOps-платформ.