Чем предстоит заниматься:
- прорабатывать архитектуру платформенных инструментов и работать над roadmap их развития. Примеры решений которые уже есть:
- Feature Store для хранения фичей для команды DS
- Data Catalog для сбора меты и построения data lineage
- Библиотека для интеграции Spark App с сервисами внутри компании
- помогать бизнесу, аналитикам и ds решать их задачи при помощи данных
- проводить исследования с целью оптимизации работы с данными
- разрабатывать проекты по обмену данными с внешними заказчиками (например, Росреестр, операторы сотовой связи и др.)
Требования:
- Python: основные типы и структуры данных, понимание концепций работы async кода и его отличий от классической модели, OOP, декораторы/генераторы/итераторы/context manager
- Опыт работы с Hadoop стеком от 2 лет
- Понимание архитектуру работы HDFS: какие типы нод за что отвечают, как работает Erasure Coding
- Опыт работы со Spark: можете объяснить что такое драйвер и экзекьюторы, пояснить за ленивость и actions, как связаны RDD и Dataframe
- Kafka