Чем предстоит заниматься:
- разрабатывать и выводить в промышленный контур витрины данных
- обрабатывать и поставлять данные для исследований в Лабораторный контур • консультировать пользователей по вопросам использования данных
- создавать и актуализировать техническую документацию
- создавать процедуры контроля качества данных и автоматизировать процессы проверки
- проводить анализ структур данных в различных источниках и форматах.
Требования:
- опыт работы в data engineering от 3 лет
- опыт работы с AI-инструментами: GitHub Copilot, Claude Code или подобными
- владение одним из языков программирования: Python или Scala
- навыки работы с pyspark или spark
- практическое владение технологическим стеком Hadoop (HDFS, YARN, Hive)
- опыт обработки больших объемов данных в распределенных средах
- уверенное знание SQL (сложные запросы, оптимизация)
- опыт работы с реляционными СУБД (одна или несколько): Oracle, Teradata, MS SQL, Greenplum
- понимание концепций и принципов организации хранилищ данных (DWH)
- опыт проектирования витрин данных
- опыт использования инструментов разработки GIT, DevOps.
Будет плюсом:
- опыт работы с инструментами оркестрации данных (Airflow, NiFi или аналоги)
- опыт работы с потоковой обработкой данных (Kafka, Spark Streaming)
- опыт работы с LLM API, подготовка данных для ML/AI-моделей
- опыт построения пайплайнов для evals/оценки качества моделей
- опыт работы в финтехе или в защищённом контуре