Чем предстоит заниматься:
- ETL-процессами: проектирование и разработка ETL-процессов, включая очистку и нормализацию данных, создание витрин данных и feature engineering;
- Анализом данных: работа с большими объемами структурированных и неструктурированных данных, таких как тексты диалогов, метаданные сеансов и логи системы;
- Проведением А/В-тестов: разработка и проведение экспериментов для оценки нового функционала ассистента, анализ результатов с применением статистических тестов;
- Взаимодействием с Data Science командой: плотная работа с коллегами для улучшения моделей и алгоритмов, используемых в работе ассистента.
Требования:
- Уверенные знания Python: опыт работы с библиотеками анализа данных (Pandas, Pyspark, scikit-learn);
- Продвинутые знания SQL: опыт работы с реляционными базами данных (Postgres, ClickHouse, GreenPlum, Hadoop);
- Опыт работы с ETL: умение проектировать и оптимизировать процессы извлечения, трансформации и загрузки данных;
- Знания в области А/Б-тестирования: понимание принципов проведения тестов и анализа их результатов.
Будет плюсом:
- Знания в области NLP и Classic ML (transformers, word2vec, topic modelling, scikit-learn);