Чем предстоит заниматься
- Погружение: разобраться в бизнес контексте, данных и инфраструктуре.
- Анализ текущего решения: изучить существующее решение и найти его слабое место — как в самом подходе, так и в таргете, признаках при наличии.
- R&D: Опробовать разные ML подходы: классификация, кластеризация, uplift и ранжирующие модели, нейросети (можно часть из них). Сравнить имеющееся решение и опробованные
- Валидация: проверить качество offline метриками (AUC/PR, NDCG для ранжирования, uplift метрики и др.), убедиться, что есть статистически значимый прирост в точности
- Итог: написать статью/отчёт со сравнением методов. Если получится — запускаем лучшее решение в прод в параллель с имеющимся и проводим ABC тест.
Требования
- Стек: Уверенный Python, продвинутый SQL. Базовое понимание PySpark — плюс.
- Классический ML: Хорошие знания алгоритмов. Бустинги, деревья, логистическая и линейная регрессия, кластеризация, uplift и ранжирующие модели (плюс), работа с дисбалансом, калибровка.
- Deep Learning / RecSys / NLP - плюс: Базовые представления о нейронных сетях (MLP, embeddings), рекомендательных системах и NLP задачах.
- Математика и аналитика: Теория вероятностей, доверительные интервалы, статистические тесты, бутстрэп.
- Soft skills: Чёткая коммуникация и самостоятельность в отладке кода.