Data Secrets

Погружение: разобраться в бизнес контексте, данных и инфраструктуре.
Анализ текущего решения: изучить существующее решение и найти его слабое место — как в самом подходе, так и в таргете, признаках при наличии.
R&D: Опробовать разные ML подходы: классификация, кластеризация, uplift и ранжирующие модели, нейросети (можно часть из них). Сравнить имеющееся решение и опробованные
Валидация: проверить качество offline метриками (AUC/PR, NDCG для ранжирования, uplift метрики и др.), убедиться, что есть статистически значимый прирост в точности
Итог: написать статью/отчёт со сравнением методов. Если получится — запускаем лучшее решение в прод в параллель с имеющимся и проводим ABC тест.

Стек: Уверенный Python, продвинутый SQL. Базовое понимание PySpark — плюс.
Классический ML: Хорошие знания алгоритмов. Бустинги, деревья, логистическая и линейная регрессия, кластеризация, uplift и ранжирующие модели (плюс), работа с дисбалансом, калибровка.
Deep Learning / RecSys / NLP - плюс: Базовые представления о нейронных сетях (MLP, embeddings), рекомендательных системах и NLP задачах.
Математика и аналитика: Теория вероятностей, доверительные интервалы, статистические тесты, бутстрэп.
Soft skills: Чёткая коммуникация и самостоятельность в отладке кода.

Погружение: разобраться в бизнес контексте, данных и инфраструктуре.
Анализ текущего решения: изучить существующее решение и найти его слабое место — как в самом подходе, так и в таргете, признаках при наличии.
R&D: Опробовать разные ML подходы: классификация, кластеризация, uplift и ранжирующие модели, нейросети (можно часть из них). Сравнить имеющееся решение и опробованные
Валидация: проверить качество offline метриками (AUC/PR, NDCG для ранжирования, uplift метрики и др.), убедиться, что есть статистически значимый прирост в точности
Итог: написать статью/отчёт со сравнением методов. Если получится — запускаем лучшее решение в прод в параллель с имеющимся и проводим ABC тест.

Стек: Уверенный Python, продвинутый SQL. Базовое понимание PySpark — плюс.
Классический ML: Хорошие знания алгоритмов. Бустинги, деревья, логистическая и линейная регрессия, кластеризация, uplift и ранжирующие модели (плюс), работа с дисбалансом, калибровка.
Deep Learning / RecSys / NLP - плюс: Базовые представления о нейронных сетях (MLP, embeddings), рекомендательных системах и NLP задачах.
Математика и аналитика: Теория вероятностей, доверительные интервалы, статистические тесты, бутстрэп.
Soft skills: Чёткая коммуникация и самостоятельность в отладке кода.

Middle/Middle+ Data Scientist