Чем предстоит заниматься
- исследовать новые источники данных, формировать новые признаки, проводить их оценку на значимость и стабильность во времени
- собирать выборки и заниматься предобработкой данных из различных источников для обучения и валидации моделей
- проверять различные модели для решения задачи (классификация, регрессия, выявление аномалий), выбирать лучшую модель
- оценивать качество обученных моделей
- формировать требования к витринам для команды инженеров
- участвовать в пилотировании моделей, давать интерпретацию полученных результатов
- анализировать результаты мониторинга работы моделей на Проме
Требования
- профильное высшее образование
- хорошее знание теории вероятностей и статистики, умение проверять гипотезы на стат. значимость
- знание Python и основных библиотек (numpy, pandas, scipy, sklearn)
- уверенное владение классическими алгоритмами машинного обучения и специализированными библиотеками (LightGBM, CatBoost и др.)
- знание SQL
- инструментальное владение AI для анализа, генерации и автоматизации
Будет плюсом
- уверенная работа с Git
- базовое понимание устройства Hadoop-кластера, умение подготавливать данные и запускать модель на PySpark
- опыт обучения DL моделей на PyTorch, работа с GPU
- опыт работы с текстовыми данными, применение архитектуры Transformers
- успешное участие в соревнованиях или хакатонах