Чем предстоит заниматься:
- Заниматься обработкой данных для обучения
- С помощью нейронных сетей дообучать представления текста и изображений для решения задачи матчинга
- Много экспериментировать (и с данными, и с моделями, и с архитектурой)
- Внедрять систему оценки модели, переводить ML-метрики на понятный бизнесу язык
- Исследовать LLM-подходы для решения задачи матчинга
Требования:
- Уверенные знания Python и основных библиотек для анализа данных и машинного обучения (Pandas/Polars, Scikit-learn, TensorFlow/PyTorch)
- Понимание базовых принципов обучения нейросетевых моделей
- Интерес к NLP и знание подходов (и базовых, и современных)
- Понимание принципов работы с распределенными системами данных
- Практический опыт полного цикла решения ML-задачи: предобработка сырых данных, выбор алгоритмов, подбор параметров, оценка качества моделей, проведение разных экспериментов
Будет плюсом:
- Опыт решения retail-задач, в частности матчинга
- Практический опыт решения задач, связанных с NLP (например, обучали эмбеддинги и/или использовали их в моделях)
- Писали ETL на Spark
- Разрабатывали сервисы на FastAPI
