Чем предстоит заниматься
- Извлечение атрибутов и характеристик – автоматическое выделение параметров товаров и данных о компаниях.
- Предсказание категорий – автоматическая классификация товаров и организаций на основе их описаний и характеристик.
- Поиск и расширение семантических связей – выявление связей между товарами, рубриками и компаниями для улучшения поисковых алгоритмов.
- Оптимизация рубрикатора – работа с ключевыми словами, их синонимами и частотностью для улучшения качества поисковой выдачи.
- Нормализация и дедубликация данных – приведение информации к единому формату.
- Модерация данных – работа над качеством и релевантностью товаров и отзывов.
Требования
- Опыт работы с NLP-задачами 3+ лет.
- Углубленные знания современных и классических архитектур и моделей обработки естественного языка.
- Опыт работы с PyTorch, HF Transformers и основными библиотеками для обработки данных, текста и ML/DL.
- Отличное знание Python и опыт создания ML-сервисов.
- Готовность работать на всех этапах разработки: от анализа проблемы и проведения экспериментов до оценки решений и их реализации в виде сервисов.
Будет плюсом
- Опыт работы с CI/CD и инфраструктурой: Docker, Kubernetes, Kafka, FastAPI.
- Навыки интеграции и деплоя ML-моделей в продуктовые серверные приложения.
- Знание принципов оптимизации ML/DL-моделей: ONNX, Triton, FasterTransformer и др.
- Опыт работы с инструментами для разработки LLM инфраструктуры: vLLM, LangChain, LlamaIndex.