Чем предстоит заниматься
- Разрабатываем ML-модели для поиска и ранжирования организаций по пользовательским запросам.
- Улучшаем механизмы понимания и обработки поисковых запросов: сегментация текста, исправление опечаток, генерация автодополнений.
- Разрабатываем ML-модели для объяснимости выдачи: связывание товаров, услуг, атрибутов и отзывов с организациями.
- Делаем классификацию и кластеризацию запросов и организаций для повышения точности поиска.
- Разрабатываем ML-модели для саммаризации отзывов, извлечения фактов и других полезных данных из неструктурированных текстов.
Требования
- Работаете над NLP-задачами более 3 лет и имеете опыт реализации решений в реальных продуктах.
- Хорошо понимаете архитектуры современных моделей: BERT, T5, GPT и их вариаций – знаете их сильные и слабые стороны.
- Владеете Python и уверенно работаете с PyTorch, HF Transformers и другими ключевыми ML/DL-библиотеками.
- Умеете строить полный ML-пайплайн: от исследований и обучения до вывода модели в продакшен и поддержки инференса.
- Работали с задачами semantic search, query understanding, извлечения embedding-представлений и reranking.
- Умеете оценивать качество поисковых систем: Recall@K, MRR, NDCG, как в offline, так и в A/B-тестах.
Будет плюсом
- Знаете принципы оптимизации ML/DL-моделей и использовали библиотеки Triton, FasterTransformer, ONNX и другие.
- Разрабатывали ML-модели для задач поиска и ранжирования, в частности системы генерации кандидатов и dense retrieval с использованием FAISS, Usearch, ColBERT.
- Имеете опыт взаимодействия с backend/infra: FastAPI, Docker, gRPC, Kafka, Clickhouse, Kubernetes.
- Работали с инструментами для разработки LLM инфраструктуры: LangChain, LoRA/PEFT, vLLM, SGLang и другие.
- Участвовали в исследовательских или pet-проектах в области NLP – особенно приветствуются статьи, open-source и публичные демо.