Чем предстоит заниматься:
- Добыча данных – умные системы для поиска товаров, контактов, описаний и других данных, связанных с компаниями;
- Поддержка актуальности информации о компаниях – с помощью данных и моделей проводим валидацию существующей информации о компаниях, добываем новую;
- Категоризация товаров – автоматическая классификация товаров на основе их описаний и характеристик;
- Модерация данных – предотвращаем публикацию нежелательных отзывов и товаров в продукте.
Требования:
- Опыт работы с NLP-задачами 3+ лет;
- Уверенное владение PyTorch, HF Transformers и основными библиотеками для обработки текста и ML/DL;
- Глубокое понимание LLM: архитектуры моделей, файнтюнинга, техник улучшения качества генерации;
- Опыт применения LLM стека: низкоуровневых решений на vLLM, sglang; инструментов для оркустрации и интеграции LangChain, LlamaIndex;
- Навыки применения классических, глубоких и LLM моделей;
- Уверенные навыки разработки на Python и владение Git;
- Готовность работать на всех этапах разработки: от анализа проблемы и проведения экспериментов до оценки решений и их реализации в виде сервисов.
- Опыт работы с CI/CD и инфраструктурой: Docker, Gitlab, Kubernetes, Kafka, FastAPI, GRPC;
- Глубокое знание Python: multiprocessing, asyncio
- Навыки интеграции и деплоя ML-моделей в продуктовые серверные приложения;
- Навыки оптимизации инференса ML/DL-моделей: distillation, pruning, ORT, Triton.
