Data Secrets

Добыча данных – умные системы для поиска товаров, контактов, описаний и других данных, связанных с компаниями;
Поддержка актуальности информации о компаниях – с помощью данных и моделей проводим валидацию существующей информации о компаниях, добываем новую;
Категоризация товаров – автоматическая классификация товаров на основе их описаний и характеристик;
Модерация данных – предотвращаем публикацию нежелательных отзывов и товаров в продукте.

Опыт работы с NLP-задачами 3+ лет;
Уверенное владение PyTorch, HF Transformers и основными библиотеками для обработки текста и ML/DL;
Глубокое понимание LLM: архитектуры моделей, файнтюнинга, техник улучшения качества генерации;
Опыт применения LLM стека: низкоуровневых решений на vLLM, sglang; инструментов для оркустрации и интеграции LangChain, LlamaIndex;
Навыки применения классических, глубоких и LLM моделей;
Уверенные навыки разработки на Python и владение Git;
Готовность работать на всех этапах разработки: от анализа проблемы и проведения экспериментов до оценки решений и их реализации в виде сервисов.
Опыт работы с CI/CD и инфраструктурой: Docker, Gitlab, Kubernetes, Kafka, FastAPI, GRPC;
Глубокое знание Python: multiprocessing, asyncio
Навыки интеграции и деплоя ML-моделей в продуктовые серверные приложения;
Навыки оптимизации инференса ML/DL-моделей: distillation, pruning, ORT, Triton.

Добыча данных – умные системы для поиска товаров, контактов, описаний и других данных, связанных с компаниями;
Поддержка актуальности информации о компаниях – с помощью данных и моделей проводим валидацию существующей информации о компаниях, добываем новую;
Категоризация товаров – автоматическая классификация товаров на основе их описаний и характеристик;
Модерация данных – предотвращаем публикацию нежелательных отзывов и товаров в продукте.

Опыт работы с NLP-задачами 3+ лет;
Уверенное владение PyTorch, HF Transformers и основными библиотеками для обработки текста и ML/DL;
Глубокое понимание LLM: архитектуры моделей, файнтюнинга, техник улучшения качества генерации;
Опыт применения LLM стека: низкоуровневых решений на vLLM, sglang; инструментов для оркустрации и интеграции LangChain, LlamaIndex;
Навыки применения классических, глубоких и LLM моделей;
Уверенные навыки разработки на Python и владение Git;
Готовность работать на всех этапах разработки: от анализа проблемы и проведения экспериментов до оценки решений и их реализации в виде сервисов.
Опыт работы с CI/CD и инфраструктурой: Docker, Gitlab, Kubernetes, Kafka, FastAPI, GRPC;
Глубокое знание Python: multiprocessing, asyncio
Навыки интеграции и деплоя ML-моделей в продуктовые серверные приложения;
Навыки оптимизации инференса ML/DL-моделей: distillation, pruning, ORT, Triton.

Middle/Senior Data Scientist