Чем предстоит заниматься:
- участвовать в разработке и развитии ассистентов на базе LLM GigaChat
- формулировать гипотезы и анализировать возможности улучшения качества работы системы
- имплементировать и обучать передовые NLP-модели для русского языка, включая SOTA подходы
- работать с LLM, занимаясь prompt engineering и автоматизацией оценки качества генерации текста
- проводить анализ данных и погружаться в предметную область для лучшего понимания задач
- составлять технические задания для разметки данных.
Требования:
- опыт решения задач в области NLP: векторизация текста, классификация запросов, разработка RAG систем
- понимание принципов работы основных алгоритмов машинного обучения для задач классификации и кластеризации
- практический опыт работы с фреймворками PyTorch (мы используем его), TensorFlow, Keras
- знание профильных библиотек (pandas, numpy, nltk, transformers, langchain и др.)
- опыт дообучения моделей на базе BERT-like и GPT-like архитектур
- владение системой контроля версий Git.
Будут плюсом:
- знание методов оптимизации нейросетевых моделей.
- опыт реализации поиска в разных модальностях (текст, изображения и др.).