Чем предстоит заниматься:
- Проектировать, разрабатывать и внедрять LLM модели, участвовать в разработке pipeline до промышленной реализации;
- Создавать генеративные модели, чат-боты;
- Проводить исследования, проверять гипотезы проекта с использованием LLM в задачах генерации обучающего контента;
- Работать с текстовыми данными - обращениями клиентов, отзывами, чатами (NLTK, genism, word2vec, Bert, etc);
- Анализировать различные источники данных, генерировать признаки для построения моделей;
- Проверять гипотезы, проводить A/B тестирования, EDA;
- Ресерчить новые подходы и технологии.
Требования:
- Практический опыт полного цикла решения NLP задач: предобработка данных, выбор алгоритмов и тюнинг их параметров, оценка качества моделей, визуализация;
- Дообучение BERT-Like и GPT-Like моделей;
- Опыт работы с LLM, prompt engineering;
- Программирование на Python, R или подобных языках, умеете писать чистый код;
- Знание SQL на уверенном уровне (вложенные запросы, оконные функции);
- Опыт работы с фреймворками PyTorch / TensorFlow;
- Опыт работы с Linux, bash, системами контроля версий
- Знание и понимание метрик, необходимых для оценки качества генеративных моделей;
- Высшее образование в области математического моделирования/ информатики/ машинного обучения;
- Владение фреймворками автоматизации процессов и оркестрации задач (например, AirFlow, Prefect, Luigi и др.);
- Опыт работы с системами поддержки жизненного цикла и версионирования моделей (например, MLFlow, DVC);
- Опыт написания BRD, технической документации.