Чем предстоит заниматься:
- Обсуждение постановки и гипотез с заказчиком;
- Анализ данных, их качества для проверки гипотез при поиске новых решений;
- Выбор подходящих архитектур и модельных решений для реализации ИИ агентов на базе LLM;
- Выбор инструментов реализации для оптимизации скорости работы решений с применением LLM;
- Разработка моделей и ИИ-агентов на базе LLM в рамках экспериментов по поиску решений и реализации прототипов для законченных сценариев;
- Анализ эффективности моделей: проведение пилотов, сбор результатов, проведение оценки;
- Мониторинг моделей в эксплуатации, анализ отклонений;
- Обновление существующих продуктов при возникновении новых технологий.
Требования:
- Понимание деталей работы современных LLM и того, как происходит их инференс;
- Знание методов и алгоритмов NLP, практический опыт в NLP с LLM;
- Желание разбираться в новых предметных областях, изучать новые подходы, модели и технологии;
- Разрабатываемые в Центре индустрии здоровья продукты связаны со здоровым образом жизни и медицинской помощью, поэтому знакомство со спецификой отрасли будет значительным преимуществом;
- Опыт работы в роли data scientist от 3 лет в проектах по разработке и/или модификации и внедрению ПО с использованием инструментов и технологий машинного обучения;
- Опыт реализации длительных проектов;
- Знание python и основных библиотек анализа данных (numpy, pandas, scipy, sklearn, xgboost/lightgbm/catboost);
- Знание принципов работы нейронных сетей и опыт использования библиотек для их обучения pytorch/tensorflow/keras;
- Опыт использования sql/pyspark и Postgres/SQLite/MongoDB/SQLAlchemy;
- Знание инструментов инференса моделей Docker, Docker-compose, Flask, Fast API
- Умение переводить бизнес-задачи в термины ML;
- Умение определять ML-цели, декомпозировать задачи и выбирать оптимальный способ решения;
- Опыт организации сбора и разметки датасетов.