Чем предстоит заниматься
- обучение мультимодальной LLM (текст + цифровые данных клиента)
- генерация, очистка и контроль качества синтетических данных с использованием LLM и LLM-as-a-Judge подходов
- применение RL для улучшения reasoning-способностей модели
- тестирование на реальных банковских данных и оценка применимости моделей в проде.
Инфраструктура и данные:
- 500+ GPU A100 (80GB) — выделенный вычислительный кластер.
- Spark / Hadoop — для распределённой обработки Big Data.
- Доступ к полным финансовым и клиентским данным для обучения.
Требования
- опыт от 2–4 лет в ML-инжиниринге
- отличное владение Python и PyTorch
- уверенное понимание алгоритмов, структур данных, методов оптимизации
- опыт работы с вычислительными кластерами GPU
- знания в области линейной алгебры, комбинаторики или оптимизации
- опыт работы с LLM (prompt engineering, fine-tuning).