Чем предстоит заниматься
- Validation & Metrics:
- разрабатывать инструменты для валидации и замера качества моделей
- создавать метрики оценки производительности и точности LLM
- автоматизировать процессы тестирования и бенчмаркинга
- Data Engineering:
- строить и оптимизировать пайплайны чистки и синтеза данных
- разрабатывать системы контроля качества данных
- автоматизировать процессы фильтрации и предобработки
- Code & Technical Data:
- генерировать высококачественные кодовые и технические датасеты
- работать с различными форматами программного кода и технической документации
- создавать синтетические данные для обучения моделей на технических задачах
- MLOps:
- развертывать и поддерживать инфраструктуру для хостинга opensource моделей
- интегрировать и использовать opensource модели в продуктовых решениях
- обеспечивать мониторинг и масштабирование ML-сервисов
- Model Training & Experiments:
- обучать LoRA адаптеры для экспериментальных задач
- проводить SFT обучение в рамках исследований данных
- анализировать результаты экспериментов и итерировать подходы.
Требования
- отличное знание Python и опыт работы с ML-библиотеками (LangChain/LangGraph, PyTorch, llm-foundry, verl)
- опыт работы с LLM (как opensource: Llama, Mistral, Qwen, так и проприетарными: GPT, Claude)
- понимание принципов работы с данными для обучения моделей: сбор, очистка, валидация
- навыки построения ML пайплайнов и автоматизации процессов
- понимание процессов, знание подходов к валидации и тестированию моделей машинного обучения
- понимание основ MLOps и работы с контейнеризацией (Docker)
Будет плюсом:
- опыт с фреймворками для работы с агентами и RAG
- знание подходов к fine-tuning (LoRA, QLoRA, SFT)
- опыт работы с системами версионирования данных и экспериментов (DVC, MLflow, W&B)
- понимание принципов работы с кодовыми данными и техническими текстами
- опыт развертывания и мониторинга ML-моделей в production