Чем предстоит заниматься:
- Разрабатывать модели машинного обучения для решения бизнес-задач.
- Проектировать и внедрять ETL-пайплайны на базе Airflow для обработки данных и расчета моделей.
- Выводить модели в production в виде сервисов или витрин данных.
- Работать над рекомендательными системами для персонализации контента в оффлайн и near real-time (NRT) сценариях.
- Решать задачи прогнозирования временных рядов (time series) для оптимизации рекламных кампаний.
- Работать над широким спектром NLP-задач: векторизация текстов, их суммаризация и классификация для определения типа токсичности.
Требованния:
- Ты отлично знаешь Python и его библиотеки для работы с данными (Pandas, Polars, scikit-learn, CatBoost, PyTorch, Transformers, Faiss).
- Ты работал с Docker, умеешь оптимизировать Dockerfile и знаешь основные ресурсы Kubernetes.
- У тебя есть опыт проектирования ML-решений, их развертывания и эксплуатации в production.
- Ты используешь в работе Apache Airflow.
- Ты понимаешь, как работать с DL моделями и LLM на GPU (Triton, vLLM).
- Будет плюсом, если умеешь писать несложные SQL-запросы.