Чем предстоит заниматься
- Развивать и автоматизировать ML-пайплайны обучения и деплоя моделей
- Продумывание архитектуры GPU kubernetes кластеров
- Поддерживать и оптимизировать Nvidia Triton Inference Server для ускорения инференса моделей
- Общаться с DS-ами, понимать их потребности и переводить в технические решения
- Поддерживать машины для обучения моеделей с развернутыми Portainer и JupyterHub
- Масштабировать архитектуру на весь отдел Trust & Safety
Требования
- Знание одного из: ClearML, Kubeflow или аналогичных MLOps платформ
- Опыт работы с Nvidia Triton Inference Server
- Опыт работы с Kubernetes и контейнеризацией ML-сервисов
- Опыт DevOps практик: CI/CD, инфраструктура как код, мониторинг
- Понимание Docker и оркестрации контейнеров
- Проактивность и желание получить результат
- Умение взаимодействовать с DS-командой