Чем предстоит заниматься:
- Проектировать и поддерживать инфраструктуру Kubernetes
- Внедрять воспроизводимые сборки и среды разработки на основе Nix для обеспечения согласованных настроек во всей команде
- Разрабатывать и поддерживать инструменты автоматизации с использованием Python для оптимизации наших исследовательских и развертывающих рабочих процессов
- Создавать и улучшать стек наблюдения LLM с использованием таких инструментов, как LangFuse и LiteLLM
- Сотрудничать с исследователями для оптимизации инфраструктуры для крупномасштабного тестирования и оценки моделей ИИ
Требования:
- 4+ года соответствующего опыта DevOps или проектирования инфраструктуры
- Опыт самостоятельного проектирования и внедрения производственной инфраструктуры
- Экспертиза Kubernetes: управление кластером, стратегии развертывания и лучшие практики безопасности
- Воспроизводимая разработка сборки: использование Nix/uv/Docker для отправки пакетов и сред разработки
- Python
- Проектирование и реализация конвейера CI/CD (GitHub Actions, GitLab CI или аналогичные)
- Способность к самостоятельной, высокоорганизованной работе. Вы проявляете инициативу и вносите проактивный вклад; мы не занимаемся микроменеджментом.
Будет плюсом:
- Опыт работы с инструментами наблюдения LLM, такими как LangFuse или LiteLLM, для отслеживания, мониторинга и отладки приложений LLM
- Инструменты управления конфигурацией (Ansible, Terraform или аналогичные)
- Мониторинг и наблюдение инфраструктуры (Prometheus, Grafana и т. д.)
- Управление безопасностью и уязвимостями контейнеров
- Знакомство с распределенным выводом LLM (vLLM)
Подробнее о вакансии здесь