Требования:
- Понимание жизненного цикла машинного обучения и его компонентов: подготовка данных, обучение моделей, деплоймент, мониторинг.
- Отличное владение Python (и его библиотеками: NumPy, Pandas, PyTorch или TensorFlow).
- Знание bash и linux архитектур.
- Знание SQL и опыт работы с реляционными и нереляционными базами данных.
- Владение системами версионирования данных: Gitlab или аналоги.
- Опыт работы с CI/CD-пайплайнами (GitLab CI/CD или аналоги).
- Знание инструментов контейнеризации (Docker) и оркестрации (Kubernetes).
- Знание фреймворков для управления экспериментами и моделями: ClearML, MLflow или аналогичных.
- Опыт работы с инструментами мониторинга моделей: Prometheus, Zabbix, Grafana, Greylog, Loki, или аналоги.
Будет плюсом:
- Работа с векторными базами данных: FAISS, ChromaDB, Weaviate или аналоги.
- Работа с инструментами полнотекстового поиска: OpenSearch или аналоги.
- Знание технологий обработки данных: Apache Spark, Hadoop.
- Работа с потоковыми данными (Kafka).
- Опыт работы с облачными платформами (Яндекс, AWS, GCP, Azure и др.).
- Понимание основных алгоритмов машинного обучения и их применения.
- Навыки оптимизации гиперпараметров моделей.
- Опыт написания модульных и интеграционных тестов для ML-пайплайнов.
- Умение отлаживать сложные системы в продакшене.
- Владение Java, C++ или Go для разработки высоконагруженных систем.
- Опыт реализации мониторинга дрейфа данных/моделей и метрик производительности моделей.
- Навыки улучшения производительности систем через оптимизацию ресурсов (CPU/GPU).
- Настройка прав доступа: LDAP, FreeIPA, Kerberos или аналоги.