Чем предстоит заниматься:
- Поиск и подготовка высококачественных датасетов из различных источников, включая публичные ресурсы и внутренние задания.
- Проведение аугментации, препроцессинга и очистки данных для повышения точности моделей.
- Использование инструмента Label Studio для качественной разметки данных.
- Организация процесса полуавтоматической разметки для ускорения подготовки наборов данных.
- Участие в обучении и тестировании базовых моделей машинного обучения.
- Подключение готовых решений, таких как модели от Hugging Face Transformers.
- Интеграция разработанных пайплайнов в существующую инфраструктуру компании (Docker, Git, gRPC и другие инструменты).
Требования:
- Владение Python и библиотеками NumPy, OpenCV, Pillow, Matplotlib.
- Базовые знания PyTorch для разработки и тестирования моделей.
- Опыт работы с инструментами управления версиями (Git), контейнеризацией (Docker).
- Уверенное владение методами анализа и предварительной обработки данных, включая работу с изображениями.
- Ответственное отношение к качеству данных и внимание к деталям.
- Инициативность и способность самостоятельно находить пути улучшения процессов.
- Готовность оперативно осваивать новые навыки и эффективно справляться с рутинными задачами.