Чем предстоит заниматься:
- Работа с данными, включая автоматическую и ручную разметку и валидацию данных (на первом этапе аннотирование и контроль качества разметки будут одними из важных задач!).
- Создание и совершенствование пайплайнов работы с данными и моделями.
- Участие в исследованиях по совершенствованию продуктов платформы (задачи RAG, NER, intent classification и другие).
- Отслеживание трендов и SOTA в области NLP в науке и бизнесе.
Требования:
- Высшее образование: техническое или математическая лингвистика.
- Понимание постановок основных задач: навыки декомпозирования, способность самостоятельно искать недостающие знания в интернете.
- Владение основами линейной алгебры, теории вероятностей, мат. статистики и лингвистики/компьютерной лингвистики.
- Владение Python.
- Умение работать с данными: поиск, предобработка, разметка, подсчёт статистик, выявление особенностей, поиск аномалий.
- Умение использовать методы ML и не-нейросетевые подходы: регулярные выражения, словари, правила, анализаторы.
- Понимание основных DL-архитектур, умение воспользоваться готовыми решениями по туториалам.
- Понимание технических метрик качества и применимости их в различных задачах.
Будет плюсом:
- Навыки работы с репозиториями (версионирование, код ревью, CI).