Чем предстоит заниматься
- Вы будете участвовать в каждом из этапов алайнмента: SFT (Supervised fine-tuning), Reward model, RLHF (Reinforcement learning from human feedback).
- Вам предстоит совершенствовать извлечение информации для построения ответов, а также экспериментировать с новыми источниками.
- Вам предстоит экспериментировать с архитектурами и методами уменьшения моделей, чтобы укладываться в ограничения по лэтенси и скорости генерации ответа.
- Вы будете создавать технологичный, удобный и полезный для пользователя продукт.
Требования
- Знаете Python
- Хорошо знаете классические DL и NLP
- Решали NLP-задачи с использованием трансформеров
- Понимаете, как устроены современные LLM, решали с их помощью прикладные задачи или имеете релевантный исследовательский опыт