Чем предстоит заниматься:
- чистить данные по узким доменам (аниме, игры, сериалы, книги, фильмы) → LLM-парсинг + Code Execution Feedback;
- генерить синтетические данные;
- разбираться с токенизацией;
- кластеризовать данные;
- писать дедупликацию на Rust;
- оптимизировать MapReduce → Spark, тысячи ядер;
- экспериментировать с SFT и RL → DPO, DRPO, увеличиваем качество синтетики.
Требования:
- выпускник ШАД/ ВШЭ Факультета компьютерных наук/ МФТИ Факультета инноваций и высоких технологий
- имеешь коммерческий релевантный опыт в роли NLP Engineer от двух лет.