Чем предстоит заниматься
- Решение сейчас работает только с Whisper (транскрибация на русском оставляет желать лучшего). Нужно адаптировать под модели, заточенные под русский язык
- Внедрить разделение аудиопотока по говорящим и корректировку нераспознанных слов (по необходимости)
- Доработать промпты для выделения ключевых моментов разговора
Требования
- Уверенное знание Python
- Опыт работы с Whisper и аналогами (Vosk, DeepSpeech и др.)
- Понимание принципов NLP и трансформеров — будет плюсом
- Опыт работы с API, Docker и Git
Ожидаемый результат
- Локальная работа на Mac с M1
- Точность транскрибации ≥ 90 %
- Надёжное разделение на спикеров