Data Secrets

В товарах: майнинг данных, дедупликация товаров между различными компаниями, нормализация, извлечение характеристик товаров, классификация, модерация, обнаружение аномалий.
В UGC-задачах: извлечение фактов из отзывов компаний (aspect extraction), модерация отзывов, суммаризация (задача multi-document summarization).
В поиске: разработка системы исправления опечаток, транслитерации, улучшение точности и полноты поиска.
В задачах валидации и сборки данных о фирмах: парсинга сотен тысяч страниц с целью поиска и валидации контента на них.

опыт работы над NLP-задачами от двух лет;
хорошее знание Python;
опыт работы с PyTorch и/или TensorFlow + NumPy, sklearn;
опыт работы с инструментами разработки и CI/CD — Git, Jenkins, GitLab, Jira;
опыт работы с брокерами сообщений: rabbitmq, kafka;
знание современных архитектур и моделей — рекуррентные и свёрточные сети, современные языковые модели (BERT, BART, Т5 и т. п.), LLM (+ методов их тюнинга RLHF, Lora);
знание классических методов —классические языковые модели, tf-idf, Skip-gram, CBoW, CRF, FSTs, HMM;
опыт использования библиотек — kenlm, transformers, nltk, pyonmttok, vowpalwabbit, gensim и т.п.

опыт участия в соревнованиях по машинному обучению (Kaggle/Boosters.pro и т.п.).

В товарах: майнинг данных, дедупликация товаров между различными компаниями, нормализация, извлечение характеристик товаров, классификация, модерация, обнаружение аномалий.
В UGC-задачах: извлечение фактов из отзывов компаний (aspect extraction), модерация отзывов, суммаризация (задача multi-document summarization).
В поиске: разработка системы исправления опечаток, транслитерации, улучшение точности и полноты поиска.
В задачах валидации и сборки данных о фирмах: парсинга сотен тысяч страниц с целью поиска и валидации контента на них.

опыт работы над NLP-задачами от двух лет;
хорошее знание Python;
опыт работы с PyTorch и/или TensorFlow + NumPy, sklearn;
опыт работы с инструментами разработки и CI/CD — Git, Jenkins, GitLab, Jira;
опыт работы с брокерами сообщений: rabbitmq, kafka;
знание современных архитектур и моделей — рекуррентные и свёрточные сети, современные языковые модели (BERT, BART, Т5 и т. п.), LLM (+ методов их тюнинга RLHF, Lora);
знание классических методов —классические языковые модели, tf-idf, Skip-gram, CBoW, CRF, FSTs, HMM;
опыт использования библиотек — kenlm, transformers, nltk, pyonmttok, vowpalwabbit, gensim и т.п.

опыт участия в соревнованиях по машинному обучению (Kaggle/Boosters.pro и т.п.).

Data Scientist в команду NLP