Чем предстоит заниматься:
- Формирование выгрузок с помощью SQL-запросов, Python и Pyspark (основная часть данных лежит в Hadoop, но иногда приходится «заглядывать» в Postgres или S3);
- Работа с большими табличными и текстовыми данными;
- Построение графиков (lineplot, scatterplot, hist), проведение тестов и подсчет метрик для подтверждения ваших идей;
- Формирование, дизайн и анализ экспериментов, измерение эффекта от внедряемых изменений;
- Проведение R&D для помощи дата саентистам в проверке продуктовых гипотез или улучшении существующих моделей при помощи продвинутых методов анализа (математической статистики, визуализации).
Требования:
- Продвинутый уровень SQL (виды джойнов, подзапросы, аналитические функции, оптимизация запросов, оконные функции) для работы с большими таблицами;
- Умение и готовность разбираться в большом объеме информации, разных атрибутах, таблицах, базах данных и их особенностях, умение достать нужные данные из разных систем под конкретную задачу, разобравшись во всех нюансах;
- Умение пристально глядеть в данные и искать у себя и других ошибки и несостыковки в выводах, логике, цифрах;
- Уверенное знание Python для анализа данных и визуализации (pandas, matplotlib, scipy);
- Уверенное знание теории вероятности и математической статистики, понимание основ статистического тестирования;
- Умение видеть за цифрами причины и не видеть ложные причины там, где их нет, глубоко анализировать и выделять главное, интерпретировать результат и делать полезные для продукта выводы.
Будет плюсом:
- Владение инструментами Hadoop (PySpark, Hive). У Beeline огромный кластер на 30 ПБ и без инструментов BigData в билайне просто не выжить;
- Знание основ классического машинного обучения для табличных данных (понимание базовых алгоритмов кластеризации, деревьев решений, линейной регрессии, умение интерпретировать результаты). Чтобы быть на одной волне с датасаентистами;
- Знание Airflow, MLflow, Gitlab или аналогов.