Чем предстоит заниматься:
- Исследовать наборы данных для поиска нужных фич
- Составлять требования к витринам данных, необходимые для разработки моделей машинного обучения
- Определять ботовость рекламы (когда боты скликивают рекламу и надо понять, засчитывать показ рекламы или нет)
- Осуществлять контекстуальный таргетинг для неавторизованой зоны (соотношение контекста страницы/статьи/рекламного_места с интересами пользователя + реклама) Анализировать текст и изображения для проверки безопасности размещения рекламы продуктов Осуществлять вероятностную идентификацию пользователей
- Анализировать спуфинг трафика идущего с sdk на мобильных устройствах
- multi-touch attribution - фактически определять приоритетности канала рекламы
- ltv-предикты - прогнозировать для рекламных кампаний
- Осуществлять A/B-тестирование.
Требования:
- Глубокое понимание статистических подходов и методов (регрессия, свойства распределений, оценка максимального правдоподобия, проверка гипотез и их правильное использование) и опыт их применения
- Свободное владение основными ML библиотеками на Python (pandas, numpy, sklearn, seaborn, etc.)
- Коммерческий опыт применения классических алгоритмов машинного обучения (LR, RF, XGBoost/LGBM/CatBoost), понимание их преимуществ, недостатков и ограничений
- Высокий уровень владения SQL
- Опыт разработки ML моделей метчинга (one-to-one, many-to-one), рекомендательных систем
- Опыт работы в распределённых/параллельных вычислениях на Spark
- Достойный уровень инженерной культуры (умение писать адекватный код за вменяемое время), версионировать код через Git инструменты, вести работу через Jira и документацию в Confluence.