Чем предстоит заниматься
- сбор, подготовка и проверка корректности датасетов. Построение причинно-следственного графа факторов, влияющих на ключевые бизнес-показатели, и статистическая проверка выявленных связей;
- тестирование качества работы агента на исторических данных, оценка точности прогнозов и объяснений, внедрение метрик качества;
- проектирование и реализация архитектуры агента, который будет обрабатывать запросы пользователей, интегрировать внешние данные и выдавать интерпретируемые ответы;
- настройка RAG для поиска и извлечения релевантной информации для обогащения контекста LLM; подключение данных из причинно-следственного графа к модели для повышения достоверности ответов и снижения "галлюцинаций";
- моделирование эффектов интервенций. Реализация алгоритмов расчета uplift-эффекта с помощью LLM. Сравнительный анализ влияния различных вмешательств на бизнес-показатели;
- тестирование LLM с целью генерации корректных причинно-следственных интерпретаций;
- документирование выполненных решений.
Требования
- оконченное высшее образование по направлению компьютерные науки, прикладная математика, анализ данных;
- умение и желание извлекать, очищать и готовить сырые текстовые данные для моделирования;
- уверенное чтение и понимание статей по теме LLM и документации на английском языке;
- углубленное понимание принципов работы LLM и практический опыт построения систем на базе LLM (в т. ч. агентных) от 1 года;
- навык развертывания локальных LLM моделей, prompt engineering, RAG, few-shot learning;
- уверенные навыки программирования на Python, умение писать чистый и эффективный код;
- умение использовать предобученные модели, адаптировать их под задачи (fine-tuning, LoRA, prompt tuning);
- аналитический склад ума, умение разбираться в сложных новых концепциях; инициативность и способность предлагать улучшения; умение работать в команде R&D и эффективно коммуницировать результаты стейкхолдерам.
Обязательные используемые технологии:
- Python;
- библиотеки для анализа: pandas, numpy, scipy, statsmodels;
- инструменты визуализации: matplotlib, plotly;
- библиотеки для обработки естественного языка: NLTK и spaCy;
- LLM: LangChain, Ollam, LlamaIndex.
- базы данных: PostgresSQL, MongoDB, векторные БД;
- опыт работы в Linux-среде, системами контроля версий (git, GitLab) и контейнирования (Docker);
- опыт разработки API (FastAPI/Flask).
Будет плюсом:
- опыт работы с графовыми структурами, знание графовых БД и библиотек (например, NetworkX или PyGraphviz) для создания и хранения причинно-следственных графов;
- опыт каузального анализа и причинного вывода (например, DoWhy, CausalML);
- опыт uplift-моделирования.