Закон слабого звена: ученые из Meta предложили новый способ оценки LLM

Бенчмарки в данный момент – это чуть ли не самое больное место индустрии разработки LLM. Модели развиваются семимильными шагами, и многие бенчмарки, которые разрабатывались 3-5 лет назад, уже перестали быть актуальными: большинство крупных исследователей уже не раз упоминали, что они не отражают реальные "человеческие" способности моделей, а лишь проверяют умение решать отдельные задачи.

Однако создать действительно качественные тесты не так уж и просто, и проблема остается актуальной уже довольно давно. Над ней активно работают ученые из Google, Anthropic предлагают финансировать создание новых качественных ИИ-бенчмарков, а ScaleAI даже запустили конкурс, где за каждый хороший вопрос обещают $5000 и соавторство в статье.

Сейчас на счету каждая работа, где предлагается хоть сколько-нибудь новый бенчмарк или идея оценивания LLM. Ресерчеры из Meta тоже не проходят мимо: этим летом они уже выпускали статью, которая частично была посвящена оценке Vision способностей модели, а теперь вот создали целый собственный бенчмарк.

Он называется CrossEval. Название символизирует главную идею исследования: недостаточно оценивать отдельные способности моделей, нужно смотреть на их кросс-навыки. Дело в том, что существующие бенчмарки в основном нацелены на проверку отдельных способностей, таких как умение рассуждать, или писать код, или использовать факты, или работать с длинными контекстом. Тем временем задачи реального мира часто требуют сразу нескольких различных скилов. Например, рассмотрим вопрос "В каком направлении изменялось количество осадков в Токио за последние 10 лет? Объясни поэтапно". Для ответа на него модель должна уметь анализировать данные, рассуждать и быть обученной использовать браузер. В Meta ученые называют это cross capabilities – пересечение множества отдельных способностей в рамках решения одной задачи – и задаются вопросом: насколько результаты моделей на таких мульти-задачах на самом деле отличаются от их результатов на бенчмарках, проверяющих отдельные навыки?

Теоретически, тут возможны несколько сценариев. Например, "Теория синергии" (1983) утверждает, что взаимодействие компонентов системы может производить эффект, превышающий сумму отдельных частей. С другой стороны, "Механизм компенсации" (1917) предполагает, что сильные стороны системы могут компенсировать слабые, а вот "Закон слабого звена" (1840) наоборот говорит о том, что производительность системы ограничена её слабейшим элементом. Скорее всего внимательный читатель, исходя из названия этой статьи, уже знает, что из этого оказывается реальностью.

И да, действительно, отличия результатов моделей на задачах с кросс-навыками достаточно сильно отличаются от результатов на обычных тестах. Из 58 оценок по задачам пересечения способностей 38 оказались ниже всех индивидуальных оценок по каждому из "участвовавших" навыков. При этом 20 оценок оказались расположенными между результатами по двум проверяемым навыкам, но ближе к самой слабой оценке. Таким образом, LLM ярко демонстрируют Закон слабого звена: то есть их производительность на задачах пересечения способностей ограничена самой слабой из способностей.

Кроме того, ученые выяснили, что улучшение наиболее слабых способностей модели приводит к значительному росту производительности на составных задачах, тогда как изменения в сильных способностях оказывают лишь незначительное влияние.

Главный вывод, который делают исследователи в статье, достаточно прост: если мы хотим, чтобы модели хорошо справлялись с реальными задачами, важно учитывать не только их отдельные способности, но и взаимодействие навыков. И для этого нам нужно больше бенчмарков, похожих на CrossEval, или хотя бы учитывающих Закон слабого звена.

Созданный датасет Meta выложили в опенсорс: посмотреть на него можно вот здесь. Кроме того, исследовали выложили весь исходный код и эксперименты. А полный текст самой статьи лежит тут.

Закон слабого звена: ученые из Meta предложили новый способ оценки LLM

Больше интересного - в нашем Telegram