В этом году Google I/O 2024 прошла через день после презентации OpenAI, на которой была показана новая мультимодальная модель GPT-4o.
Оказалось, что Google также разработала мультимодального ассистента Project Astra, способного анализировать видео в реальном времени. На презентации было продемонстрировано, как ассистент встраивается в AR-очки, но больше ничего ни о модели, ни о гаджете компании не раскрыла.
Gemini
В основном новшества коснулись Gemini: на презентации были представлены новые модели Gemini 1.5 Pro, Gemini 1.5 Flash и Gemini Nano. В Gemini 1.5 Pro особенно выделяется длина контекста: 1 млн токенов (а для закрытой группы пользователей 2 млн)! Это самый большой объем входных данных среди всех коммерчески доступных моделей. Модель уже доступна в API и по подписке Gemini Advanced. Кроме того, по словам разработчиков, скоро в нее добавят поддержку видео.
Gemini 1.5 Flash, в отличие от Pro, – более легкая мультимодальная модель, которая способна выдавать ответы с меньшей задержкой. Несмотря на количество параметров, она превосходит по метрикам предыдущую "крупную" версию – Gemini 1.0 Pro. Gemini 1.5 Flash также будет интегрирована в Gmail.
Gemini Nano – самая компактная модель семейства, которая станет локальной нейросетью для Android. Она тоже мультимодальная, то есть будет понимать видео и аудио (например, звонки). Она также будет уметь взаимодействовать с приложениями и файлами.
Что там с поиском?
Так как основной хлеб Google – это все еще поисковик, они не могли обойти его стороной. Компания объявила, что собирается добавлять в поисковой сервис больше искусственного интеллекта. Возможно, это позволит компании конкурировать с OpenAI, которая тоже планирует выпускать серч-тул. В частности, также, как и OpenAI, Google обещает научить Gemini составлять суммаризированный ответ, опираясь на источники. Кроме того, с помощью Gemini можно будет искать информацию внутри видео на YouTube.
Картинки, видео и музыка
Помимо прочего, Google показал две новых модели для генерации фото и видео:
- Veo – аналог SORA. Генерирует видео в разрешении 1080p по тексту, изображению или другому видео. Veo уже доступна некоторым YouTube-блогерам и голливудскими киностудиями.
- Imagen 3 – новая модель для генерации изображений. Лучше реагирует на запросы и обрабатывает текст. Google пообещали в ближайшее время дать доступ к нескольким моделям этого семейства, заточенным под разные задачи – от быстрой генерации драфтов до фотореалистичный изображений.
А еще компания представила music2music модель для музыкантов – Music AI Sandbox.
Новые чипы и другие инструменты для разработчиков
На Google I/O также было представлено новое поколение чипов - TPU v6 Trillium. Они в 4.7 раз быстрее предыдущей версии. В продаже чипы появятся в конце 2024 года. Кроме этого, компания создала Arm CPU для датацентов.
Специально для разработчиков был анонсирован Firebase Genkit - опенсорс фреймворк, с помощью которого можно интегрировать ИИ-модели в JavaScript/TypeScript/Go код приложений.
Это не все хорошие новости для девелоперов: Google опубликовали открытый исходный код PaliGemma (3В), а в течение месяца в опенсорс выложат еще и Gemma 2 (2B, 7B и 27B).
Для обычных пользователей тоже есть, чему порадоваться: скоро всем станет доступен Gems – аналог GPTs от OpenAI. Там пользователи смогут с помощью промптов создавать собственные персонализированные версии Gemini, заточенные под определенные задачи.