Google I/O 2024: аналог SORA, новые чипы, обновленная Gemini и многое другое

В этом году Google I/O 2024 прошла через день после презентации OpenAI, на которой была показана новая мультимодальная модель GPT-4o.

Оказалось, что Google также разработала мультимодального ассистента Project Astra, способного анализировать видео в реальном времени. На презентации было продемонстрировано, как ассистент встраивается в AR-очки, но больше ничего ни о модели, ни о гаджете компании не раскрыла.

Gemini

В основном новшества коснулись Gemini: на презентации были представлены новые модели Gemini 1.5 Pro, Gemini 1.5 Flash и Gemini Nano. В Gemini 1.5 Pro особенно выделяется длина контекста: 1 млн токенов (а для закрытой группы пользователей 2 млн)! Это самый большой объем входных данных среди всех коммерчески доступных моделей. Модель уже доступна в API и по подписке Gemini Advanced. Кроме того, по словам разработчиков, скоро в нее добавят поддержку видео.

Gemini 1.5 Flash, в отличие от Pro, – более легкая мультимодальная модель, которая способна выдавать ответы с меньшей задержкой. Несмотря на количество параметров, она превосходит по метрикам предыдущую "крупную" версию – Gemini 1.0 Pro. Gemini 1.5 Flash также будет интегрирована в Gmail.

Gemini Nano – самая компактная модель семейства, которая станет локальной нейросетью для Android. Она тоже мультимодальная, то есть будет понимать видео и аудио (например, звонки). Она также будет уметь взаимодействовать с приложениями и файлами.

Что там с поиском?

Так как основной хлеб Google – это все еще поисковик, они не могли обойти его стороной. Компания объявила, что собирается добавлять в поисковой сервис больше искусственного интеллекта. Возможно, это позволит компании конкурировать с OpenAI, которая тоже планирует выпускать серч-тул. В частности, также, как и OpenAI, Google обещает научить Gemini составлять суммаризированный ответ, опираясь на источники. Кроме того, с помощью Gemini можно будет искать информацию внутри видео на YouTube.

Картинки, видео и музыка

Помимо прочего, Google показал две новых модели для генерации фото и видео:

Veo – аналог SORA. Генерирует видео в разрешении 1080p по тексту, изображению или другому видео. Veo уже доступна некоторым YouTube-блогерам и голливудскими киностудиями.
Imagen 3 – новая модель для генерации изображений. Лучше реагирует на запросы и обрабатывает текст. Google пообещали в ближайшее время дать доступ к нескольким моделям этого семейства, заточенным под разные задачи – от быстрой генерации драфтов до фотореалистичный изображений.

А еще компания представила music2music модель для музыкантов – Music AI Sandbox.

Новые чипы и другие инструменты для разработчиков

На Google I/O также было представлено новое поколение чипов - TPU v6 Trillium. Они в 4.7 раз быстрее предыдущей версии. В продаже чипы появятся в конце 2024 года. Кроме этого, компания создала Arm CPU для датацентов.

Специально для разработчиков был анонсирован Firebase Genkit - опенсорс фреймворк, с помощью которого можно интегрировать ИИ-модели в JavaScript/TypeScript/Go код приложений.

Это не все хорошие новости для девелоперов: Google опубликовали открытый исходный код PaliGemma (3В), а в течение месяца в опенсорс выложат еще и Gemma 2 (2B, 7B и 27B).