ИИ-базис и надстройки: чем удивила Google на масштабной конференции I/O

Виктор Сергеев

22.05.2025 18:22

В середине мая корпорация Google традиционно проводит конференцию I/O. Мероприятие 2025 года по большей части посвящено теме искусственного интеллекта (ИИ), а точнее, сервисов на его основе. Тенденция прослеживается не первый год, но в этот раз ИТ-гигант превзошел сам себя и представил огромное количество нововведений и значимых обновлений, которые имеют все шансы трансформировать индустрию потребительского софта.

©AP/TASS

Содержание:

Десять задач для нейросети
Поисковые запросы и точные ответы
Виртуальная студия смонтирует фильм
Онлайн-созвон с автопереводом речи
Очки, чтобы видеть, слышать и показывать
Смартфоны отправляют в архив

Десять задач для нейросети

Если раньше главными продуктами корпорации были поиск Google и мобильная ОС Android, то теперь они отошли на второй план. Во главу угла становится Gemini – представленный несколько лет назад ИИ-ассистент, который теперь встраивают буквально всюду.

Компания обновила нейросети, лежащие в его основе, и добавила новые функции. Ключевое – теперь ассистент более персонализирован: с разрешения пользователя ИИ изучает переписку в Gmail, документы на «Google Диске», историю поисковых запросов и учитывает этот контекст в задачах. Например, может подготовить драфт письма в характерной для пользователя стилистике, рекомендовать рестораны в зависимости от предпочтений и т. д.

За «и т. д.» кроется многое: вскоре будет выпущен «агентный режим» (Agent Mode) для браузера Chrome, поисковика Google и приложения Gemini. Это массовая реализация концепции ИИ-агентов, которые способны выполнять комплексные задачи, в том числе поиск и фильтрацию информации по сложному запросу.

Спроси по-человечески: как нейросети изменят систему поиска информации в интернете

Один из таких агентов – Project Mariner. Согласно анонсу, он сможет функционально работать с вебом и различными площадками и выполнять до 10 задач одновременно. Например, самостоятельно заказать столик в том же ресторане: зайти на сайт, найти форму бронирования, при необходимости – созвониться с менеджером (все еще без участия пользователя), после чего отдать это событие другому агенту для внесения в календарь и приглашения нужных людей.

Агентов можно будет тренировать с помощью функции «Обучение и повторение» (Teach and Repeat). Достаточно показать нейросети, как делать типовую задачу, и затем агент сможет повторять это в схожих случаях. Разработчикам будет доступно подключение через протокол API, чтобы позволить нейросетям Google эффективно и правильно решать задачи в сторонних сервисах.

Обновился и голосовой интерфейс. Ассистент стал живее, научился (пока в ограниченном режиме) распознавать эмоции человека и подстраивать ответ в зависимости от них, отвечать шепотом. Доработан также режим Project Astra, в котором нейросеть анализирует изображение с камеры смартфона и помогает пользователю в реальных сценариях (например поиск в магазине «вот таких винтов для ремонта этого механизма этой модели велосипеда»).

Поисковые запросы и точные ответы

Отдельного внимания удостоился поисковик. Компания рассказала подробнее об AI Mode, который был анонсирован еще в марте. По сути, это долгожданное встраивание генеративных возможностей в самый популярный поисковик планеты. Пользователь сможет задавать сложный запрос, а нейросети подстраивают под него уникальную выдачу. Это не просто список ссылок, а сжатая справка из наиболее релевантных источников, большее или меньшее количество иллюстраций в зависимости от задачи и т. д.

©AP/TASS

Появилась функция Deep Research, которая автоматически разбивает запрос на серию, что позволяет эффективнее собирать нужную информацию, контролировать правдивость и актуальность, выдавать более точный ответ. Поскольку AI Mode суть надстраивание Gemini над поисковиком, все основные его функции доступны и там (например бронирование или покупка товара с помощью Project Mariner).

Виртуальная студия смонтирует фильм

Серьезно обновился ряд инструментов для тех, кто хочет создавать контент с помощью ИИ. Нейросеть Imagen 4 теперь может быстрее генерировать высокодетализированные и более реалистичные картинки. Ее научили лучше работать с текстом: компания обещает, что надписи не только будут правильно написаны, но и станут отвечать смысловым требованиям.

Генератор видеороликов Veo 3 научился создавать звуковое сопровождение для визуального ряда. И не просто фоновые шумы или музыкальное оформление, но осмысленные звуковые эффекты (шум крыльев птицы, звуки ночного леса, гул колес автомобиля) и даже целые диалоги.

Магия реальности: какие новые технологии стали развитием вымышленных концепций

Но самое главное – виртуальная студия Flow. По сути, это единый интерфейс для применения Imagen, Veo и целого ряда дополнительных функций, который позволит создавать ролики и даже фильмы, полностью сгенерированные нейросетями. Сервису можно отдавать не только текстовые промпты (задачи для генерации), но и фотографии, иллюстрации и видеофрагменты (например чтобы поместить существующего персонажа в новую среду).

В виртуальной студии присутствует традиционный для видеоредакторов таймлайн, на котором можно работать с видеорядом: развивать текущую сцену, менять фрагменты, склеивать их между собой, редактировать положение «камеры», глубину резкости и другие особенности. В разделе Flow TV пользователь увидит примеры генераций, подсказки и советы.

Все это не бесплатно

Flow будет доступна только по подписке. Для своих сервисов Google разработала три тарифных плана: бесплатный, Pro ($20 в месяц) и Ultima ($250). Для каждого определены не только доступные функции, но и количество запросов к нейросетям. Поначалу подписками смогут пользоваться только в США, но у компании есть планы по расширению на другие страны. В России сервисы пока будут недоступны. Но к изменениям компания, вероятно, готова: многие интерфейсы, включая Flow, уже имеют русский перевод.

Онлайн-созвон с автопереводом речи

Отдельное внимание корпорация уделила коммуникациям. В сервис онлайн-созвонов Google Meet поэтапно будут встраивать ИИ-переводчик. Во время разговора на разных языках платформа сможет автоматически переводить и мгновенно генерировать речь, заменяя оригинальный звук, причем с сохранением особенностей голоса – уникального звучания, эмоций, интонаций. На старте будут доступны английский и испанский языки.

Анонсирована также платформа Google Beam, которая заменила собой Project Starline. По задумке разработчиков, она должна стать новым стандартом онлайн-коммуникаций. Благодаря нескольким камерам ИИ-алгоритмы смогут генерировать трехмерное изображение собеседника. Своего рода голограмма, пока – на экране, а в перспективе, вероятно, в устройствах расширенной реальности (XR).

Очки, чтобы видеть, слышать и показывать

Вообще, расширенной реальности, а больше всего платформе Android XR, на которой устройства будут работать, уделили особое внимание. Разумеется, тоже в контексте Gemini: «Gemini везде», похоже, теперь новый девиз компании. Google явно идет к тому, чтобы сделать голос главным интерфейсом взаимодействия с устройствами нового поколения, а основным таким девайсом для повседневности считает очки дополненной реальности.

Работу нескольких прототипов показали вживую. Внешне они мало отличались от обычных очков в толстой оправе, но были оснащены камерами (через который Gemini «видит» окружающий мир), микрофонами (для того чтобы «слушать» окружение и голосовые команды) и дисплеями (показывать цифровую картинку поверх реальной).

Какие технологии можно считать перспективными для инвестирования

Надо признать, демо было впечатляющим: связка Android XR с Gemini позволяет в некоторых сценариях общаться с ассистентом почти по-человечески. «Какой кофе я пила пять минут назад? – Такой-то, из этой кофейни. – Построй маршрут до нее и назначь Дитеру встречу там через час», – такой сценарий сотрудники Google продемонстрировали прямо на сцене. А затем пообщались на хинди и фарси с субтитрами на английском (все в режиме реального времени).

Прототипы уже проходят ограниченное тестирование, а до конца года компания обещает дать доступ разработчикам, чтобы они могли начать создавать собственные приложения для этой платформы.

Смартфоны отправляют в архив

Но что насчет обычной операционной системы Android для смартфонов? Чтобы апдейт этого года не потерялся в череде ИИ-анонсов, как случилось год назад, компания решила заранее, за неделю до основного мероприятия, провести отдельный ивент – Android Show: I/O Edition. Фактически это оказался 23-минутный ролик с рассказом о том, что будет представлять собой Android 16.

Анонс поделили на три ключевые части: новый дизайн, встраивание Gemini и доработки для безопасности и защищенности данных пользователей. Про ИИ-ассистента уже сказано выше, добавить здесь нечего: на мобильниках он будет присутствовать в виде предустановленного приложения (как и все остальные сервисы Google) и, по задумке компании, постепенно замещать привычные сценарии взаимодействия.

И вот здесь кроется любопытное «но»: логично было ожидать, что под столь впечатляющее развитие ИИ-возможностей Google придумает соответствующее обновление дизайна (накануне Android Show компания даже логотип обновила, заменив резкие линии мягкими, «ИИшными» градиентами).

У Google был прекрасный шанс переизобрести мобильную ОС с учетом новой реальности, где флагманский продукт – уже не столько смартфон, сколько ИИ, а мобильник – лишь один из девайсов под него. Тем более что компания обещала самый масштабный редизайн операционной системы за много лет. Но реальный апдейт, скорее, разочаровывает, хотя на фоне масштабных ИИ-обновлений эта эмоция легко теряется.

Компания показала Material Design 3 Expressive – обновление подхода, который был впервые представлен 11 лет назад, в июне 2014-го. Здесь тоже сделан акцент на персонализацию, но без малейшего вау-эффекта: владелец Android-смартфона просто получил больше возможностей настроить интерфейс под себя, например привязать цвета меню к оттенкам обоев и изменить дизайн иконок. Все это мы давным-давно видели в разных оболочках поверх ОС от сторонних вендоров.

Приятным нововведением стали доработанные анимации и тактильный отклик при некоторых действиях. Интерфейс действительно кажется более «живым», естественным, но принципиальные «инновации» на этом заканчиваются. От компании, которая внедряет передовой ИИ-опыт и развивает действительно персонализированного ассистента со сложной функциональностью Gemini, как будто ожидаешь большего. Но, очевидно, усиленное развитие Android для смартфонов больше не входит в топ приоритетов Google: приготовьтесь надевать XR-очки.