- Основные нейросети унифицировали
- Новые ИИ-модели открыли для свободного доступа
- Учиться можно будет в нейросетях
- Виртуальные миры станут создавать под запрос
Основные нейросети унифицировали
Самый заметный и громкий релиз – новое поколение генеративных нейросетей от OpenAI под названием GPT-5. Первое, что бросается в глаза, – компания наконец избавилась от «зоопарка» наименований (4; 4.1; 4.5; 4o; o3-pro; o4-mini…). Теперь есть обычный GPT-5, продвинутый GPT-5 Pro, а также доступные для разработчиков по протоколу API версии mini и nano (менее «умные», но зато более дешевые).
Конечно, большое количество различных моделей, представленных ранее на выбор, было не просто так (их по-прежнему можно использовать через настройки) – каждая лучше подходила для определенного типа задач. И с этим связано одно из главных нововведений пятого поколения нейросетей. OpenAI встроила новый маршрутизатор, который с высокой точностью анализирует пользовательский запрос, определяет, как лучше всего решать задачу, и самостоятельно выбирает нужные инструменты.
Как следствие, сервис стал работать быстрее и точнее: компания заявляет о приросте точности ответов на 45% по сравнению с GPT-4o, а количество фактических ошибок в режиме «мышления» сократилось на 80% по сравнению с o3. Также нейросеть чаще признает свои ошибки, вместо того чтобы выдавать ответы-галлюцинации (2,1% против 4,8% у версии o3).
Эффективнее всего новое поколение, как заявляют разработчики, работает с кодом и с точными науками. В качестве доказательства OpenAI показала автоматическую разработку образовательного веб-сайта с игровыми элементами всего по одному запросу. Независимые от компании эксперты индустрии, успевшие попробовать новинку, подтверждают: работа нейросети с кодом беспрецедентно хороша.
Другие сценарии применения, в которых разработчики уверены: агентные функции (выполнение сложных задач с использованием различных инструментов), финансы, здравоохранение. Проработана система контроля: теперь нейросеть не игнорирует опасные запросы (связанные, например, с изготовлением фейерверков), а дает максимально полезный, но безопасный ответ (рекомендует профильных экспертов или что-то подобное) и объясняет причину ограничений.
GPT-5 доступна всем пользователям сервиса ChatGPT (в бесплатной версии – с ограничениями, после достижения лимита запросов переключается на более простые модели). Pro-версией могут воспользоваться подписчики соответствующего тарифного плана за $200 в месяц. Для разработчиков в доступе платный интерфейс API, позволяющий подключить нейросеть к своим сервисам. В России ChatGPT и GPT-5 недоступны, но при необходимости есть обходные пути.
(Иллюстрация)
Global Look Press/Keystone Press AgencyНовые ИИ-модели открыли для свободного доступа
Заметно больше разработчиков может заинтересовать другой релиз недели: впервые за шесть лет (начиная с поколения GPT-2) OpenAI выложила в Сеть открытые модели gpt-oss (не следует путать с GPT-5 – это разные решения). Их можно установить локально на устройства и использовать по своему усмотрению.
Всего выпущено две версии: полновесная 120b на 117 млрд параметров (прежде всего для дата-центров и мощных рабочих станций) и легкая 20b на 21 млрд параметров – для локальных устройств (можно установить на производительный ноутбук или на продвинутый смартфон).
Появление таких инструментов в свободном доступе особенно важно для бизнеса – от небольших стартапов до крупных корпораций. На сегодня у них уже достаточно большой выбор открытых больших моделей: DeepSeek, Llama (разработка компании Meta*, признанной экстремистской и запрещенной в РФ), Qwen и другие. Однако GPT – флагманское решение рынка, которое, скорее всего, будет более эффективным и мощным и как минимум подстегнет конкуренцию.
Обманываться рад: почему люди склонны слишком доверять искусственному интеллекту
Отчасти прирост производительности достигается за счет концепции MoE (Mixture-of-Experts, «Смесь экспертов»), в которой задействуются не все 117 млрд параметров сразу, а только часть, лучше всего оптимизированная под каждый конкретный запрос. Также gpt-oss поддерживает агентный режим: позволяет подключать внешние инструменты, такие как веб-поиск, вызовы по API, написание кода. Для «прозрачности» разработчики включили возможность вывода цепочки рассуждений нейросети (Chain of Thoughts, CoT): на каждом этапе можно видеть, как она «думает».
Лицензия Apache 2.0, которой сопровождается gpt-oss, обязует разработчиков лишь упоминать применение решения в документации. В остальном руки развязаны: можно строить на базе нейросетей собственные коммерческие решения, дообучать и настраивать их под конкретные задачи, распространять и создавать продукты на собственных лицензиях, в том числе коммерческих (сублицензировать).
Это значит, что в скором времени на рынке появится еще больше сервисов и решений на базе генеративного ИИ, и, вероятно, они станут функциональнее. Также на горизонте нескольких месяцев можно ожидать улучшения российских нейросетей от «Яндекса» и «Сбера», которые также активно используют открытые наработки ведущих зарубежных разработчиков.
Учиться можно будет в нейросетях
Еще одна новинка от той же компании – режим обучения (Study Mode) в сервисе ChatGPT, который появился чуть раньше, в июле. Это привычный уже формат чата, но, вместо того чтобы давать готовые ответы на вопросы, нейросеть помогает пользователю самостоятельно разобраться в теме.
В этом режиме нейросеть сначала уточняет степень подготовленности пользователя. Затем структурирует материалы по теме в соответствии с уровнем знаний человека, после начинает выдавать информацию поэтапно – по тематическим блокам, в диалоговом режиме.
На каждом шаге человек получает наводящие вопросы (в формате «подумай», «предположи» и так далее). Таким образом нейросеть понимает, насколько хорошо материал усвоен (по необходимости – корректирует свои объяснения), а также помогает самостоятельно доразобраться в теме и закрепить материал. Если у пользователя возникают вопросы – с готовностью на них отвечает.
Чтобы мотивировать и не оттолкнуть от процесса обучения, нейросеть специальным образом настроена (такие настройки называются системным промптом или системными инструкциями) с привлечением профессиональных педагогов. ИИ по «характеру» приветливый и при этом «живой»; он помогает сцепить существующие знания пользователя с новыми; направляет внимание с помощью наводящих вопросов и примеров. Также сервису запрещено давать ответы на «домашние задания» – нужно, чтобы человек отвечал самостоятельно.
Спустя неделю с небольшим после OpenAI аналогичный режим Guided Learning («Направляемое обучение») для своего ИИ-сервиса Gemini представила компания Google. Он построен по тому же принципу (персонализация, пошаговая декомпозиция темы, интерактивы), но на текущем этапе имеет больше мультимодальных функций.
Это значит, что нейросеть не только отвечает текстом, но также представляет диаграммы, схемы и другие материалы там, где это уместно. Кроме того, она способна создавать учебные материалы, которые пользователь может скачать и изучать позднее офлайн.
Стоит добавить, что Google прорабатывает тему уже не первый год. В мае 2024-го корпорация представила семейство ИИ-моделей LearnLM, специально настроенных под образовательные задачи (с прицелом прежде всего на студентов). Они были дообучены на педагогических методиках, настроены на адаптивность, персонализацию и мультимодальность. Но компании в голову не пришло встроить этот режим в основного ассистента Gemini, пока такой шаг не сделала OpenAI.
Виртуальные миры станут создавать под запрос
Наконец, еще один громкий анонс касается не текстовых, а визуальных моделей. Google DeepMind в начале августа представил Genie 3 – новое поколение генеративного ИИ, способного создавать интерактивные цифровые 3D-миры по описанию.
Ключевое слово здесь «интерактивные»: это не просто видеоролики (такой инструмент Google тоже недавно представляла – Veo 3), а настоящие виртуальные пространства, по которым можно перемещаться наподобие компьютерной игры. На протяжении минуты нейросеть может «помнить» расположение объектов, даже если пользователь от них отворачивается, – это одно из главных достижений текущего поколения Genie. Также модель поддерживает функцию настраиваемых событий: прямо в процессе симуляции можно ввести текстовую команду, и нейросеть попробует подстроить созданный ею мир под новые вводные.
ИИ-базис и надстройки: чем удивила Google на масштабной конференции I/O
В качестве основного сценария предполагается обучение автономных ИИ-агентов для реального мира. Google уже протестировала одного из них в различных средах и сумела доказать, что он действительно может эффективно тренировать взаимодействие с различными объектами. Таким образом, решение может стать ключевым для разработки роботов, автономных машин и других инновационных девайсов для промышленных предприятий, улиц и любых других мест, где им в том числе придется взаимодействовать с людьми.
Сейчас самое популярное в мире решение этой задачи – виртуальная лаборатория Nvidia Isaac, но Genie 3 предлагает принципиально новый подход: автоматическую генерацию в противовес ручному моделированию.
Конечно, напрашивается множество сценариев и для людей. Прежде всего развлекательных: намного больше разработчиков и простых пользователей смогут создавать миры для игр, виртуальных событий вроде концертов, VR-пространства и так далее. Такие пространства могут использоваться в медицине – для реабилитации после тяжелых травм, в образовании – для отработки навыков (в том числе в экстремальных условиях) – и прочем. Но пока генеративная модель практически полностью закрыта: доступ есть только у ограниченной группы ученых и разработчиков.
Впрочем, не стоит и радоваться раньше времени: у технологии по-прежнему много ограничений. Цифровой мир представлен в невысоком качестве (разрешение 720p, 24 кадра в секунду), он может стабильно существовать всего несколько минут, количество возможных действий для ИИ-агентов лимитировано, у нейросети есть проблемы с точной симуляцией текста и реальных географических объектов. Да и для запуска Genie 3 нужно довольно мощное «железо», которое сегодня стоит достаточно дорого.
Тем не менее разработчики видят в новой модели не только полезный инструмент, но и важный шаг в направлении AGI – «сильного ИИ». Это интеллект, который за счет обучения в столь богатой и при этом приближенной к реальной среде сможет быстрее достичь уровня если не человека, то близкого к этому. Однако сроки и сама возможность достижения этой отметки по-прежнему остаются дискуссионными.
* Meta признана экстремистской и запрещена в РФ