Компания OpenAI анонсировала свою новую флагманскую генеративную ИИ-модель — GPT-4o, где "o" означает "omni", что указывает на способность модели работать с текстом, речью и видео. GPT-4o будет постепенно внедряться в продукты компании, ориентированные как на разработчиков, так и на потребителей, в течение следующих нескольких недель.
Прорыв в мультимодальном ИИ
По словам технического директора OpenAI, Миры Муратти, GPT-4o обладает интеллектом уровня GPT-4, но превосходит его возможности в нескольких модальностях и медиа. На презентации в офисах OpenAI в Сан-Франциско Мира Муратти заявила:
"GPT-4o рассуждает через голос, текст и визуальные данные. Это чрезвычайно важно, потому что мы смотрим в будущее взаимодействия между людьми и машинами."
Новые возможности ChatGPT
GPT-4o значительно улучшает функциональность чатбота OpenAI, ChatGPT. Ранее платформа уже предлагала режим голосового ввода, используя модель текст-в-речь для озвучивания ответов чатбота. Однако с GPT-4o пользователи могут взаимодействовать с ChatGPT как с ассистентом. Теперь можно задавать вопросы и прерывать ответы ChatGPT, модель обеспечивает "в режиме реального времени" отклик и может воспринимать нюансы в голосе пользователя, генерируя ответы с различными эмоциональными оттенками, включая пение.
Расширенные визуальные возможности
GPT-4o также улучшает возможности ChatGPT по работе с изображениями. Например, теперь ChatGPT может быстро ответить на вопросы, касающиеся фотографий или скриншотов рабочего стола, от "Что происходит в этом программном коде?" до "Какого бренда рубашка на этом человеке?".
Будущее взаимодействия
Мира Муратти добавила, что эти функции будут продолжать развиваться. Сегодня GPT-4o может перевести меню на другом языке, а в будущем модель сможет, например, "наблюдать" за живыми спортивными играми и объяснять их правила.
"Мы знаем, что эти модели становятся все более сложными, но мы хотим, чтобы взаимодействие с ними стало более естественным и легким, чтобы пользователи могли сосредоточиться на сотрудничестве с ChatGPT, а не на интерфейсе," — сказала Муратти. "На протяжении последних нескольких лет мы сосредоточились на улучшении интеллекта этих моделей... Но сейчас мы делаем огромный шаг вперед в плане удобства использования."
Многоязычные возможности и доступность
GPT-4o также обладает улучшенными возможностями работы примерно на 50 языках. В API OpenAI и сервисе Microsoft Azure OpenAI GPT-4o работает вдвое быстрее, вдвое дешевле и имеет более высокие лимиты, чем GPT-4 Turbo.
В настоящее время голосовые возможности GPT-4o недоступны для всех клиентов API. OpenAI, ссылаясь на риск злоупотреблений, планирует сначала запустить поддержку новых аудио возможностей для "небольшой группы надежных партнеров" в ближайшие недели.
GPT-4o доступен в бесплатном тарифе ChatGPT с сегодняшнего дня, а подписчики премиум-планов ChatGPT Plus и Team получат "в 5 раз более высокие" лимиты сообщений. Улучшенный голосовой опыт ChatGPT, основанный на GPT-4o, будет доступен в альфа-версии для пользователей Plus в следующем месяце, наряду с вариантами, ориентированными на предприятия.
Обновленный интерфейс ChatGPT и новые функции
OpenAI также анонсировала обновление интерфейса ChatGPT в веб-версии с новым, более разговорным домашним экраном и макетом сообщений, а также настольную версию ChatGPT для macOS, которая позволяет пользователям задавать вопросы с помощью сочетания клавиш или обсуждать скриншоты. Пользователи ChatGPT Plus получат доступ к приложению первыми, начиная с сегодняшнего дня, а версия для Windows появится позже в этом году.
Кроме того, библиотека GPT Store, которая включает инструменты для создания и использования сторонних чатботов на основе моделей ИИ OpenAI, теперь доступна пользователям бесплатного тарифа ChatGPT. Бесплатные пользователи также могут воспользоваться функциями ChatGPT, которые ранее были заблокированы за платным доступом, такими как возможность запоминания предпочтений для будущих взаимодействий, загрузка файлов и фотографий, а также поиск ответов на актуальные вопросы в интернете.