Мультимодальный AI GPT-4o

Дата публикации:

OpenAI презентовал новую мультимодальную языковую модель GPT-4o. Она работает с текстом, звуком и визуальным контентом в реальном времени, принимает в качестве входных данных и генерирует обратно любую их комбинацию.

↑ На видео игра в камень-ножницы-бумагу, другие примеры показывают в пресс-релизе

GPT-4o — наша первая модель, сочетающая в себе все эти параметры. Мы только начинаем изучать ее возможности и ограничения

GPT-4o распознает эмоции и может отвечать с любой интонацией, переводит онлайн, говорит не роботизированным человеческим голосом.

Сначала будет десктопное приложение для macOS, позже в 2024 году — для Windows. Доступ бесплатный, у платных пользователей — увеличенные лимиты.

Следите за нашими новостями в Телеграм и Яндекс.Дзен

Релиз GPT-4 от OpenAI

Дата публикации:

Появился официальный релиз GPT-4 от OpenAI после недавнего заявления Microsoft. Там внутри много примеров и графиков.

«В непринужденной беседе разница между GPT-3.5 и GPT-4 может быть едва заметной. Она проявляется, когда сложность задачи достигает достаточного порога — GPT-4 более надежен, креативен и способен обрабатывать гораздо более тонкие инструкции…

…Он проходит смоделированный экзамен на адвоката с оценкой, попадающей в 10% лучших участников теста. Напротив, оценка GPT-3.5 попадала в 10% худших.

…Несмотря на свои возможности, GPT-4 имеет те же ограничения, что и более ранние модели GPT… Он все еще не является полностью достоверным («галлюцинирует» факты и допускает ошибки в рассуждениях)… Однако оценивается на 40% выше, чем GPT-3.5 по нашим внутренним тестам достоверности».

На вход алгоритм может принимать не только текст, но и изображения, однако эта возможность пока недоступна для тестирования.

14 марта в 23:00 по Москве состоялась трансляция для разработчиков.

Следите за нашими новостями в Телеграм и Яндекс.Дзен

GPT-4 is сoming

Дата публикации:

Немецкий офис Microsoft анонсировал, что новую модель покажут уже на этой неделе.

Из известного: GPT-4 становится мультиязычным, а также мультимодальным, то есть сможет обрабатывать несколько форматов данных сразу. Это позволит, например, принимать текстовый запрос пользователя и выдавать результат в виде изображения, аудио или даже генерировать видео.

Ходили слухи, что количество обрабатываемых параметров будет увеличено со 175 миллионов до 100 триллионов, но генеральный директор OpenAl еще в январе прокомментировал, что это «complete bullshit» и не соответствует действительности. Также он на тот момент воздержался от прогнозов по срокам, сказав, что технология будет выпущена «когда мы сможем сделать это безопасно и ответственно».

Microsoft в анонсе отметил, что работает над «показателями достоверности», так как искусственный интеллект не всегда будет отвечать правильно, поэтому необходимо проводить валидацию.

Следите за нашими новостями в Телеграм и Яндекс.Дзен