Компания OpenAI представила новую модель генерации изображений Images 2.0, интегрированную в ChatGPT и доступную через API для разработчиков.
Разработка стала первой визуальной моделью компании с поддержкой режима «рассуждения». По данным разработчика, система способна анализировать контекст запроса, находить релевантную информацию и создавать несколько вариантов изображений с последующей проверкой результатов. Это повышает точность и расширяет возможности применения технологии.
Отдельное внимание уделено работе с нелатинскими алфавитами. Модель корректно воспроизводит текст на различных языках, включая японский, корейский, китайский, хинди и бенгали.
Также улучшены детализация и реалистичность изображений. Модель точнее передает художественные стили, включая кинематографические сцены и пиксельную графику, а также добавляет мелкие визуальные несовершенства для повышения достоверности.
В компании отмечают, что система пока испытывает сложности с отдельными задачами, включая генерацию пошаговых инструкций, например, оригами, головоломок и сложных геометрических элементов.
Обновление уже доступно пользователям ChatGPT и Codex, однако функции «рассуждения» открыты только для подписчиков платных тарифов. Модель также интегрирована в API под названием gpt-image-2.
Новости бегут быстрее, чем вы успеваете читать. Следите за ними в нашем Telegram канале
- GPU-серверы для стартапов: как не сжечь бюджет и получить максимум производительности
- Meta создаёт ИИ-двойника Марка Цукерберга для общения с сотрудниками
- Продвижение сайтов в регионах: специфика, эффективные стратегии и подводные камни
- X запускает XChat: релиз нового мессенджера назначен на 17 апреля
- Дуров назвал шифрование WhatsApp крупнейшим мошенничеством