Следующая итерация искусственного интеллекта от Илона Маска будет приоритизировать обработку “реальных” изображений. Grok-1.5 вскоре станет доступен для тестировщиков и существующих клиентов продукта.
Видение Grok-1.5 от Илона Маска: Фокус на понимании пространства реального мира
Долгожданное обновление Grok-1.5 чатбота от Илона Маска будет сосредоточено на работе с визуальной информацией: документами, диаграммами, графиками, снимками экрана и фотографиями. Такие амбициозные цели были оглашены в анонсе “Предпросмотр видения Grok-1.5” Илона Маска на X сегодня, 13 апреля 2024 года.
Как было объявлено в документе, новая версия чатбота будет оснащена мощным модулем обработки изображений для понимания событий и процессов реального мира, названным RealWorldQA:
Мы особенно рады возможностям Грок в понимании нашего физического мира
Как сообщал U.Today ранее, ранее Илон Маск заявил, что Grok 1.5 будет хорошо справляться с чтением и резюмированием постов на X и даже помогать пользователям в их создании.
Первая реализация RealWorldQA состоит из более чем 700 изображений, с вопросом и легко проверяемым ответом для каждого изображения. Набор данных полностью открыт для всех желающих под лицензией CC BY-ND 4.0.
Grok-1.5V превзойдет GPT4 и Gemini Pro 1.5: Данные
В основном, новаторский набор данных состоит из анонимизированных изображений, снятых с транспортных средств, а также других изображений реального мира.
В серии прикрепленных образцов Grok-1.5 превращает блок-схему в код Python, создает сказку на ночь на основе рисунка ребенка, создает набор данных CSV из снимка экрана, “расширяет” мем и т. д.
Кроме того, команда xAI поделилась оценкой производительности Grok-1.5 по сравнению с его основными конкурентами, GPT от OpenAI, Gemini Pro 1.5 от Google и Claude 3 от Anthropic.
По данным отчета xAI, Grok-1.5 превзошел всех конкурентов в математических задачах, чтении текста и понимании реального мира.
Источник: u.today