Экспертная сеть EXPINET

01.04.2024 15:38

Автор:

Администратор

Илон Маск анонсирует Grok-1.5, производительность которого приближается к уровню GPT-4

Всего через несколько недель после запуска Grok-1 с открытым исходным кодом xAI Илона Маска анонсировала обновленную версию своей собственной большой языковой модели (LLM) — Grok-1.5.

Автор: Шубхам Шарма, VentureBeat

Версия Grok-1.5, которая должна выйти на этой неделе, расширяет возможности рассуждения и решения проблем и приближается по производительности к известным открытым и закрытым LLMs, включая GPT-4 от OpenAI и Claude 3 от Anthropic. Новая технология также способна обрабатывать длинные контексты, но по-прежнему отстает от Gemini 1.5 Pro, который может работать с контекстным окном до 1 миллиона токенов.

Маск отметил, что Grok-1.5 будет работать с чат-ботом xAI ChatGPT на платформе X, а Grok-2, преемник новой модели, все еще находится в стадии обучения. Он отметил, что следующая версия должна будет «превзойти текущий ИИ по всем показателям», но не уточнил, когда она может стать доступной.

Что нового предлагает Grok-1.5?

Компания xAI анонсировала Grok-1 в ноябре прошлого года, заявив, что искусственный интеллект был создан по образцу «Путеводителя автостопом по Галактике» и может ответить практически на все вопросы, чтобы помочь человечеству в его стремлении к пониманию и знаниям — независимо от происхождения или политических взглядов. В таких тестах, как GSM8K, HumanEval и MMLU, которыми поделилась xAI, Grok-1 превзошел Llama-2-70B и GPT-3.5.

Теперь, с выпуском Grok-1.5, компания развивает эту работу, обеспечивая значительные улучшения по сравнению с предыдущей моделью во всех основных тестах, включая те, которые связаны с кодированием и математическими задачами.

«Grok-1.5 набрал 50,6% баллов по тесту MATH и 90% баллов по тесту GSM8K — двум математическим тестам, охватывающим широкий спектр конкурсных задач в начальной и старшей школе. Кроме того, он набрал 74,1% в тесте HumanEval, который оценивает способность к генерации кода и решению задач», — отмечают представители xAI в своем блоге.

В тесте MMLU, который оценивает способности моделей искусственного интеллекта понимать язык в различных задачах, новая модель набрала 81,3%, значительно опередив Grok-1 с результатом 73%.

Помимо этого, в xAI также подтвердили, что Grok-1.5 имеет контекстное окно объемом до 128 000 токенов (токены представляют собой целые части или подразделы слов, изображений, видео, аудио или кода). Это позволяет модели принимать и обрабатывать огромные объемы информации за один раз — в 16 раз больше, чем Grok-1, что делает ее более подходящей для анализа, обобщения и извлечения информации из длинных документов. Она может обрабатывать более длинные и сложные запросы, сохраняя при этом способность следовать инструкциям.

Приближение к OpenAI и Anthropic

Благодаря расширенным возможностям рассуждения и решения проблем, Grok-1.5 не только превосходит своего предшественника в тестовых показателях, но и приближается к популярным моделям с открытым и закрытым исходным кодом, включая Gemini 1.5 Pro, GPT-4 и Claude 3.

Например, в тестах MMLU показатель Grok-1.5 в 81,3% превосходит недавно представленный Mistral Large, но отстает от Gemini 1.5 Pro (83,7%), GPT-4 (86,4%, по состоянию на март 2023 года) и Claude 3 Opus (86,8%). Аналогичный разрыв отмечается в тесте GSM8K, где модель xAI идет сразу за предложениями Google, OpenAI и Anthropic.

Единственный тест, где Grok-1.5 превзошел все модели, кроме Claude 3 Opus — HumanEval. xAI планирует продолжить улучшения и добиться дальнейшего повышения производительности в Grok-2, который, по словам Маска, должен превзойти существующий искусственный интеллект по всем показателям. В настоящее время модель проходит обучение.

Технический консультант Брайан Реммеле отмечает, что, основываясь на его работе с Grok-1, Grok-2 «станет одной из самых мощных платформ искусственного интеллекта на базе LLM, когда будет выпущена. Она превзойдет OpenAI практически по всем показателям»

Доступность Grok-1.5

Что касается Grok-1.5, xAI планирует начать его развертывание на следующей неделе. Компания заявляет, что первоначально модель станет доступна для ранних тестировщиков и тех, кто уже использует чат-бот Grok на платформе X (Twitter) — с доступом в режиме реального времени ко всем публикациям на платформе. Внедрение будет проходить в несколько этапов, по мере того как компания будет совершенствовать модель и вводить несколько новых функций, включая, вероятно, новый режим unhanged fun, постепенно делая ее доступной для более широкого круга пользователей.

Когда Маск сделал Grok доступным на X, это было воспринято как шаг для повышения популярности как Grok, так и X. Он начал с того, что сделал искусственный интеллект доступным в рамках подписки платформы «Премиум+» стоимостью 16 долларов в месяц. Однако всего несколько дней назад миллиардер сообщил, что чат-бот также будет включен для всех премиум-подписчиков, платящих 8 долларов в месяц. Он также подтвердил, что пользователи с определенным уровнем верифицированных подписчиков получат преимущества подписки Премиум и Премиум +, включая Grok, бесплатно.

Ссылка на источник

Комментарии

Написать комментарий

Нет комментариев. Ваш будет первым!