Экспертная сеть EXPINET

16.09.2024 17:31

Автор:

Администратор

Семейство больших языковых моделей OpenAI o1

По данным OpenAI, o1 справляется со сложными тестовыми заданиями по физике, химии и биологии так же, как и аспиранты, и даже превосходит их в математике и программировании.

Автор: Анирбан Гошал, Computerworld

OpenAI сообщила, что ее проект Strawberry перешел в новое семейство больших языковых моделей (LLMs), которые компания окрестила OpenAI o1.

По словам представителей компании, новое семейство моделей, которое также включает в себя версию o1-mini для повышения экономичности, отличается от последних моделей GPT-4o способностью к логическому мышлению.

«Мы разработали новую серию моделей с искусственным интеллектом, которые тратят больше времени на обдумывание, прежде чем реагировать. Они могут решать более сложные задачи, чем предыдущие модели в области науки, программирования и математики», — написали в своем блоге представители компании, добавив, что в настоящее время модели находятся на стадии предварительного просмотра.

Согласно OpenAI, следующее обновление модели справляется со сложными контрольными заданиями по физике, химии и биологии так же успешно, как и студенты PhD, и даже превосходит их в математике и программировании.

«На отборочном экзамене к Международной математической олимпиаде (IMO) GPT-4o правильно решил только 13% задач, в то время как рассуждающая модель набрала 83% баллов. Их способности к программированию были оценены в конкурсах, и они достигли 89-го процентиля в соревнованиях Codeforces», — говорится в сообщении.

Ожидается, что логические возможности моделей OpenAI o1 помогут решать сложные задачи, в частности, в области науки, программирования и математики, сообщают в OpenAI.

«Например, o1 может быть использован исследователями в области здравоохранения для аннотирования данных секвенирования клеток, физиками для создания сложных математических формул, необходимых для квантовой оптики, а разработчиками во всех областях для создания и выполнения многоэтапных рабочих процессов», — поясняется в сообщении.

Как модели получают возможность рассуждать?

Новое семейство моделей o1 обладает логическими способностями благодаря разработанному компанией крупномасштабному алгоритму обучения с подкреплением, который учит модели продуктивно мыслить, используя механизм Chain of Thought («Цепочки мыслей») в «процессе обучения с высокой эффективностью использования данных».

«Мы обнаружили, что производительность o1 постоянно улучшается с увеличением объема обучения с подкреплением (train-time compute) и с увеличением времени, затрачиваемого на обдумывание (test-time compute»), — говорится в сообщении компании и подчеркивается, что этот подход имеет существенно иные ограничения по сравнению с предварительным обучением LLM.

Эксперты в области искусственного интеллекта и генеративного ИИ утверждают, что любая модель во время обучения пытается перестроить или модифицировать свои параметры в зависимости от полученных обучающих данных, чтобы уменьшить количество ошибок и повысить точность.

Напротив, во время тестирования разработчики и исследователи знакомят модель с новыми данными, чтобы измерить ее производительность и то, как она адаптируется к новым экземплярам данных. Таким образом, в случае с новыми моделями, чем больше времени они тратят на анализ и решение проблемы, тем большему они учатся, что приводит к оттачиванию их мыслительных способностей.

Это обучение активируется алгоритмом Chain of Thought, который работает аналогично тому, как человек может долго думать, прежде чем ответить на сложный вопрос, часто разбивая проблему на более мелкие фрагменты.

Говоря о логических возможностях моделей, старший научный руководитель Nvidia Джим Фан отмечает, что мир наконец-то стал свидетелем популяризации и внедрения в производство парадигмы масштабирования во времени вывода.

«Вам не нужна огромная модель для выполнения логических операций. Множество параметров предназначено для запоминания фактов, чтобы обеспечить хорошие результаты в таких тестах, как trivia QA. Можно выделить рассуждения, основанные на знаниях, т.е. небольшое «логическое ядро», которое знает, как вызывать такие инструменты, как браузеры и верификаторы кода. Время, затрачиваемое на предварительное обучение, может быть сокращено», — поясняет Фан.

Кроме того, он отмечает, что OpenAI, должно быть, уже давно поняла закон масштабирования логического вывода, который научные круги открыли совсем недавно. Тем не менее, он отмечает, что внедрить o1 в производство намного сложнее, чем придерживаться академических критериев, и поднимает несколько вопросов.

«Как в рамках модели решить, когда прекратить поиск? Какова функция вознаграждения? Критерии успеха? Когда следует вызывать такие инструменты, как интерпретатор кода в цикле? Как учесть вычислительную стоимость этих процессов?»

OpenAI также в одном из постов в блоге сообщила, что новая модель, которая все еще находится на ранней стадии разработки и, как ожидается, претерпит значительные изменения, пока не обладает многими функциями, которые делают ChatGPT полезным, такими как просмотр веб-страниц в поисках информации и загрузка файлов и изображений.

«В ближайшем будущем GPT-4o будет более эффективен для многих распространенных случаев», — отмечают в компании.

OpenAI скрывает логические токены

Хотя новое семейство моделей имеет более совершенные рассуждения, OpenAI скрывает логические маркеры или алгоритм цепочки мышления для моделей.

Компания признает, что раскрытие алгоритма «Цепочки мыслей» может позволить предприятиям понять, как функционируют модели и не проявляют ли они признаков манипулирования пользователями, но считает, что открывать несогласованную цепочку рассуждений модели или логические маркеры непосредственно для пользователей, не будет полезным.

Вмешательство в любую несогласованную цепочку рассуждений или логических токенов противоречит принципам функционирования модели, поясняют в компании, добавляя, что для точного понимания того, как модель рассуждает, у нее должна быть свобода выражать свои мысли в неизмененной форме.

Вот почему OpenAI не может внедрить в цепочку анализа соблюдение каких-либо политик или пользовательских предпочтений.

«Мы признаем, что у этого решения есть недостатки. Мы стремимся частично компенсировать это, обучая модель воспроизводить любые полезные идеи из Chain of Thoughts в ответе», — добавляют в компании.

Британский программист Саймон Уилсон, соучредитель каталога социальных конференций Lanyrd и соавтор веб-фреймворка Django, в своем блоге пишет, что он недоволен политическим решением OpenAI. «Идея о том, что я могу запустить сложную подсказку и при этом не увидеть ключевых деталей того, как ответ был получен, кажется большим шагом назад», — отмечает он.

Другие ограничения модели o1

Еще одна проблема, связанная с токенами рассуждений, на которую указывает Уилсон, заключается в том, что, хотя они не отображаются в ответе API, они по-прежнему учитываются как выходные токены.

С технической точки зрения это означает, что предприятиям придется увеличить свои бюджеты на оперативные запросы из-за маркеров рассуждений.

«Благодаря важности токенов рассуждений — OpenAI предлагает выделить около 25 000 из них на подсказки, которые будут полезны для новых моделей, — количество выходных токенов было значительно увеличено — до 32 768 для o1-preview и 65 536 для предположительно меньшего o1-mini», — пишет Уилсон.

По сравнению с моделями gpt-4o и gpt-4o-mini, которые в настоящее время имеют лимит в 16 384 выходных токена, эти значения увеличиваются, добавляет программист.

OpenAI также рекомендует предприятиям по-другому использовать генерацию с расширенным поиском (RAG) для новых моделей.

В отличие от использования RAG в настоящее время, когда рекомендуется впихнуть как можно больше соответствующих документов, OpenAI предполагает, что в случае с новыми моделями пользователи должны включать только самую актуальную информацию, чтобы модель не усложняла свои ответы, поясняет Уилсон.

Как получить доступ к новому семейству моделей o1?

Пользователи ChatGPT Plus и Team смогут получить доступ к моделям o1 в ChatGPT с конца сентября.

Как o1-preview, так и o1-mini можно выбрать вручную в окне выбора модели, и при запуске еженедельные лимиты будут составлять 30 сообщений для o1-preview и 50 для o1-mini, сообщают в компании, добавляя, что они работают над увеличением этих тарифов и позволяют ChatGPT автоматически выбирать подходящую модель для конкретного запроса.

Кроме того, пользователи ChatGPT Enterprise и Edu получат доступ к обеим моделям. В Open AI говорят, что разработчики, имеющие право на использование API 5-го уровня, могут начать создавать прототипы с обеими моделями в API с ограничением в 20 запросов.

«Мы работаем над тем, чтобы увеличить эти ограничения после дополнительного тестирования. API для этих моделей в настоящее время не включает в себя вызов функций, потоковую передачу, поддержку системных сообщений и другие возможности», — заявляют в компании, добавляя, что планируют предоставить доступ к o1-mini всем пользователям ChatGPT Free.

Ссылка на источник

Комментарии

Написать комментарий

Нет комментариев. Ваш будет первым!