Экспертная сеть EXPINET

07.02.2023 10:38

Автор:

Администратор

Восхищаетесь ChatGPT? Вы еще ничего не видели!

ChatGPT берет мир штурмом, благодаря своей сверхъестественной способности генерировать полезный текст. Но по мере того, как большие языковые модели (LLM - Large Language Models), лежащие в основе таких сервисов, как ChatGPT, становятся все больше, растут и шансы увидеть еще более замечательные возможности искусственного интеллекта, по мнению исследователей искусственного интеллекта. Гонка «вооружений» вокруг LLM разгоралась задолго до того, как OpenAI выпустила ChatGPT в мир 30 ноября 2022 года. Технологические гиганты, такие как Google, Facebook и Microsoft (которые сотрудничают с OpenAI), годами раздвигают границы глубокого обучения и обработки естественного языка (NLP), втискивая все больше и больше слоев в нейронные сети, обучая их на все больших наборах данных, в результате чего постоянно увеличивается число параметров, которые определяют способность моделей точно обнаруживать паттерны в речи.

В начале 2020 года Microsoft Research отказалась от Turing Natural Language Generation (T-NLG), которая на тот момент была крупнейшей моделью в своем роде (эта LLM работала с 17 миллиардами параметров). Несколько месяцев спустя OpenAI подняла планку еще выше, выпустив GPT-3, который демонстрировал 175 миллиардов параметров. В феврале 2021 года Google доработала свои модели T5, которые она представила в 2019 году с запуском своего Switch Transformer, который «весил» целых 1,6 триллиона параметров. Google запустила свою языковую модель Pathways (PaLM) с 540 миллиардами параметров в апреле 2022 года. Facebook также был игроком в этой игре, и в мае 2022 года он запустил OPT-175B, большую языковую модель на основе transformer с 175 миллиардами параметров, соответствующую GPT-3. Материнская компания Facebook, Meta, сделала OPT-175B доступным для общественности.

Возможно, до дебюта GPT-4 осталось всего несколько недель. В то время как OpenAI не раскрывает деталей этого долгожданного релиза, ходят слухи, что GPT-4 будет содержать 100 триллионов параметров, что сделает его крупнейшим LLM в мире. Хотя в последние годы стало модным преуменьшать важность больших данных, “масштабность” LLMS является точным источником всех новых возможностей и волнения. На самом деле, исследователи с нетерпением ожидают, какие новые возможности они могли бы выжать из LLM, поскольку они увеличивают размер еще больше. Этот феномен был описан в статье, опубликованной в августе 2022 года под названием “Возникающие способности больших языковых моделей”. Исследователи из Google Brain, DeepMind, Стэнфордского университета и Университета Северной Каролины обсудили неожиданные “возникающие” возможности, вытекающие из их сверхразмерных языковых моделей.

Использование большего количества оборудования и данных для решения проблемы было надежным методом получения лучшего ответа на протяжении десятилетий. Это была обычная техника, используемая сообществом высокопроизводительных вычислений (HPC - High Performance Computing) для решения сложных задач в науке и технике, и хакеры из Кремниевой долины пытались воспроизвести ее на стандартных серверах в течение последних двух десятилетий. Но то, что описывают сотрудники Google, DeepMind, Stanford и UNC, - это нечто совершенно иное. “Было показано, что масштабирование языковых моделей предсказуемо повышает производительность и эффективность выборки для широкого спектра последующих задач”, - пишут авторы. “Вместо этого в этой статье обсуждается непредсказуемое явление, которое мы называем возникающими способностями больших языковых моделей”.

Идея возникновения была хорошо задокументирована в научной литературе. Небольшое количество урана мало что дает, заметил Джейкоб Стейнхарт, доцент кафедры статистики Калифорнийского университета в Беркли, в статье “Будущие системы ML будут качественно другими”. Но когда вы упаковываете его достаточно плотно, вы получаете ядерную реакцию. То же самое происходит с другими веществами и явлениями, такими как ДНК, вода, дорожное движение и специализация. Сейчас мы видим неожиданные возможности, появляющиеся у LLMs. Исследователи из Google, DeepMind, Стэнфорда и UNC задокументировали более 20 новых возможностей в ряде протестированных ими LLM, включая GPT-3, LaMDA, PaLM, T5, Chinchilla, Gopher и Anthropic.

Размер LLM не был на 100% предиктором появления новых возможностей в различных контрольных тестах, которые проводили исследователи. Фактически, некоторые возникающие свойства наблюдались в некоторых LLM, которые были меньше других. Но исследователи говорят, что возникающие возможности являются характерной чертой этих больших моделей, а также то, как они обучаются и им предлагается генерировать ответ. Среди новых возможностей, задокументированных исследователями, - цепочки сложение/вычитание; массовое многозадачное понимание языка (MMLU - Massive Multitask Language Understanding); классификация токсичности, правдивость; слово в контексте, следование инструкциям; и другие. Какие новые появляющиеся возможности мы увидим по мере роста LLM? Это трудно сказать, поскольку все явление было непредсказуемым. Но исследователи искусственного интеллекта определенно находятся в поиске.

Одним из исследователей, работающих в этой области, является Джейсон Вэй из Google Brain. В своей недавней презентации в Стэнфорде под названием “Масштабирование открывает новые возможности в языковых моделях” Вэй говорит, что технология LLM, называемая подсказкой цепочки мыслей (COT - Chain-Of-Thought), позволит увеличить кривую производительности. В частности, Вэй говорит, что LLM, разработанные для того, чтобы руководствоваться “метаданными” в процессе рассуждения, могут генерировать лучшие результаты. Сочетание больших LLM и подсказок COT позволит решать более масштабные задачи, такие как математические словесные задачи, символическое мышление и сложные рассуждения на основе здравого смысла. По его словам, это проблемы, с которыми будут бороться традиционно обученные LLM, использующие стандартные методы подсказок. “Способность языковых моделей выполнять многоэтапные рассуждения появляется с увеличением масштаба, открывая новые задачи”, такие как цепочка мыслей и последующая работа, - говорит он в своей презентации. “Есть основания полагать, что языковые модели будут продолжать становиться все больше и лучше. Может появиться еще больше новых способностей”.

Оригинал статьи Алекса Вуди опубликован на сайте Datanami

Комментарии

Написать комментарий

Нет комментариев. Ваш будет первым!