17.04.2024 13:30

Новости

Администратор

Автор:

Администратор

Почему малые языковые модели — следующее важное достижение в ИИ

В гонках за ИИ, где технологические гиганты создают все более крупные языковые модели, наметилась новая удивительная тенденция: малое — это новое большое.


Автор: Джеймс Томасон, VentureBeat
 
Поскольку прогресс в области больших языковых моделей (LLMs) демонстрирует некоторые признаки замедления, исследователи и разработчики все чаще обращают свое внимание на малые языковые модели (SLMs). Эти компактные, эффективные и легко адаптируемые модели ИИ бросают вызов представлению о том, что чем больше, тем лучше, и обещают изменить наш подход к разработке ИИ.
 
Начинают ли замедляться LLMs?
 
Недавние сравнения, опубликованные Vellum и HuggingFace, свидетельствуют о том, что разрыв в производительности между LLMs быстро сокращается. Эта тенденция особенно очевидна в таких специфических задачах, как вопросы с несколькими вариантами ответов, логические рассуждения и математические задачи, где разница в производительности между лучшими моделями минимальна. Например, в задачах с несколькими вариантами ответов Claude 3 Opus, GPT-4 и Gemini Ultra набирают более 83% баллов, в то время как в задачах на логическое рассуждение точность Claude 3 Opus, GPT-4 и Gemini 1.5 Pro превышает 92%.
 
Интересно, что даже более компактные модели, такие как Mixtral 8x7B и Llama 2 – 70B, демонстрируют многообещающие результаты в определенных областях, таких как логические рассуждения и вопросы с несколькими вариантами ответов, где они превосходят некоторые из своих более крупных аналогов. Это говорит о том, что размер модели может быть не единственным фактором, определяющим производительность, и что другие аспекты, такие как архитектура, обучающие данные и методы тонкой настройки, могут играть значительную роль.
 
Все последние исследовательские работы, в которых сообщается о новых LLMs, указывают на одно и то же направление: «Если вы просто взглянете эмпирически, то увидите, что примерно дюжина последних версий, которые вышли, в целом соответствуют GPT-4», — говорит Гэри Маркус, бывший глава Uber AI и автор книги «Перезагрузка искусственного интеллекта».
 
«Некоторые из них немного лучше, чем GPT-4, но в них нет качественного улучшения. Я думаю, все скажут, что GPT-4 — квантовый скачок по сравнению с GPT-3.5. Но никаких прорывов не было уже больше года», — добавляет Маркус. 
 
По мере того как разрыв в производительности продолжает сокращаться, и все больше моделей демонстрируют конкурентоспособные результаты, возникает вопрос о том, действительно ли LLMsначинают выходить на плато. Если эта тенденция сохранится, то может иметь значительные последствия для будущей разработки и внедрения языковых моделей, потенциально смещая акцент с простого увеличения размера модели на изучение более эффективных и специализированных архитектур.
 
Недостатки LLMs
 
Большие языковые модели, несмотря на бесспорную эффективность, имеют существенные недостатки. Во-первых, для обучения LLMs необходимо огромное количество данных, требующих миллиардов или даже триллионов параметров. Процесс становится чрезвычайно ресурсоемким, а вычислительные мощности и энергопотребление, необходимые для обучения и запуска LLMs, просто ошеломляют. Это приводит к высоким затратам, что затрудняет участие небольших организаций или частных лиц в разработке основных LLMs. В прошлом году на мероприятии в Массачусетском технологическом институте генеральный директор OpenAI Сэм Альтман заявил, что стоимость обучения GPT-4 составила не менее 100 миллионов долларов. 
 
Сложность инструментов и методов, необходимых для работы с LLMs, также усложняет процесс обучения для разработчиков и еще больше ограничивает доступность. У разработчиков длительный цикл — от обучения до создания и развертывания моделей, что замедляет разработку и эксперименты. Недавняя статья Кембриджского университета показывает, что компании могут потратить 90 дней или больше на развертывание одной модели машинного обучения (ML).  
 
Другая существенная проблема LLMs — склонность к галлюцинациям, т.е. генерированию результатов, которые кажутся правдоподобными, но на самом деле не соответствуют действительности. Это связано с тем, что LLMs обучаются предсказывать следующее наиболее вероятное слово на основе шаблонов в обучающих данных, а не с истинным пониманием информации. В результате они могут уверенно делать ложные заявления, подтасовывать факты или комбинировать несвязанные понятия бессмысленным образом. Выявление и устранение этих галлюцинаций является постоянной задачей при разработке надежных языковых моделей.
 
«Если вы используете большие языковые модели для решения важных задач, вы не захотите оскорбить своего клиента или получить некорректную медицинскую информацию, рискуя при этом. Это все еще проблема», — отмечает Маркус.
 
Масштабность и «черный ящик» LLMs также могут затруднить их интерпретацию и отладку, что крайне важно для укрепления доверия к результатам модели. Искажения в обучающих данных и алгоритмах могут привести к несправедливым, неточным или даже вредным результатам. Как показал опыт Google Gemini, методы, позволяющие сделать LLMs «безопасными» и надежными, могут также снизить их эффективность. Кроме того, централизованный характер LLMs вызывает опасения по поводу концентрации власти и контроля в руках нескольких крупных технологических компаний.
 
Введите малые языковые модели (SLMs)
 
SLMs — более оптимизированные версии LLMs с меньшим количеством параметров и более простым дизайном. Они требуют меньше данных и времени на обучение — минуты или несколько часов, в отличие от дней для LLMs. Это делает их более эффективными и простыми в использовании на местах или на небольших устройствах. 
 
Одно из ключевых преимуществ SLMs — пригодность для конкретных применений. Их легче настроить для конкретных областей или задач, чем большие модели общего назначения. Такая настройка позволяет компаниям создавать SLMs, которые являются высокоэффективными для решения конкретных задач, таких как анализ настроений, распознавание именованных сущностей или ответы на вопросы, относящиеся к предметной области. Специализированный характер SLMs может привести к повышению производительности и результативности в этих целевых приложениях по сравнению с использованием более общей модели.
 
Еще одно преимущество SLMs — потенциал для повышения конфиденциальности и безопасности. Благодаря меньшей базе кода и более простой архитектуре они легче поддаются аудиту и с меньшей вероятностью содержат непреднамеренные уязвимости. Это делает SLMs привлекательными для приложений, работающих с конфиденциальными данными, например, в сфере здравоохранения или финансов, где утечка данных может иметь серьезные последствия. Кроме того, снижение вычислительных требований делает их более доступными для локального использования на устройствах или локальных серверах, а не для облачной инфраструктуры. Такая локальная обработка может еще больше повысить безопасность данных и снизить риск раскрытия во время передачи данных.
 
SLMs также менее подвержены галлюцинациям в пределах своей конкретной области по сравнению с LLMs. Они, как правило, обучаются на более узком и целенаправленном наборе данных, специфичном для их предполагаемой предметной области или приложения, что помогает модели усваивать шаблоны, словарный запас и информацию, наиболее подходящие для ее задачи. Такой подход снижает вероятность получения нерелевантных, неожиданных или противоречивых выходных данных. Благодаря меньшему количеству параметров и более оптимизированной архитектуре SLMs менее подвержены улавливанию и усилению шума или ошибок в обучающих данных. 
 
Клем Деланг, генеральный директор стартапа в области искусственного интеллекта HuggingFace, предположил, что до 99% задач можно решить с помощью SLMs, и предсказал, что 2024 год станет годом малых языковых моделей. Ранее в этом году компания HuggingFace, платформа которой позволяет разработчикам создавать, обучать и внедрять модели машинного обучения, объявила о стратегическом партнерстве с Google. Впоследствии компании интегрировали HuggingFace в Google Vertex AI, что позволило разработчикам быстро внедрять тысячи моделей с помощью Google Vertex Model Garden. 
 
Gemma, с любовью, Google
 
Изначально уступив OpenAI преимущество в LLMs, Google активно использует возможности SLMs. Еще в феврале Google представила Gemma — новую серию небольших языковых моделей, разработанных для повышения эффективности и удобства использования. Как и другие SLMs, модели Gemma могут работать на различных повседневных устройствах, таких как смартфоны, планшеты или ноутбуки, без необходимости в специальном оборудовании или тщательной оптимизации.
 
С момента выхода Gemma на HuggingFace было загружено более 400 000 обученных моделей, и уже появилось несколько интересных проектов. Например, Cerule — мощная графическая и языковая модель, объединяющая Gemma 2B и Google SigLIP, обученная на основе огромного набора данных изображений и текста. Cerule использует высокоэффективные методы отбора данных, что позволяет достичь высокой производительности, не требуя большого объема данных или вычислений. Это означает, что Cerule может хорошо подойти для новых вычислений на периферии. 


 
Другой пример — CodeGemma, специализированная версия Gemma, ориентированная на программирование и математические рассуждения. CodeGemma предлагает три модели, адаптированные для различных видов деятельности, связанных с колированием, что делает передовые инструменты кодирования более доступными и эффективными для разработчиков. 
 
Преобразующий потенциал малых языковых моделей
 
По мере того как сообщество ИИ продолжает изучать потенциал малых языковых моделей, все более очевидными становятся такие преимущества, как ускорение цикла разработки, повышение эффективности и возможность адаптации модели к конкретным потребностям. SLMs способны демократизировать доступ к ИИ и стимулировать инновации в различных отраслях, предоставляя экономически эффективные и целенаправленные решения. Внедрение SLMs на периферии открывает новые возможности для персонализированных и безопасных приложений в режиме реального времени в различных секторах, таких как финансы, развлечения, автомобильные системы, образование, электронная коммерция и здравоохранение.
 
Благодаря локальной обработке данных и снижению зависимости от облачной инфраструктуры, периферийные вычисления с SLMs обеспечивает более быстрое реагирование, повышенную конфиденциальность данных и удобство для пользователей. Такой децентрализованный подход к ИИ может изменить способы взаимодействия предприятий и потребителей с технологиями, создавая более персонализированный и интуитивно понятный опыт в реальном мире. В то время как LLMs сталкиваются с проблемами, связанными с вычислительными ресурсами, и потенциально могут достичь плато производительности, появление SLMs обещает поддерживать впечатляющие темпы развития экосистемы искусственного интеллекта.
 
Ссылка на источник


0


Нет комментариев. Ваш будет первым!
Загрузка...