Экспертная сеть EXPINET

05.06.2023 14:39

Автор:

Администратор

Чем ChatGPT и другие большие языковые модели обязаны создателям-людям, которые предоставляют информацию, на которой они тренируются? Что, если создатели перестанут делать свои идеи общедоступными?

Автор: Мэтт Асей, автор InfoWorld

В сфере технологий мы все, в конечном счете, паразиты. Как сказал много лет назад создатель Drupal Дрис Байтерт, мы все больше «берем», чем «создаем». Байтерт имел в виду распространенную практику в сообществах с открытым исходным кодом: «Участники не вносят существенный вклад в проект с открытым исходным кодом, из которого они берут», нанося ущерб проектам, от которых они зависят. Даже самый ярый сторонник открытого исходного кода берет больше, чем вносит сам.

Та же самая паразитическая тенденция проявляется в Google, Facebook и Twitter — каждый из которых зависит от контента других — и, возможно, сегодня это гораздо более верно для генеративного искусственного интеллекта (GenAI). Разработчик Sourcegraph Стив Йегге драматично заявляет: «LLMs — это не просто крупнейшее изменение со времен социальных сетей, мобильных устройств или облачных вычислений, а самое большое событие со времен Всемирной паутины», и он, скорее всего, прав. Но эти большие языковые модели (LLMs) паразитичны по своей природе: они зависят от скрейпинга чужих репозиториев кода (GitHub), технологических ответов (Stack Overflow), литературы и многого другого.

Как и в случае с открытым исходным кодом, создатели контента и агрегаторы начинают закрывать доступ LLMs к своему контенту. Например, в свете снижения посещаемости сайта Stack Overflow присоединился к Reddit, требуя от создателей LLM платить за право использовать их данные для обучения LLM. Это смелый шаг, напоминающий о лицензионных войнах, которые разыгрались в open source и платных приложениях, введенных издателями, чтобы отгородиться от Google и Facebook. Но сработает ли это?

Деятельность сообществ

Я уверен, что история технологических паразитов предшествует open source, но именно тогда началась моя карьера, так что я начну с этого. С самых первых дней Linux или MySQL существовали компании, созданные для получения прибыли от чужого вклада. В Linux, например, Rocky Linux и Alma Linux оба обещают «совместимость по всем ошибкам» с Red Hat Enterprise Linux (RHEL), но при этом ничего не делают для успеха Red Hat. Действительно, естественным результатом успеха этих двух клонов RHEL было бы устранение хостинга, что привело бы к их собственной гибели, вот почему один человек в пространстве Linux назвал их «мешками с грязью» с открытым исходным кодом.

Возможно, слишком красочная фраза, но вы понимаете, к чему они клонят. Это та же критика, которая когда-то обрушилась на AWS (критика «открытой разработки», которая с каждым днем теряет актуальность) и стала причиной ряда изменений в лицензировании с закрытым исходным кодом, искажений бизнес-модели и, казалось бы, бесконечных дискуссий об устойчивости открытого исходного кода.

Открытый исходный код, конечно, никогда не был сильнее. Однако отдельные проекты с открытым исходным кодом имеют разную степень работоспособности. Некоторые проекты (и сопровождающие их лица) выяснили, как управлять «берущими» в своих сообществах; другие этого не сделали. Однако, как тенденция, важность и сила открытого исходного кода продолжает расти.

Осушение колодца

Это подводит нас к LLMs. Крупные предприятия, такие как JP Morgan Chase, тратят миллиарды долларов и нанимают более 1000 специалистов по обработке данных, инженеров по машинному обучению и других, чтобы добиться миллиардного эффекта в области персонализации, аналитики и т.д. Хотя многие предприятия не решаются публично использовать такие вещи, как ChatGPT, реальность такова, что их разработчики уже используют LLMs для повышения производительности.

Цена этих достижений только сейчас становится ясной. То есть затраты для таких компаний, как Stack Overflow, которые исторически были источником повышения производительности.
Например, трафик на Stack Overflow сокращался в среднем на 6% каждый месяц с января 2022 года и резко снизился на 13,9% в марте 2023 года. Вероятно, было бы чрезмерным упрощением обвинять ChatGPT и другие инструменты, управляемые GenAI, в таком снижении, но также было бы наивно думать, что они непричастны к этому.

Просто спросите Питера Никси, основателя Intentional.io, который входит в топ-2% пользователей Stack Overflow. Несмотря на свою известность в Stack Overflow, Никси говорит: «Маловероятно, что я когда-нибудь снова что-нибудь там напишу». Почему? Потому что LLMs, такие как ChatGPT, угрожают истощить запас знаний Stack Overflow.

«Что произойдет, когда мы перестанем делиться своими знаниями друг с другом и вместо этого загрузим их прямо в Машину?», — спрашивает Никси. Под «Машиной» он имеет в виду инструменты GenAI, такие как ChatGPT. Это фантастика — получать ответы от такого инструмента искусственного интеллекта, как, например, GitHub Copilot, который был обучен на репозиториях GitHub, вопросах и ответах Stack Overflow и т.д. Но эти вопросы, заданные в частном порядке, не приводят к общедоступному хранилищу информации, в отличие от Stack Overflow. «Итак, в то время как GPT-4 был обучен всем вопросам, заданным до 2021 года (по Stack Overflow), на чем будет обучаться GPT-6?» — спрашивает он.

Информационные магистрали с односторонним движением

Видите, в чем проблема? Это не тривиально, и это может быть серьезнее, чем то, из-за чего мы торговались в стране с открытым исходным кодом. «Если этот паттерн повторяется где-то еще и направление нашего коллективного знания меняется от внешнего к человеческому, но направленному внутрь машины, тогда мы зависим от него таким образом, который вытесняет все наши предыдущие зависимости от машин», — предполагает Никси. Мягко говоря, это проблема. «Подобно быстрорастущему варианту COVID-19, искусственный интеллект станет доминирующим источником знаний просто в силу роста», — подчеркивает он. «Если мы возьмем пример Stack Overflow, то тот объем человеческих знаний, который раньше принадлежал нам, может быть сведен к простому взвешиванию внутри трансформатора».

На карту поставлено многое, и не только огромное количество денег, которые продолжают поступать в искусственный интеллект. Нам также необходимо оценить относительную ценность информации, генерируемой такими вещами, как ChatGPT. Например, Stack Overflow запретил ответы, полученные с помощью ChatGPT, в декабре 2022 года, потому что они были насыщены текстом и бедны информацией: «Поскольку средний процент получения правильных ответов от ChatGPT слишком низок, публикация ответов, созданных с помощью ChatGPT, наносит существенный вред сайту и пользователям, которые задают вопросы и ищу правильные ответы». Такие вещи, как ChatGPT, предназначены не для получения корректной информации, а для получения просто вероятностной информации, которая соответствует шаблонам в данных. Другими словами, открытый исходный код может быть заполнен «мешками с грязью», и без постоянного потока хороших обучающих данных LLMs будут просто пополняться мусорной информацией, становясь менее полезными.

Я не принижаю перспективы LLMs и GenAI в целом. Как и в случае с открытым исходным кодом, издателями новостей и многим другим, мы можем быть благодарны OpenAI и другим компаниям, которые помогают нам использовать информацию, полученную коллективно, и в то же время поддерживать таких участников, как Reddit (сам по себе агрегатор индивидуальных вкладов), за то, что они ожидают оплаты за роли, которые они играют. С открытым исходным кодом были свои лицензионные войны, и похоже, что мы вот-вот столкнемся с чем-то подобным в мире GenAI, но с более серьезными последствиями.

Ссылка на источник

Комментарии

Написать комментарий

Нет комментариев. Ваш будет первым!