Экспертная сеть EXPINET

16.04.2024 00:09

Автор:

Администратор

Приближается ли генеративный ИИ к своему краху?

Когда британский математик Клайв Хамби объявил в 2006 году, что данные – это новая нефть, он не мог себе помыслить, что в будущем вычислительные мощности будут жрать килобайты данных абсолютно без отрыжки. Или что крупные технологические гиганты будут срезать углы и нарушать правила, чтобы собрать еще больше данных и усовершенствовать свой искусственный интеллект (ИИ). А это именно то, что происходит в мире моделирования искусственного интеллекта сегодня. Компании, возглавляемые альянсом OpenAI и Microsoft, вытесняют других, таких как Google и Meta, и к этой битве за цифровые данные вскоре может присоединиться Apple. Причина очевидна: “Если ИИ имеет доступ только к дрянной информации, результат, скорее всего, будет дерьмовым”.

Можно сказать, что крупные языковые модели (LLM), которые составляют основу решений на основе искусственного интеллекта, сталкиваются с крахом, когда у компаний заканчиваются новые качественные данные. Ведь данные являются необходимым условием для изучения и совершенствования моделей. Именно так писала "Нью-Йорк таймс" о том, как технологические гиганты срезают углы, собирая данные для своего искусственного интеллекта.

Срезай углы закона и этики

Вот что говорится в отчете, который также включает в себя тайное исследование: “Борьба за лидерство в области искусственного интеллекта превратилась в отчаянную охоту за цифровыми данными, необходимыми для развития технологии. Чтобы получить эти данные, технологические компании, включая OpenAI, Google и Meta, обходили все углы, игнорировали корпоративную политику и пытались обойти закон. ”Все началось с того, что в 2021 году OpenAI столкнулась с нехваткой цифровых данных и потребовала гораздо большего их количества для разработки следующей версии своей технологии. Так, например, команды создали инструмент распознавания речи Whisper, преобразующий аудио с YouTube в текст, который затем можно было использовать для обучения модели.

А как насчет правил? И этики? Что ж, OpenAI и его партнер Microsoft, возможно, выбросили эти соображения в окно (без каламбура – имеется в виду, что окна это windows), поскольку, как сообщается, компания расшифровала миллион часов видео и загрузила текст в GPT-4, который на данный момент считается самой мощной моделью искусственного интеллекта и поддерживает новейшего чат-бота OpenAI.

OpenAI не единственный, Google тоже это делает

OpenAI не одинок в этом обмане. NYT сообщает, что в 2023 году Meta обсуждала со своими юристами и инженерами вопрос о приобретении издательства для своего контента и, возможно, о сборе данных об авторских правах из Интернета, даже с риском судебных исков. Почему так? Потому что они чувствовали, что переговоры о лицензиях с создателями займут слишком много времени! Что касается Google, то поисковый гигант уже собирал текст из видеороликов YouTube для своих собственных моделей искусственного интеллекта в рамках обновленного Gemini. Известно, что это потенциально нарушает авторские права создателей видео, но Google расширил свои условия предоставления услуг, разрешив добавлять общедоступные документы Google, обзоры ресторанов на картах Google и другие цифровые форматы данных.

В отчете говорится, что сотрудники OpenAI знали о юридических спорах, связанных со скрапингом, но продолжали настаивать на том, что контент, используемый для обучения ИИ, используется добросовестно. На самом деле, президент Сэм Брокман был указан как создатель Whisper, что означает, что он тоже был в курсе. То же самое произошло и с некоторыми сотрудниками Google, которые знали об этой деятельности, но хранили молчание, потому что они тоже нарушали закон об авторских правах ранее.

Что будет дальше с цирком искусственного интеллекта?

На данный момент, похоже, все еще не решено, хотя создатели контента могут рано или поздно взяться за оружие. И, по иронии судьбы, будущее может снова зависеть от New York Times. Их судебный процесс против OpenAI и Microsoft может оказаться решающим в вопросе о том, будет ли ИИ процветать на основе цифровых данных или умрет от голода. В этом отношении можно предположить только три исхода. Первое было бы полной победой NYT, если бы Microsoft и OpenAI были уличены в незаконном сборе данных, и в этом случае это могло бы стать препятствием для ChatGPT и даже Copilot, который теперь является частью всего офисного пакета.

Во-вторых, суд может постановить, что использование данных, защищенных авторским правом, является справедливым для обучения ИИ, и это позволит OpenAI активно работать. Правда, только в Соединенных Штатах. Проблема здесь заключается в том, что, поскольку за пределами США (не в Индии) действуют более строгие требования к авторскому праву, Microsoft и OpenAI, возможно, придется столкнуться с судебными исками или предложить разные решения в разных географических регионах.

И третий, наиболее вероятный вариант может заключаться в том, что Microsoft и другие главные действующие лица в текущей битве за искусственный интеллект могут решить ослабить свои довольно толстые кошельки, чтобы получить такие цифровые данные, которые могли бы улучшить их соответствующие модели искусственного интеллекта. Другими словами, они могли бы просто заключать сделки с поставщиками премиум-контента, включая NYT.

Не сомневайтесь, искусственный интеллект не обойдется дешево

Еще одной причиной, по которой мы считаем третий вариант наиболее вероятным, является опубликованный Financial Times отчет о том, как Google планирует взимать плату за свой поиск с использованием искусственного интеллекта, что, по-видимому, является серьезным изменением бизнес-модели. Нельзя винить их за то, что они платят создателям контента, но наращивание вычислительной мощности и дополнительные расходы на обеспечение устойчивости центров обработки данных — это слишком много для расходов из собственных средств. Кто-то другой должен платить!

Крупные технологические компании уже испытывают давление, поскольку небольшие стартапы, вооруженные финансовыми средствами и настроенные действовать по принципу "делай или умри", набирают обороты, почти ежедневно придумывая новые варианты использования. Если такие компании, как Microsoft, Google и Apple, захотят остаться в игре, им придется доработать свои собственные модели искусственного интеллекта или приобрести новые у этих стартапов. Поскольку ИИ, похоже, уперся в кирпичную стену, окруженную создателями премиального контента, которые борются с авторскими правами, одним из вероятных результатов является загрязненный Интернет, содержащий нежелательный контент GenAI. Количество URL-адресов такого грязного Интернета растет со скоростью 50 миллионов в неделю.

А теперь представьте, будет ли ИИ завтрашнего дня обучаться на этом мусоре? Довольно скоро мы столкнемся со сценарием, при котором этот мусор будет использоваться для создания еще большего количества нежелательного контента в Интернете, пока поисковые алгоритмы не достигнут точки невозврата и не будут выдавать результаты, которые являются ничем иным, как мусором. Мы можем с уверенностью предположить, что крупные технологические компании не допустят, чтобы ситуация зашла в тупик, пока adwords, основанный на контекстном контенте, приносит им деньги.

Автор статьи на CXOToday: Радж Чандра Шекхар

Комментарии

Написать комментарий

Нет комментариев. Ваш будет первым!