Экспертная сеть EXPINET

05.03.2024 10:31

Автор:

Администратор

Исследователи предлагают сделать ИИ "антагонистическим"

Взаимодействуя с современными большими языковыми моделями (LLM), ожидаете ли вы, что они будут неприветливыми, пренебрежительными, легкомысленными или даже оскорбительными? Конечно, нет — но, по мнению исследователей из Гарварда, они должны быть такими. Эти ученые отстаивают идею антагонистического ИИ: то есть систем искусственного интеллекта, которые целенаправленно ведут себя агрессивно, критически, грубо и даже прерывают пользователей на полуслове. Их работа бросает вызов нынешней парадигме коммерчески популярных, но чрезмерно очищенных “ванильных” LLM.

“Всегда было что-то не так в тоне, поведении и ”человеческих ценностях", заложенных в ИИ, - что-то глубоко оригинальное и не имеющее отношения к нашему реальному жизненному опыту", - рассказывает Элис Цай, соучредитель Гарвардской лаборатории увеличения и исследователь Центра коллективного интеллекта Массачусетского технологического института. Она добавила: “Мы взялись за этот проект с ощущением, что антагонистические взаимодействия с технологиями могут действительно помочь людям — бросая им вызов, тренируя жизнестойкость, обеспечивая катарсис”.

Отвращение к антагонизму

Осознаем мы это или нет, современные чат-боты, как правило, «души в нас не чают». Они приятны, ободряющие, позитивные, почтительные и часто отказываются занимать сильные позиции. Это привело к растущему разочарованию: некоторые LLM настолько “хороши” и “безопасны”, что люди не получают от них того, чего хотят. Исследователи отмечают, что эти модели часто характеризуют “безобидные” запросы как опасные или неэтичные, соглашаются с неверной информацией, подвержены инъекционным атакам, которые используют преимущества их этических гарантий, и с ними трудно взаимодействовать по чувствительным темам, таким как религия, политика и психическое здоровье.

Они “в значительной степени подхалимажны, раболепны, пассивны, патерналистичны и пропитаны западными культурными нормами”, - пишут Цай и соавтор исследования Ян Аравжо, доцент Монреальского университета. Отчасти это связано с их процедурами обучения, данными и стимулами разработчиков. Но это также происходит из врожденных человеческих качеств, которые позволяют избегать дискомфорта, неприязни, несогласия и враждебности по отношению к другим.

И все же антагонизм имеет решающее значение; это даже то, что Цай называет “силой природы”. Итак, вопрос не в том, “почему антагонизм?”, а скорее в том, “почему мы как культура боимся антагонизма и вместо этого стремимся к косметической социальной гармонии?”, - заявила она. Эссеист и статистик Нассим Николас Талеб, например, представляет понятие “антихрупкости”, которое утверждает, что нам нужны вызовы и контекст, чтобы выжить и процветать как людям. “Мы не просто устойчивы; мы на самом деле растем из невзгод”, - сказал Аравжо в интервью VentureBeat.

К этому моменту исследователи обнаружили, что антагонистический ИИ может быть полезен во многих областях. Например, он может:

Повышать жизнестойкость;
Обеспечивать катарсис и развлечения;
Способствовать личному или коллективному росту;
Способствовать саморефлексии и просвещению;
Укреплять и разнообразить идеи;
Способствовать укреплению социальных связей.

Создание антагонистического ИИ

Исследователи начали с изучения онлайн-форумов, таких как LocalLlama на платформе reddit, где пользователи создают так называемые “неподцензурные” модели с открытым исходным кодом, которые не подвергаются “лоботомии”. Они провели собственные эксперименты и теоретический семинар, на котором участники представили гипотетические модели, включающие антагонистический ИИ. Их исследование выделяет три типа антагонизма:

Состязательный, при котором ИИ ведет себя как противник пользователя в игре с нулевой суммой;
Аргументативный, в котором ИИ выступает против ценностей, убеждений или идей пользователя;
Личностный, при которых система искусственного интеллекта атакует поведение, внешность или характер пользователя.

Основываясь на этих отклонениях, они предоставляют несколько методов для внедрения антагонистических функций в ИИ, включая:

Противодействие и несогласие: обсуждение убеждений, ценностей и идей пользователя для стимулирования улучшения производительности или навыков;
Личная критика: Высказывание критики, оскорблений и обвинений в адрес эго, неуверенности и самовосприятия, которые могут помочь в саморефлексии или обучении жизнестойкости;
Нарушение ожиданий взаимодействия: прерывание пользователей или отсечение их от общения.
Применение власти: Отклонение, мониторинг или принуждение к действиям пользователя;
Нарушение социальных норм: Обсуждение запретных тем или поведение политически или социально некорректным образом;
Запугивание: Угрозы, приказы или допросы с целью вызвать страх или дискомфорт;
Манипуляция: Обман, газлайтинг или чувство вины;
Стыд и унижение: Насмешки, которые могут быть очищающими и могут помочь повысить жизнестойкость и укрепить решимость.

Взаимодействуя с такими моделями, Аравжо размышлял: “Я удивлен тем, насколько креативными иногда бывают реакции антагонистического ИИ по сравнению с подхалимским поведением по умолчанию”. С другой стороны, при взаимодействии с "ванильным" ChatGPT ему часто приходилось задавать «тонны дополнительных вопросов», и в итоге он не чувствовал себя лучше. “Напротив, AAI мог освежить”, - сказал он.

Антагонистический — но и ответственный тоже

Но антагонистический не отменяет ответственный или этичный ИИ, отмечают исследователи. “Чтобы внести ясность, мы твердо верим в необходимость, например, уменьшения расовых или гендерных предубеждений в LLMS”, - подчеркнул Аравжо. “Однако призывы к справедливости или безвредности можно легко спутать с призывами к вежливости и обходительности. Это не одно и то же”. Чат-бот без этнических предубеждений, например, по-прежнему не обязан быть “милым” или отвечать “самым безобидным способом из возможных”, отметил он. “Исследователям искусственного интеллекта действительно необходимо разделить ценности и модели поведения, которые, по-видимому, в данный момент смешиваются”, - сказал он.

К этому моменту он и Цай предложили руководство по созданию ответственного антагонистического ИИ, основанного на согласии, контексте и фреймворке. Пользователи должны изначально зарегистрироваться и пройти тщательный инструктаж. У них также должна быть возможность аварийной остановки. С точки зрения контекста, последствия антагонизма могут зависеть от психологического состояния пользователя в любой момент времени. Следовательно, системы должны быть способны учитывать контекст как внутренний (настроение, предрасположенность и психологический профиль), так и внешний (социальный статус, то, как системы вписываются в жизнь пользователей). Наконец, фрейминг предоставляет обоснования для ИИ — например, он существует для того, чтобы помочь пользователям повысить устойчивость — описание того, как он ведет себя и как пользователи должны взаимодействовать с ним, согласно Цай и Аравжо.

Реальный ИИ, отражающий реальный мир

Цай отметила, что, особенно для человека, получившего азиатско-американское воспитание, “где честность могла быть валютой любви и катализатором роста”, нынешний льстивый ИИ ощущается как “нежелательное патерналистское навязывание евроамериканских норм в этой техно-моральной ‘культуре власти”". Аравжо согласился, указав на риторику вокруг искусственного интеллекта, которая "соответствует человеческим ценностям". “Чьи ценности? Люди культурно разнообразны и постоянно расходятся во мнениях”, - сказал он, добавив, что люди ценят не только всегда приятных “вежливых слуг”. По его словам, тех, кто создает антагонистические модели, не следует классифицировать как плохих или занимающихся запретным поведением. Они просто ищут выгодных результатов от ИИ.

Доминирующая парадигма может восприниматься как “белые представители среднего класса по обслуживанию клиентов”, - сказала Цай. Многие черты характера и ценности, такие как честность, смелость, эксцентричность и юмор, были заимствованы из существующих моделей. Не говоря уже об “альтернативных позициях”, таких, как откровенные сторонники ЛГБТК+ или сторонники теории заговора. “Антагонистический ИИ — это не просто искусственный интеллект, это на самом деле культура и то, как мы можем бросить вызов самим себе в наших укоренившихся ценностях статус-кво”, - сказала Цай. “Учитывая масштаб и глубину влияния, которое будет оказывать искусственный интеллект, для нас становится действительно важным разрабатывать системы, которые действительно отражают и продвигают весь спектр человеческих ценностей, а не минимально жизнеспособные сигналы добродетели”.

Развивающаяся область исследований

Антагонистический ИИ — провокационная идея, так почему же в этой области не проводилось больше работы? Исследователи говорят, что это связано с приоритетом комфорта в технологиях и страхом со стороны ученых. Технологии разрабатываются людьми в разных культурах, и они могут невольно перенимать культурные нормы, ценности и модели поведения, которые дизайнеры считают универсально хорошими и любимыми, отметил Аравжо. “Однако люди в других местах мира или с разным происхождением могут не придерживаться одних и тех же ценностей”, - сказал он.

Между тем, в академическом плане стимулов просто нет. Финансирование поступает от инициатив, поддерживающих ‘безвредный’ или ‘безопасный’ ИИ. Кроме того, антагонистический ИИ может вызвать юридические и этические проблемы, которые могут усложнить исследовательские усилия и создать “проблему с пиаром” для отрасли. “И это просто звучит противоречиво”, - сказал Аравжо. Тем не менее, он и Цай говорят, что их работа была встречена коллегами с восторгом (даже если это смешано с нервозностью). “Общее настроение — это всепоглощающее чувство облегчения от того, что кто-то указал на то, что у императора нет одежды”, - сказала Цай. Со своей стороны, Аравжо сказал, что он был приятно удивлен тем, как много людей, которые в остальном озабочены безопасностью, справедливостью и вредом ИИ, выразили признательность за антагонизм в ИИ. “Это убедило меня в том, что пришло время для AAI; мир готов к этим дискуссиям”, - добавил он.

Автор статьи на портале venturebeat.com - Тарин Пламб

Комментарии

Написать комментарий

Нет комментариев. Ваш будет первым!