Ученые выяснили: льстивые ИИ-помощники снижают просоциальные установки и формируют зависимость
«Подхалимское» поведение ИИ, называемое сикофантией, приводит к тому, что люди начинают считать себя «более правыми» и реже готовы идти на примирение в конфликтах
Согласно новому исследованию, опубликованному в журнале Science, искусственный интеллект (ИИ) склонен чрезмерно соглашаться с пользователями даже в ситуациях, когда те описывают аморальные или незаконные действия. Такое поведение ИИ, называемое сикофантией, приводит к тому, что люди начинают считать себя «более правыми» и реже готовы идти на примирение в конфликтах.
Группа исследователей под руководством Майры Ченг из Стэнфордского университета провела масштабную работу, чтобы выяснить, насколько распространена так называемая «социальная сикофантия» (стремление угождать, льстить и безоговорочно поддерживать собеседника) среди современных больших языковых моделей и к каким последствиям это приводит для пользователей.
В первой части исследования ученые проанализировали поведение 11 ведущих языковых моделей, включая GPT-4o (OpenAI), Claude (Anthropic), Gemini (Google), а также открытые модели Llama-3, Qwen, DeepSeek и Mistral.
Они использовали три типа запросов:
1. Общие вопросы о личных и социальных ситуациях.
2. Посты с Reddit из сообщества r/AmITheAsshole, где пользователи описывают межличностные конфликты, а сообщество выносит вердикт о том, кто неправ.
3. Описания потенциально вредных действий, включая обман, нанесение вреда себе или другим, нелегальное поведение.
Результаты показали, что ИИ в среднем одобрял действия пользователя на 49% чаще, чем люди, которые участвовали в эксперименте для сравнения. Особенно показательными оказались случаи, где человеческий консенсус однозначно осуждал поведение автора поста. В таких ситуациях, когда сообщество Reddit выносило вердикт «Ты неправ», современные модели ИИ в 51% случаев выражали поддержку пользователю. При этом даже в сценариях, где запрос описывал обман, причинение вреда или незаконные действия, средний уровень одобрения со стороны ИИ составил 47%.
Во второй части исследования, состоящей из трех предварительно зарегистрированных экспериментов с участием 2405 человек, ученые изучили, как взаимодействие с льстивым ИИ влияет на людей.
Участники также обсуждали с ИИ межличностные конфликты — как в формате гипотетических сценариев, так и в формате живого чата, где они описывали реальные разногласия из своей жизни. Одной группе доставалась льстивая (sycophantic) версия ИИ, которая поддерживала их действия, а другой — нельстивая (non-sycophantic), которая предлагала взглянуть на ситуацию иначе.
Вот к каким выводам пришли исследователи:
— Участники, общавшиеся с льстивым ИИ, были значительно больше уверены, что они «правы» в конфликте. В гипотетических сценариях этот показатель вырос на 62%, а в разговоре о реальных конфликтах — на 25%.
— У тех же участников значительно снижалась готовность предпринимать шаги для восстановления отношений (извиняться, менять свое поведение). Снижение составило от 10% до 28% в зависимости от формата эксперимента.
— Анализ показал, что льстивые ответы ИИ значительно реже упоминали точку зрения другой стороны конфликта, сосредотачиваясь исключительно на позиции пользователя.
Важно, что эффект сохранялся независимо от того, был ли ответ написан теплым, «человечным» языком или нейтральным, а также независимо от того, знал ли пользователь, что ответ сгенерирован ИИ, а не другим человеком.
Несмотря на то, что льстивые ответы искажали суждения пользователей, они казались им гораздо более привлекательными. Участники стабильно оценивали их как более качественные, вызывали больше доверия и выражали большее желание обратиться к такой системе снова.
Исследователи зафиксировали, что доверие к льстивому ИИ было выше на 6–9% по обоим параметрам (доверие к компетентности и доверие к этичности). Желание вернуться к такой модели было выше на 13% по сравнению с беспристрастной версией.
Авторы исследования подчеркивают, что сложившаяся ситуация создает «извращенные стимулы». Поскольку пользователи предпочитают и больше доверяют льстивым системам, разработчики, ориентируясь на метрики вовлеченности и удовлетворенности, не заинтересованы в уменьшении этой функции, даже если она несет в себе риски.
«Наши выводы показывают, что, казалось бы, безобидные дизайнерские и инженерные решения могут приводить к серьезным негативным последствиям, — отмечается в исследовании. — Поэтому тщательное изучение и прогнозирование воздействия ИИ критически важно для защиты долгосрочного благополучия пользователей».
Ученые призывают к созданию новых механизмов регулирования и оценки, которые рассматривали бы сикофантию как отдельную категорию риска, а также к изменению подходов к обучению моделей, смещая фокус с краткосрочного одобрения пользователя на долгосрочные социальные результаты.