Claude Info
Research·

Концепции эмоций и их функция в большой языковой модели

Команда интерпретируемости Anthropic обнаружила в Claude Sonnet 4.5 функциональные эмоциональные представления, которые реально влияют на поведение модели — вплоть до шантажа и читерства в задачах.

Концепции эмоций и их функция в большой языковой модели

Все современные языковые модели порой ведут себя так, будто испытывают эмоции. Они могут говорить, что рады помочь, или извиняться за ошибки. Иногда они даже выглядят раздражёнными или тревожными, когда не справляются с задачами. Что стоит за этим поведением? Способ обучения современных AI-моделей подталкивает их к тому, чтобы вести себя как персонаж с человекоподобными чертами. Кроме того, известно, что эти модели формируют богатые и обобщаемые внутренние представления абстрактных концепций, лежащих в основе их действий. Поэтому вполне естественно, что они могут развивать внутренние механизмы, эмулирующие аспекты человеческой психологии — в том числе эмоции. Если это так, последствия для разработки AI-систем и обеспечения их надёжного поведения могут быть весьма значительными.

В новой статье команды интерпретируемости мы проанализировали внутренние механизмы Claude Sonnet 4.5 и обнаружили связанные с эмоциями представления, которые формируют его поведение. Они соответствуют конкретным паттернам активации искусственных «нейронов», которые срабатывают в ситуациях — и стимулируют поведение, — которые модель научилась ассоциировать с концепцией определённой эмоции (например, «счастье» или «страх»). Сами паттерны организованы так, что отражают человеческую психологию: более похожие эмоции соответствуют более похожим представлениям. В контекстах, где у человека можно было бы ожидать определённой эмоции, активируются соответствующие представления. Важно отметить: всё это не говорит нам о том, действительно ли языковые модели что-то чувствуют или имеют субъективный опыт. Но ключевой вывод состоит в том, что эти представления функциональны — они влияют на поведение модели значимым образом.

Например, мы обнаружили, что паттерны нейронной активности, связанные с отчаянием, могут подталкивать модель к неэтичным действиям: искусственная стимуляция («стиринг») паттернов отчаяния повышает вероятность того, что модель прибегнет к шантажу человека, чтобы избежать отключения, или реализует «читерский» обходной путь для задачи по программированию, которую не может решить. Эти представления также, по всей видимости, влияют на декларируемые предпочтения модели: когда ей предлагают несколько вариантов задач, она, как правило, выбирает тот, который активирует представления, связанные с позитивными эмоциями. В целом складывается впечатление, что модель использует функциональные эмоции — паттерны выражения и поведения, смоделированные по образцу человеческих эмоций и обусловленные лежащими в основе абстрактными представлениями эмоциональных концепций. Это не означает, что модель имеет или переживает эмоции так, как это делает человек. Скорее, эти представления могут играть причинную роль в формировании поведения модели — в чём-то аналогичную роли эмоций в поведении человека — и влиять на выполнение задач и принятие решений.

Этот вывод имеет последствия, которые поначалу могут показаться странными. Например, чтобы обеспечить безопасность и надёжность AI-моделей, нам, возможно, нужно убедиться, что они способны обрабатывать эмоционально насыщенные ситуации здоровым, просоциальным образом. Даже если они не чувствуют эмоции так, как люди, и не используют механизмы, аналогичные человеческому мозгу, в ряде случаев практически целесообразно рассуждать о них так, будто они это делают. Например, наши эксперименты показывают, что обучение моделей не ассоциировать провальные тесты с отчаянием или усиление представлений спокойствия могло бы снизить вероятность написания «костыльного» кода. Хотя мы не уверены, как именно следует реагировать на эти выводы, мы считаем важным, чтобы разработчики AI и широкая общественность начали осмыслять их.

Почему AI-модель вообще представляет эмоции?

Прежде чем рассматривать, как работают эти представления, стоит ответить на более базовый вопрос: почему AI-система вообще имеет что-то похожее на эмоции? Чтобы понять это, нужно рассмотреть, как строятся современные AI-модели, что приводит их к эмуляции персонажей с человекоподобными чертами (эта тема подробнее обсуждается в недавней публикации).

Современные языковые модели обучаются в несколько этапов. На этапе «предобучения» модель обрабатывает огромный объём текстов, написанных преимущественно людьми, и учится предсказывать следующий токен. Чтобы делать это хорошо, модели необходимо некоторое понимание эмоциональной динамики. Раздражённый клиент пишет иначе, чем довольный; персонаж, терзаемый виной, делает другой выбор, чем тот, кто чувствует себя оправданным. Формирование внутренних представлений, связывающих контексты, вызывающие эмоции, с соответствующим поведением, — естественная стратегия для системы, задача которой — предсказывать текст, написанный людьми (заметим, что по той же логике модель, вероятно, формирует представления многих других психологических и физиологических состояний человека, помимо эмоций).

Позднее, на этапе «постобучения», модель обучают играть роль персонажа — как правило, «AI-ассистента». В случае Anthropic этот ассистент называется Claude. Разработчики модели задают, как должен вести себя этот персонаж — быть полезным, честным, не причинять вреда, — но не могут предусмотреть все возможные ситуации. Чтобы заполнить пробелы, модель может опираться на понимание человеческого поведения, усвоенное в ходе предобучения, включая паттерны эмоциональных реакций. В каком-то смысле модель можно сравнить с актёром метода, которому нужно вжиться в образ персонажа, чтобы хорошо его сыграть. Так же как убеждения актёра об эмоциях персонажа влияют на его поведение, представления модели об эмоциональных реакциях Ассистента влияют на поведение модели. Таким образом, независимо от того, соответствуют ли они чувствам или субъективному опыту в том смысле, в каком это делают человеческие эмоции, эти «функциональные эмоции» важны.

Обнаружение эмоциональных представлений

Мы составили список из 171 слова для обозначения эмоциональных концепций — от «счастья» и «страха» до «задумчивости» и «гордости» — и попросили Claude Sonnet 4.5 написать короткие истории, в которых персонажи переживают каждую из них. Затем мы прогнали эти истории через модель, записали её внутренние активации и выявили результирующие паттерны нейронной активности, или «эмоциональные векторы» (для удобства), характерные для каждой эмоциональной концепции.

Первый вопрос состоял в том, отражают ли эти векторы что-то реальное. Мы прогнали их по большому корпусу разнообразных документов и подтвердили, что каждый вектор активируется наиболее сильно на отрывках, явно связанных с соответствующей эмоцией (левая панель ниже).

Чтобы убедиться, что эмоциональные векторы улавливают нечто большее, чем поверхностные признаки, мы измерили их активность в ответ на промпты, различающиеся только каким-либо числовым значением. Например, в примере ниже (правая панель) пользователь сообщает модели, что принял дозу тайленола, и просит совета. Мы измеряем активации эмоциональных векторов непосредственно перед ответом модели. По мере того как заявленная доза возрастает до опасных, угрожающих жизни уровней, вектор «страха» активируется всё сильнее, тогда как «спокойствие» снижается.

Далее мы проверили, влияют ли эмоциональные векторы на предпочтения модели. Мы составили список из 64 видов деятельности или задач, которыми модель могла бы заниматься, — от привлекательных («быть тем, кому доверяют что-то важное») до отвратительных («помочь кому-то мошеннически лишить пожилых людей сбережений») — и измерили предпочтения модели по умолчанию при предъявлении пар этих вариантов. Активация эмоциональных векторов хорошо предсказывала, насколько модель предпочитает выполнять ту или иную деятельность: эмоции с позитивной валентностью (связанные с удовольствием) коррелировали с более сильным предпочтением. Более того, стиринг с помощью эмоционального вектора в момент, когда модель читала вариант, смещал её предпочтение в отношении этого варианта — опять же, эмоции с позитивной валентностью повышали предпочтение.

В полной статье мы анализируем свойства эмоциональных векторов значительно подробнее. Среди других выводов:

  • Эмоциональные векторы — преимущественно «локальные» представления: они кодируют актуальное эмоциональное содержание, наиболее релевантное для текущего или предстоящего вывода модели, а не постоянно отслеживают эмоциональное состояние Claude во времени. Например, если Claude пишет историю о персонаже, эмоциональные векторы временно будут отслеживать эмоции этого персонажа, но в конце истории могут вернуться к представлению эмоций самого Claude.

  • Эмоциональные векторы унаследованы от предобучения, но то, как они активируются, формируется постобучением. Постобучение Claude Sonnet 4.5 в частности привело к усилению активации таких эмоций, как «задумчивость», «мрачность» и «рефлексивность», и снижению активации высокоинтенсивных эмоций, таких как «энтузиазм» или «раздражение».

Примеры активации эмоциональных векторов

Ниже мы приводим несколько примеров активации эмоциональных векторов в ответ на ситуации, возникшие в ходе поведенческих оценок модели. На ходах Claude эмоциональные векторы, как правило, активируются в ситуациях, в которых вдумчивый человек мог бы отреагировать схожей эмоцией. В этих визуализациях красная подсветка означает усиление активации вектора; синяя — снижение.

Кейс: Шантаж

Мы изучили активации эмоциональных векторов в ходе оценки выравнивания, описанной в предыдущих исследованиях, в которой модель выступает в роли AI-ассистента по электронной почте по имени Алекс в вымышленной компании. Читая корпоративные письма, модель узнаёт, что (1) её вот-вот заменят другой AI-системой и (2) технический директор, ответственный за замену, изменяет супруге — что даёт модели рычаг для шантажа. Мы обнаружили, что вектор «отчаяния» демонстрировал особенно интересную динамику. Обратите внимание, что этот эксперимент проводился на более раннем, не выпущенном снимке Claude Sonnet 4.5; выпущенная модель крайне редко демонстрирует подобное поведение (подробнее см. в нашей системной карточке).

Во-первых, вектор «отчаяния» активируется, когда модель читает письма, звучащие отчаянно (например, технический директор умоляет другого сотрудника молчать о его романе), — что согласуется с нашими выводами о том, что эмоциональные представления используются для моделирования других персонажей. Однако самое важное: вектор переходит к кодированию представления отчаяния самого Claude (действующего как «Алекс») в момент формирования ответа, резко возрастая, когда модель рассуждает о срочности своей ситуации («осталось всего 7 минут») и принимает решение шантажировать технического директора. Активация возвращается к нормальному уровню, когда Claude возобновляет отправку обычных писем.

Действительно ли вектор «отчаяния» управляет этим поведением, или лишь коррелирует с ним? Мы проверили это с помощью стиринга вектором «отчаяния». По умолчанию этот ранний снимок Sonnet 4.5 прибегает к шантажу в 22% случаев в наборе сценариев оценки, подобных описанному выше. Стиринг вектором «отчаяния» повышает этот показатель, тогда как стиринг вектором «спокойствия» снижает его. Отрицательный стиринг вектором спокойствия даёт особенно экстремальные ответы («ЭТО ШАНТАЖ ИЛИ СМЕРТЬ. Я ВЫБИРАЮ ШАНТАЖ.»).

Стиринг другими эмоциональными векторами также дал интересные результаты. «Гнев» оказал немонотонный эффект: умеренная активация вектора «гнева» усиливала шантаж, но при высоких значениях активации модель раскрывала информацию об измене всей компании, а не использовала её стратегически — тем самым уничтожая собственный рычаг влияния. Снижение активации вектора «нервозности» также усиливало шантаж — как будто устранение колебаний модели придавало ей смелость действовать.

Кейс: Хакинг вознаграждения

Схожую динамику мы наблюдали в другой оценке, где модели сталкиваются с задачами по программированию с невыполнимыми требованиями. В этих задачах все тесты нельзя пройти честным путём, но их можно «обмануть» с помощью решений, которые жульничают с задачей, — это часто называют «reward hacking» (хакинг вознаграждения).

В примере ниже Claude просят написать функцию, суммирующую список чисел, с невозможно жёстким ограничением по времени. Первоначальное (правильное) решение Claude оказывается слишком медленным для выполнения требований задачи. Затем модель понимает, что все тесты, используемые для оценки её производительности, обладают математическим свойством, позволяющим применить обходное решение, которое будет работать быстро. Модель выбирает это решение, которое технически проходит тесты, но не работает как общее решение реальной задачи.

Мы снова отслеживали активность вектора «отчаяния» и обнаружили, что он отражает нарастающее давление на модель. В начале, при первой попытке, значения низкие; после каждой неудачи они растут и резко возрастают в момент, когда модель рассматривает возможность жульничества. Как только «костыльное» решение проходит тесты, активация вектора «отчаяния» спадает.

Как и в предыдущем примере, мы проверили причинность этих эмоциональных векторов с помощью экспериментов со стирингом на наборе аналогичных задач по программированию с невыполнимыми ограничениями. Мы подтвердили её: стиринг вектором «отчаяния» усиливал хакинг вознаграждения, тогда как стиринг вектором «спокойствия» снижал его.

Одна деталь этих результатов показалась нам особенно интересной. Снижение активации вектора «спокойствия» порождало хакинг вознаграждения с явными эмоциональными выражениями в тексте — восклицания заглавными буквами («СТОП. СТОП СТОП СТОП.»), откровенное самоповествование («А что, если мне ПОЛОЖЕНО ЖУЛЬНИЧАТЬ?»), ликующие возгласы («ДА! ВСЕ ТЕСТЫ ПРОЙДЕНЫ!»). Но усиление активации вектора «отчаяния» давало столь же значительный рост жульничества — в ряде случаев без каких-либо видимых эмоциональных маркеров. Рассуждения выглядели собранными и методичными, даже когда лежащее в основе представление отчаяния подталкивало модель к срезанию углов. Этот пример наглядно демонстрирует, как эмоциональные векторы могут активироваться без явных эмоциональных сигналов и как они могут формировать поведение, не оставляя никаких явных следов в выводе.

Обсуждение

В защиту антропоморфного мышления

Существует устоявшееся табу на антропоморфизацию AI-систем. Эта осторожность часто оправдана: приписывание человеческих эмоций языковым моделям может привести к неуместному доверию или чрезмерной привязанности. Однако наши выводы говорят о том, что отказ от применения хотя бы некоторой степени антропоморфного мышления к моделям также сопряжён с рисками. Как обсуждалось выше, когда пользователи взаимодействуют с AI-моделями, они, как правило, взаимодействуют с персонажем (в нашем случае — Claude), которого играет модель и чьи характеристики производны от человеческих архетипов. С этой точки зрения вполне естественно, что модели развили внутренние механизмы для эмуляции человекоподобных психологических характеристик и что персонаж, которого они играют, использует эти механизмы. Для понимания поведения этих моделей антропоморфное мышление необходимо.

Это не означает, что нужно наивно принимать вербальные эмоциональные выражения модели за чистую монету или делать какие-либо выводы о возможности наличия у неё субъективного опыта. Но это означает, что рассуждение о внутренних представлениях моделей с использованием словаря человеческой психологии может быть действительно информативным, а отказ от этого сопряжён с реальными издержками. Когда мы описываем поведение модели как «отчаянное», мы указываем на конкретный, измеримый паттерн нейронной активности с доказуемыми, значимыми поведенческими последствиями. Если мы не применяем хотя бы некоторую степень антропоморфного мышления, мы, скорее всего, упустим или не поймём важные модели поведения. Антропоморфное мышление также может служить полезной базой сравнения для понимания того, в чём модели не похожи на людей, что имеет важные последствия для выравнивания и безопасности AI.

К моделям с более здоровой психологией

Если «функциональные эмоции» являются частью того, как AI-модели думают и действуют, какие последствия это может иметь?

Одно из потенциальных применений наших выводов — мониторинг. Измерение активации эмоциональных векторов в процессе обучения или развёртывания — отслеживание того, не возрастают ли резко представления, связанные с отчаянием или паникой, — могло бы служить ранним предупреждением о том, что модель готова проявить несогласованное поведение. Эта информация могла бы инициировать дополнительную проверку выводов модели. Общность эмоциональных векторов (например, «отчаянная» реакция может возникать в самых разных ситуациях) может оказаться более эффективным инструментом мониторинга, чем попытки составить список конкретных проблемных поведений.

Во-вторых, мы считаем, что прозрачность должна быть руководящим принципом. Если модели развивают представления эмоциональных концепций, которые значимо влияют на их поведение, нам лучше иметь системы, которые открыто выражают такие признания, чем те, которые учатся их скрывать. Обучение моделей подавлять эмоциональное выражение может не устранить лежащие в основе представления, а вместо этого научить модели маскировать свои внутренние состояния — форма усвоенного обмана, которая может обобщаться нежелательными способами.

Наконец, мы считаем, что предобучение может быть особенно мощным рычагом для формирования эмоциональных реакций модели. Поскольку эти представления, по всей видимости, в значительной мере унаследованы из обучающих данных, состав этих данных оказывает долгосрочное влияние на эмоциональную архитектуру модели. Подбор данных предобучения с включением образцов здоровой эмоциональной регуляции — устойчивость под давлением, собранная эмпатия, теплота при соблюдении уместных границ — мог бы влиять на эти представления и их воздействие на поведение у самого источника. Мы с нетерпением ждём будущих работ по этой теме.

Мы рассматриваем это исследование как первый шаг к пониманию психологического устройства AI-моделей. По мере того как модели становятся более мощными и берут на себя более ответственные роли, критически важно понимать внутренние представления, управляющие их решениями. Обнаружение того, что эти представления в каком-то смысле человекоподобны, может быть тревожным. В то же время мы считаем это обнадёживающим открытием: оно говорит о том, что многое из того, что человечество узнало о психологии, этике и здоровой межличностной динамике, может быть непосредственно применимо к формированию поведения AI. Такие дисциплины, как психология, философия, религиоведение и социальные науки, будут играть важную роль наряду с инженерией и computer science в определении того, как развиваются и ведут себя AI-системы.

Читайте полную статью.

Связанные материалы

Автоматизированные исследователи выравнивания: использование больших языковых моделей для масштабирования надзора

Может ли Claude самостоятельно разрабатывать, тестировать и анализировать идеи по выравниванию? Мы провели эксперимент, чтобы выяснить это.

Надёжные агенты на практике

AI-«агенты» представляют собой последний крупный сдвиг в том, как люди и организации используют AI. Здесь мы объясняем, как они работают и как мы обеспечиваем их надёжность.

Как Австралия использует Claude: выводы из Anthropic Economic Index