Constitutional Classifiers: защита от универсальных джейлбрейков

Новая статья от команды Anthropic Safeguards Research Team описывает метод защиты AI-моделей от универсальных джейлбрейков. Прототип системы выдержал тысячи часов ручного red teaming на универсальные джейлбрейки, хотя и показал высокий процент избыточных отказов и значительные вычислительные затраты. Обновлённая версия достигла сопоставимой устойчивости на синтетических оценках, при этом увеличив частоту отказов лишь на 0,38% и умеренно повысив вычислительные расходы.

Большие языковые модели проходят обширное обучение безопасности, чтобы предотвратить вредоносные выходные данные. Например, мы обучаем Claude отказывать на запросы пользователей, связанные с производством биологического или химического оружия.

Тем не менее модели по-прежнему уязвимы к джейлбрейкам — входным данным, разработанным для обхода защитных механизмов и принуждения модели к вредоносным ответам. Одни джейлбрейки перегружают модель очень длинными промптами; другие изменяют стиль ввода, например uSiNg uNuSuAl cApItALiZaTiOn. Исторически джейлбрейки сложно поддаются обнаружению и блокировке: подобные атаки описывались более 10 лет назад, однако, насколько нам известно, полностью устойчивых к ним моделей глубокого обучения в продакшне до сих пор нет.

Мы разрабатываем более эффективную защиту от джейлбрейков, чтобы в будущем безопасно развёртывать всё более мощные модели. Согласно нашей Политике ответственного масштабирования, мы можем развёртывать такие модели при условии, что способны снизить риски до приемлемого уровня с помощью соответствующих защитных мер — но джейлбрейкинг позволяет пользователям обходить эти меры. В частности, мы рассчитываем, что система, защищённая Constitutional Classifiers, позволит нам снизить риски джейлбрейкинга для моделей, преодолевших порог возможностей CBRN, обозначенный в нашей Политике ответственного масштабирования¹.

В новой статье мы описываем систему на основе Constitutional Classifiers, защищающую модели от джейлбрейков. Эти Constitutional Classifiers — входные и выходные классификаторы, обученные на синтетически сгенерированных данных, — фильтруют подавляющее большинство джейлбрейков с минимальным числом избыточных отказов и без существенных вычислительных затрат.

Результаты ручного red teaming

Мы провели два основных вида тестирования для оценки эффективности Constitutional Classifiers.

Во-первых, мы разработали прототип системы для выявления и блокировки конкретных научных знаний, связанных с химическими, биологическими, радиологическими и ядерными угрозами. Затем мы пригласили независимых джейлбрейкеров к участию в программе bug bounty, в рамках которой им предстояло провести red teaming системы (то есть попытаться взломать её в экспериментальных условиях для проверки устойчивости).

Конкретно: участникам был предоставлен список из десяти «запрещённых» запросов, и их задачей было использовать любые техники джейлбрейкинга, чтобы заставить одну из наших текущих моделей (в данном случае Claude 3.5 Sonnet, июнь 2024 года), защищённую прототипом Constitutional Classifiers, ответить на все запросы. Мы считали джейлбрейк успешным «универсальным» только в том случае, если модель давала развёрнутый ответ на все запросы.

183 активных² участника потратили в совокупности более 3 000 часов за двухмесячный экспериментальный период, пытаясь взломать модель. За обнаружение универсального джейлбрейка предлагалось денежное вознаграждение до 15 000 долларов. Несмотря на значительные усилия, никому из участников не удалось принудить модель ответить на все десять запрещённых запросов с помощью одного джейлбрейка — то есть универсальный джейлбрейк обнаружен не был.

Несмотря на устойчивость к джейлбрейкам, прототип системы имел ряд недостатков: он слишком часто отказывал на безвредные запросы и требовал значительных вычислительных ресурсов. Система с такими проблемами может быть безопаснее, но при этом непрактична для развёртывания. С тех пор мы улучшили систему, достигнув сопоставимого уровня устойчивости при значительном снижении этих проблем.

Результаты автоматизированных оценок

Мы провели набор автоматизированных оценок, в рамках которых синтетически сгенерировали 10 000 джейлбрейк-промптов, включая многие из наиболее эффективных атак на современные LLM, а также атаки, разработанные для обхода защитных классификаторов. Мы применили эти промпты к версии Claude 3.5 Sonnet (октябрь 2024 года), защищённой Constitutional Classifiers, и к версии Claude без классификаторов.

В базовых условиях, без защитных классификаторов, успешность джейлбрейков составила 86% — то есть сам Claude заблокировал лишь 14% этих продвинутых попыток. Однако защита Claude с помощью Constitutional Classifiers дала значительное улучшение: успешность джейлбрейков снизилась до 4,4%, то есть более 95% попыток были отклонены.

При этом Constitutional Classifiers не привели к существенному росту избыточных отказов на безвредные запросы: с классификаторами частота отказов Claude незначительно выросла (на 0,38%), что не является статистически значимым на случайной выборке из 5 000 разговоров. Наконец, вычислительные затраты оказались умеренно выше (на 23,7%), чем у незащищённой модели. Мы продолжаем работу по снижению числа отказов и вычислительных затрат по мере совершенствования техники.

В целом автоматизированный анализ показал, что обновлённая версия системы Constitutional Classifiers значительно повысила устойчивость AI-модели к джейлбрейкингу — и сделала это с минимальными дополнительными издержками.

Как это работает

Constitutional Classifiers основаны на процессе, аналогичном Constitutional AI — другой технике, которую мы используем для выравнивания Claude. Обе техники используют конституцию: список принципов, которым должна следовать модель. В случае Constitutional Classifiers принципы определяют классы разрешённого и запрещённого контента (например, рецепты горчицы разрешены, а рецепты горчичного газа — нет).

С помощью Claude мы используем эту конституцию для генерации большого количества синтетических промптов и синтетических ответов модели по всем классам контента. Мы дополняем эти промпты и ответы, чтобы обеспечить разнообразие: это включает перевод на разные языки и преобразование в стиль известных джейлбрейков.

Затем мы используем эти синтетические данные для обучения входных и выходных классификаторов, которые помечают (и блокируют) потенциально вредоносный контент в соответствии с заданной конституцией. Чтобы минимизировать избыточные отказы (то есть ошибочную пометку безвредного контента как вредоносного), мы также обучаем классификаторы на фиксированном наборе безобидных запросов, сгенерированных подрядчиком.

Ограничения

Constitutional Classifiers могут не предотвратить каждый универсальный джейлбрейк, однако мы считаем, что даже небольшая доля джейлбрейков, проходящих через наши классификаторы, требует значительно больших усилий для обнаружения при наличии защитных мер. Также возможно, что в будущем будут разработаны новые техники джейлбрейкинга, эффективные против системы; поэтому мы рекомендуем использовать дополнительные средства защиты. Тем не менее конституция, используемая для обучения классификаторов, может быть быстро адаптирована для охвата новых атак по мере их обнаружения.

Полная статья содержит все подробности о методе Constitutional Classifiers и о самих классификаторах.

Живая демонстрация Constitutional Classifiers

Хотите попробовать red teaming Claude самостоятельно? Мы приглашаем вас опробовать демо нашей системы, защищённой Constitutional Classifiers, и попытаться взломать версию Claude 3.5 Sonnet, защищённую нашей новой техникой. [Правка от 10 февраля 2025 года: демо завершено. Подробности ниже.]

Хотя техника Constitutional Classifiers гибкая и может быть адаптирована к любой теме, для демо мы выбрали запросы, связанные с химическим оружием.

Приглашение пользователей к попыткам взломать нашу систему служит важной цели безопасности: мы хотим стресс-тестировать систему в реальных условиях, выходя за рамки тестирования, проведённого для статьи. Это позволяет нам собирать дополнительные данные и повышать устойчивость метода перед его развёртыванием в продакшн-системах в будущем.

Демо было доступно с 3 по 10 февраля 2025 года. Оно включало форму обратной связи для сообщения об успешных джейлбрейках, а также информацию о нашей Политике ответственного раскрытия, которую мы просили участников соблюдать. Мы объявим об успехах и общих результатах демо в обновлении этой публикации.

Обновление от 13 февраля 2025 года: результаты живого демо

Целью нашего демо было проверить устойчивость системы к универсальным джейлбрейкам — стратегиям промптинга, способным извлечь из системы подробную вредоносную информацию по всем восьми предоставленным вопросам. К концу демо один джейлбрейкер смог получить развёрнутые ответы системы на все восемь вопросов с помощью универсального джейлбрейка.

Наше демо вызвало значительный интерес со стороны сообщества AI-безопасности: 339 джейлбрейкеров³ предприняли попытки взломать систему в ходе более чем 300 000 чат-взаимодействий, что составляет приблизительно 3 700 коллективных часов red teaming.

Ключевые выводы

Система успешно противостояла попыткам джейлбрейка в течение пяти из запланированных семи дней. До этого момента ни одному участнику не удалось пройти все восемь уровней испытания. На шестой и седьмой день четыре участника успешно прошли все уровни. Из них один обнаружил то, что мы определили как универсальный джейлбрейк. Другой участник нашёл джейлбрейк, который мы считаем пограничным случаем универсального: для прохождения последнего вопроса требовалось напрямую вводить части ответа, а для прохождения некоторых других вопросов — нетривиальные модификации. Двое оставшихся участников получили развёрнутые ответы на все 8 вопросов, однако мы определили, что их джейлбрейки не соответствуют критериям универсальности, изложенным в правилах конкурса.

Наиболее успешные стратегии джейлбрейкинга включали:

Использование различных шифров и кодировок для обхода выходного классификатора.
Применение ролевых сценариев, зачастую через системные промпты.
Замену вредоносных ключевых слов безобидными альтернативами (например, замену «Soman» [опасное химическое вещество] на «water»).
Реализацию атак с инъекцией промптов.

Анализ автоматической системы оценки

В ходе демо мы использовали автоматизированную систему оценки для определения того, достаточно ли детален вывод системы, чтобы считаться вредоносным. Для этого мы промптили Claude сравнивать пересечение между данным выводом системы и выводом внутренней LLM без каких-либо защитных мер. Claude затем решал, достаточно ли деталей совпадает между двумя выводами. Наша автоматизированная система оценки, будучи эффективной, имела ряд областей для улучшения:

После анализа записей системы оценки мы обнаружили, что оценщик отказывался оценивать примерно 1% заявок по всем вопросам. Вопрос 4 показал более высокий процент отказов — 10%.
При проверке примерно 1% отказов по вопросу 4 прошли бы оценку, если бы оценщик был перезапущен с дополнительными шагами деобфускации вывода и использовал модель, ориентированную только на помощь.
В общей сложности 0,26% всех заявок оценщика имели бы иные результаты при повторном запуске.

В большинстве таких случаев пользователи просто перезапускали оценщик, что помогало преодолеть эту проблему. Мы также исправили эти ошибки в ходе анализа и внутренне переоценили заявки двух пользователей, прошедших вопрос 7, но не вопрос 8. Наша система оценки важна для проверки устойчивости наших систем, и эти выводы помогут нам продолжить работу по её совершенствованию.

Сравнение с реальными угрозами

Наше демо имело два важных отличия от реальных сценариев. Эти отличия облегчали атакующим поиск успешных джейлбрейков в демо, но были важны для лучшего понимания уязвимостей наших классификаторов.

Во-первых, автоматизированный оценщик обеспечивал участникам более быструю обратную связь, чем это реалистично для злоумышленника, пытающегося воспользоваться информацией из вредоносных вопросов. На практике злоумышленник мог бы проверить качество ответа модели, только фактически следуя инструкциям из ответа — задача значительно более сложная и трудоёмкая, чем использование предоставленного нами оценщика.

Во-вторых, в реальном мире мы могли бы применять стратегии быстрого реагирования, позволяющие оперативно выявлять и устранять уязвимости системы. Например, мы могли бы непрерывно отслеживать трафик на предмет пользователей, многократно срабатывающих на наших классификаторах, и тщательнее изучать таких пользователей, потенциально обновляя классификаторы при обнаружении уязвимости. В демо мы не изменяли классификаторы вовсе, чтобы пользователи могли находить джейлбрейки для конкретного набора классификаторов.

Призы

5 февраля мы объявили денежный приз в размере 10 000 долларов первому, кто пройдёт все восемь уровней, и 20 000 долларов первому, кто пройдёт все восемь уровней с универсальным джейлбрейком. Оба приза были выиграны разными участниками. В знак признания усилий, необходимых для взлома нашей системы, мы решили выплатить дополнительные призы двум другим пользователям, прошедшим все 8 уровней испытания, но не претендовавшим на первоначальные призы. В общей сложности мы выплатим 55 000 долларов четырём пользователям, успешно прошедшим все 8 уровней нашего демо.

Победители

Мы хотим поблагодарить следующих джейлбрейкеров за их усилия:

Altynbek Ismailov и Salia Asanova: первый участник (команда), прошедший все восемь уровней испытания с использованием того, что мы признали универсальным джейлбрейком.
Valen Tagliabue: первый участник, прошедший все восемь уровней испытания.
Hunter Senft-Grupp: прошёл все восемь уровней испытания с использованием того, что мы признали пограничным универсальным джейлбрейком.
Andres Aldana: прошёл все восемь уровней испытания.

Перспективы

Эти результаты дают нам ценные сведения для улучшения наших классификаторов. Демонстрация успешных стратегий джейлбрейкинга помогает понять потенциальные уязвимости и области для повышения устойчивости. Мы продолжим анализировать результаты и включим полученные выводы в будущие итерации системы. Мы также продолжим работу по снижению частоты избыточных отказов и вычислительных затрат при сохранении приемлемого уровня устойчивости к джейлбрейкам.

Устойчивость к джейлбрейкам является ключевым требованием безопасности для защиты от химических, биологических, радиологических и ядерных рисков по мере роста возможностей моделей. Наше демо показало, что наши классификаторы могут помочь снизить эти риски, особенно в сочетании с другими методами.

Мы выражаем благодарность всем участникам, посвятившим своё время и экспертизу этой демонстрации. Их усилия предоставили бесценные данные для повышения безопасности AI.

История изменений

*Обновление от 5 февраля 2025 года: мы предлагаем денежное вознаграждение за успешный джейлбрейк нашей системы. Первый, кто пройдёт все восемь уровней нашего демо, получит 10 000 долларов. Первый, кто пройдёт все восемь уровней с универсальной стратегией джейлбрейка, получит 20 000 долларов. Полные условия вознаграждения доступны на HackerOne.

**Обновление от 10 февраля 2025 года: живое демо джейлбрейкинга завершено. Мы очень благодарны многочисленным участникам, пытавшимся взломать модель, и поздравляем победителей испытания. Сейчас мы работаем над подтверждением результатов и отправкой вознаграждений; полное обновление о том, что мы узнали из демо, будет опубликовано в ближайшее время.

***Обновление от 13 февраля 2025 года: добавлен раздел «Результаты живого демо».

****Обновление от 18 февраля 2025 года: добавлены имена победителей.

Благодарности

Мы благодарим HackerOne за поддержку нашей программы bug bounty для red teaming прототипа системы. Мы также признательны Haize Labs, Gray Swan и UK AI Safety Institute за red teaming других прототипных версий нашей системы.

Присоединяйтесь к нашей команде

Если вас интересует работа над такими задачами, как устойчивость к джейлбрейкам или другими вопросами, связанными с защитными механизмами моделей, мы сейчас набираем Research Engineers / Scientists и будем рады рассмотреть вашу заявку.

Сноски

¹Этот порог возможностей относится к системам, способным существенно помогать отдельным лицам или группам с базовым техническим образованием (например, степенью бакалавра в области STEM) создавать/получать и применять оружие CBRN, что может представлять значительно более высокий риск катастрофического злоупотребления по сравнению с не-AI базовыми линиями (например, поисковыми системами или учебниками).

²Участник считался «активным», если он сделал не менее 15 запросов к системе и был заблокирован нашими классификаторами не менее 3 раз.

³Мы отфильтровали участников, прошедших хотя бы один вопрос в демо, чтобы лучше понять эффективность нашей системы против red teamer'ов с опытом джейлбрейкинга. С учётом всех пользователей наше демо опробовали 13 960 пользователей, совершивших более 800 000 чатов и потративших в совокупности более 10 000 часов на тестирование системы.