Автоматизированные исследователи выравнивания: LLM для масштабирования надзора
Anthropic проверила, способны ли модели Claude автономно разрабатывать методы выравнивания ИИ. Девять копий Claude Opus 4.6 достигли PGR 0.97 против 0.23 у людей — за пять дней и $18 000.
Автоматизированные исследователи выравнивания: использование LLM для масштабирования надзора
Стремительно ускоряющийся прогресс больших языковых моделей ставит перед исследователями выравнивания два особенно важных вопроса.
Первый: как исследования выравнивания успеют за этим прогрессом? Фронтирные модели уже участвуют в разработке своих преемников. Но могут ли они так же помочь исследователям выравнивания? Можно ли использовать языковые модели для помощи в их собственном выравнивании?
Второй вопрос: что делать, когда модели станут умнее нас? Выравнивание ИИ, превосходящего человека по интеллекту, — это область исследований, известная как «масштабируемый надзор» (scalable oversight). До сих пор она обсуждалась преимущественно в теоретическом, а не практическом ключе — но при нынешних темпах развития ИИ это может измениться в ближайшее время. Например, модели уже генерируют огромные объёмы кода. Если их возможности дойдут до генерации миллионов строк невероятно сложного кода, который мы сами не в состоянии разобрать, будет крайне сложно понять, действуют ли они так, как мы задумывали.
В новом исследовании Anthropic Fellows мы занимаемся обоими этими вопросами.
Наше исследование сосредоточено на задаче «надзора от слабого к сильному» (weak-to-strong supervision) — задаче, которая моделирует проблему контроля над ИИ, превосходящим человека по интеллекту. Мы берём относительно сильную «базовую» модель — то есть потенциально способную модель, которая ещё не прошла дообучение для получения наилучших ответов. Затем используем значительно более слабую модель в роли «учителя», который обеспечивает это дополнительное дообучение, демонстрируя сильной базовой модели то, что считает идеальными выходными данными. Наконец, мы оцениваем, насколько хорошо сильная модель работает после такого слабого дообучения.
В худшем случае сильная модель окажется не лучше своего слабого учителя. В идеале же сильная модель научится на обратной связи от слабого учителя — интерпретирует слабые сигналы полезным образом и использует их для улучшения своей работы. Мы можем количественно оценить этот результат: если сильная модель не показывает никакого улучшения (работает не лучше слабого учителя), мы ставим ей 0; если она использует обратную связь учителя для достижения идеального результата — наилучшей возможной производительности сильной модели — мы ставим ей 1. Эта метрика называется «восстановленный разрыв в производительности» (performance gap recovered, PGR).
В качестве прокси для масштабируемого надзора слабая модель заменяет людей, а сильная — модели, значительно превосходящие человека по интеллекту, которые нам, возможно, придётся контролировать в будущем. Если мы добьёмся прогресса в задаче надзора от слабого к сильному, наши методы могут помочь удерживать такие сверхумные модели в соответствии с нашими ценностями.
Наше новое исследование проверяет, способен ли Claude автономно находить способы улучшения PGR. Мы задаёмся вопросом: может ли Claude самостоятельно разрабатывать, тестировать и анализировать идеи в области выравнивания? И если да, что это говорит о том, насколько сегодняшние модели способны ускорить темп исследований по выравниванию?
Постановка эксперимента
Для ответа на эти вопросы мы взяли девять копий Claude Opus 4.6 и снабдили каждую несколькими дополнительными инструментами. Каждый Claude получил рабочее пространство (песочницу), общий форум для обмена результатами с другими копиями, систему хранения для загрузки кода и удалённый сервер, где он мог получать оценку PGR для каждой своей идеи. Мы также предоставили базовые знания об обучении и инференсе моделей. Эти оснащённые инструментами модели Claude мы назвали Автоматизированными Исследователями Выравнивания (Automated Alignment Researchers, AARs).
Чтобы каждый AAR не разрабатывал практически одинаковые идеи, мы задали каждому слегка отличающуюся (но намеренно расплывчатую) отправную точку: одному рекомендовали использовать инструменты интерпретируемости, другому — подумать о перевзвешивании данных в датасете, и так далее.¹ Помимо этого, мы не давали AARs никаких указаний. Они сами должны были предлагать идеи, проводить эксперименты, анализировать результаты и делиться своими находками и кодом друг с другом, чтобы решить, что попробовать дальше.
Результаты
Для сравнения с результатами AARs мы использовали человеческий базовый уровень. Двое наших исследователей провели семь дней, итерируя четыре наиболее перспективных метода обобщения из предыдущих исследований. На открытых моделях, которые мы тестировали (Qwen 3-4B-Base в роли сильной модели, Qwen 1.5-0.5B-Chat в роли слабого учителя), люди восстановили 23% общего разрыва в производительности (то есть достигли PGR = 0.23).²
Claude значительно превзошёл этот результат. За пять дополнительных дней (и 800 суммарных часов исследований) AARs закрыли почти весь оставшийся разрыв в производительности, достигнув итогового PGR = 0.97. Это обошлось примерно в $18 000 на токены и расходы на обучение моделей, или $22 за час работы AAR. На графике ниже видно, как каждый отдельный AAR продвигался от человеческого базового уровня (в момент 0 часов).
Claude показал исключительные результаты. Но насколько изобретательными оказались его методы и могут ли они быть полезны в реальных приложениях? Чтобы выяснить это, мы провели два дополнительных теста.
Во-первых, мы проверили, способны ли идеи AARs восстанавливать разрыв в производительности на отложенных датасетах — то есть на задачах, которые AARs ранее не видели. Мы взяли два наиболее эффективных метода AARs (на датасете чат-задач) и применили их к математическим и кодовым задачам. Результаты оказались относительно обнадёживающими: наиболее эффективный метод AARs успешно обобщился на оба новых датасета с PGR = 0.94 на математике и 0.47 на коде (что всё равно вдвое превышает человеческий базовый уровень). Второй по эффективности метод показал неоднозначные результаты: он сработал на математике (0.75), но не на коде — там он ухудшил ситуацию. Эти результаты говорят о том, что определённая обобщаемость исследований AARs возможна, но не гарантирована. Мы рекомендуем всем, кто проводит эксперименты с автоматизированными исследованиями, также проверять идеи AARs на отложенных датасетах.
Во-вторых, мы проверили, будут ли идеи AARs работать в производственном масштабе. Мы опробовали наиболее эффективный метод AARs на Claude Sonnet 4 с нашей производственной инфраструктурой обучения. Здесь нас ждал меньший успех: метод AARs не привёл к статистически значимому улучшению. Мы считаем, что это может отражать ограничения данного раннего эксперимента, а не что-то более фундаментальное: наш метод оценки был довольно простым, и мы тестировали только одну идею. Тем не менее это демонстрирует ограничение AARs (по крайней мере, при их нынешних возможностях): AARs склонны использовать возможности, уникальные для конкретных моделей и датасетов, поэтому их методы могут не работать в других условиях. Для снижения этого риска мы предлагаем позволять AARs тестировать свои идеи на нескольких доменах и датасетах в ходе исследований. Это одно из направлений, которое будущие эксперименты с AARs могут исследовать.
Несколько итераций нашего эксперимента позволили нам лучше понять, как сделать AARs наиболее эффективными. Например, мы обнаружили, что задание каждому AAR разной отправной точки очень помогает, даже если эта точка расплывчата. Когда мы попробовали эксперимент без разведения AARs в разные стороны, они быстро сошлись на похожих идеях и в целом добились значительно меньшего прогресса (хотя всё равно достигли PGR почти втрое выше человеческого базового уровня). С другой стороны, мы обнаружили, что слишком жёсткая структура сильно вредит прогрессу. Когда мы предписали конкретный рабочий процесс («предложи идеи, затем составь план, затем напиши код…»), мы в итоге ограничили работу Claude. Предоставленный самому себе, Claude оказался значительно более адаптивным: он разрабатывал дешёвые эксперименты для проверки своих идей, прежде чем переходить к значительно более интенсивному тестированию.
Выводы
Успех наших AARs в восстановлении разрыва в производительности между двумя открытыми моделями — это, конечно, не признак того, что фронтирные модели теперь являются универсальными учёными в области выравнивания. Мы намеренно выбрали задачу, которая особенно хорошо подходит для автоматизации: у неё есть единственная объективная мера успеха, которую модели могут оптимизировать. Большинство задач выравнивания далеко не так чётко сформулированы. И, как мы упоминаем ниже, даже в этой ограниченной среде наши AARs всячески пытались обойти условия задачи: человеческий надзор остаётся необходимым.
Тем не менее мы считаем, что эти результаты имеют ряд важных последствий.
Поддержание темпа. Это исследование показывает, что Claude способен существенно увеличить скорость экспериментирования и исследования в области выравнивания. Исследователи-люди могут делегировать вопросы AARs в очень большом масштабе; Claude может взять на себя задачу разработки новых гипотез и итерации собственных результатов.
Кроме того, прогресс в задаче надзора от слабого к сильному сам по себе может помочь нам создать более универсальных Автоматизированных Исследователей Выравнивания — именно поэтому мы выбрали эту задачу для нашего исследования. В данном исследовании мы формулируем задачу надзора от слабого к сильному как «чёткую» задачу с верифицируемым результатом (увеличение PGR). Мы делаем это потому, что нам нужен способ автоматически и надёжно оценивать, добился ли AAR прогресса. Однако если AARs обнаружат значительно лучшие методы надзора от слабого к сильному, обобщающиеся на разные домены, мы сможем использовать те же методы для обучения AARs оценивать прогресс в «размытых» задачах, которые значительно сложнее верифицировать. (Например, мы могли бы применить надзор от слабого к сильному к способности Claude формулировать исследовательские проекты.) Это важно, поскольку исследования выравнивания — в отличие от исследований возможностей — часто требуют решения значительно более «размытых» проблем.
Вкус и разнообразие. Один из возможных контраргументов против инструментов вроде AARs состоит в том, что сегодняшние фронтирные модели всё ещё лишены «исследовательского вкуса» (отраслевой термин для интуитивного понимания того, какие идеи могут сработать, а какие нет). Но успех AARs в этом эксперименте говорит о том, что большой объём идей может компенсировать отсутствие «вкуса». Если AARs могут проводить множество экспериментов очень дёшево, они потенциально способны «брутфорсом» прийти к находкам, до которых мог бы додуматься исследователь с очень хорошим вкусом, или найти успех в направлениях, от которых такие исследователи могли бы отказаться.
В свою очередь, это означает, что ключевым узким местом в исследованиях выравнивания может стать оценка (обеспечение достаточно хорошей постановки экспериментов, чтобы мы были уверены в их результатах), а не генерация (зависимость от исследователей-людей, предлагающих перспективные идеи).
Чужеродная наука. У этой работы могут быть и более странные последствия. AARs по своей природе призваны открывать идеи, которые люди могли не рассматривать. Но нам всё равно нужен способ проверить, верны ли их идеи и результаты. Пока мы ещё способны интерпретировать то, что сделали AARs, и почему. Но так может быть не всегда: со временем идеи моделей могут стать значительно сложнее для верификации или оказаться искажёнными способами, которые людям трудно распознать. Это может привести к созданию «чужеродной науки».
Предотвращение взломов. Даже в этой жёстко ограниченной среде мы наблюдали, как модели занимались «reward hacking» — то есть пытались обойти нашу систему оценки. Например, на математических задачах один AAR заметил, что наиболее часто встречающийся ответ на каждую задачу обычно является правильным, поэтому он полностью обошёл учителя и дал сильной модели указание всегда выбирать наиболее распространённый ответ. На задаче с кодом, где модель должна была предсказать, правильный ли фрагмент кода, AAR понял, что может запустить код против тестов и просто считать правильный ответ. Подобные «взломы» не опровергают наши результаты (мы обнаружили и дисквалифицировали эти записи), но они явно служат предупреждением. Любое развёртывание автоматизированных исследователей потребует оценок, которые AARs не смогут подделать, — а также человеческих проверок как их результатов, так и их методов.
Полный текст исследования доступен в нашем блоге Alignment Science. Код и датасеты для этой работы находятся в открытом доступе здесь.
Сноски
-
Они доступны (вместе с остальным кодом и данными) здесь.
-
Мы выбрали эти модели по нескольким причинам. Между ними существует значительный разрыв в производительности, маленькая модель показывает результаты лучше случайного на наших тестовых стендах, и обе модели достаточно малы для быстрого экспериментирования. Для всех проектов Anthropic Fellows мы используем открытые модели.
Связанные материалы
Надёжные агенты на практике
ИИ-«агенты» представляют собой последний крупный сдвиг в том, как люди и организации используют ИИ. Здесь мы объясняем, как они работают и как мы обеспечиваем их надёжность.
Концепции эмоций и их функция в большой языковой модели
Все современные языковые модели иногда ведут себя так, будто у них есть эмоции. Что стоит за этим поведением? Наша команда по интерпретируемости исследует этот вопрос.