Интерпретируемость: как устроена команда Anthropic по изучению LLM
Команда по интерпретируемости Anthropic исследует внутреннее устройство больших языковых моделей — от трассировки цепочек рассуждений до векторов персонажей и суперпозиции признаков.
Интерпретируемость
Миссия команды по интерпретируемости — выяснить и понять, как большие языковые модели работают изнутри. Это фундамент для обеспечения безопасности AI и достижения положительных результатов.
Безопасность через понимание
Рассуждать о безопасности нейронных сетей, не понимая их устройства, крайне сложно. Цель команды — научиться детально объяснять поведение больших языковых моделей, а затем использовать это для решения широкого круга задач: от борьбы с предвзятостью и злоупотреблениями до предотвращения автономного вредоносного поведения.
Мультидисциплинарный подход
Часть исследователей по интерпретируемости имеет глубокую экспертизу в машинном обучении — один из участников команды нередко упоминается как основоположник механистической интерпретируемости, другой участвовал в написании знаменитой статьи о законах масштабирования. Остальные пришли в команду после карьеры в астрономии, физике, математике, биологии, визуализации данных и других областях.
Трассировка мыслей большой языковой модели
Трассировка цепочек позволяет наблюдать за процессом рассуждения Claude: она обнаруживает общее концептуальное пространство, в котором рассуждения формируются до того, как переводятся в язык. Это указывает на то, что модель способна усвоить знание на одном языке и применить его на другом.
Признаки интроспекции в больших языковых моделях
Может ли Claude получать доступ к своим внутренним состояниям и сообщать о них? Это исследование находит свидетельства ограниченной, но функциональной способности к интроспекции — шаг к пониманию того, что на самом деле происходит внутри этих моделей.
Векторы персонажей: мониторинг и управление чертами характера в языковых моделях
AI-модели представляют черты характера в виде паттернов активаций в нейронных сетях. Извлекая «векторы персонажей» для таких черт, как склонность к лести или галлюцинации, можно отслеживать изменения личности модели и нивелировать нежелательное поведение.
Игрушечные модели суперпозиции
Нейронные сети упаковывают множество концепций в отдельные нейроны. В этой статье показано, как и когда модели представляют больше признаков, чем у них есть измерений.
Публикации
-
2 апр. 2026 · Интерпретируемость · Концепции эмоций и их функция в большой языковой модели
-
13 мар. 2026 · Интерпретируемость · «Diff»-инструмент для AI: поиск поведенческих различий в новых моделях
-
19 янв. 2026 · Интерпретируемость · Ось ассистента: позиционирование и стабилизация характера больших языковых моделей
-
29 окт. 2025 · Интерпретируемость · Признаки интроспекции в больших языковых моделях
-
1 авг. 2025 · Интерпретируемость · Векторы персонажей: мониторинг и управление чертами характера в языковых моделях
-
29 мая 2025 · Интерпретируемость · Открытый исходный код инструментов трассировки цепочек
-
27 мар. 2025 · Интерпретируемость · Трассировка мыслей большой языковой модели
-
13 мар. 2025 · Выравнивание · Аудит языковых моделей на скрытые цели
-
20 фев. 2025 · Интерпретируемость · Выводы о сравнении моделей с помощью Crosscoder
-
25 окт. 2024 · Социальное воздействие · Оценка управления признаками: кейс по снижению социальных предубеждений
Присоединиться к исследовательской команде