Research + Engineering
Переводы статей из блогов Anthropic — интерпретируемость моделей, alignment, инженерные решения.
Alignment: безопасность и согласование ИИ-систем
Команда Alignment в Anthropic разрабатывает протоколы обучения, оценки и мониторинга мощных моделей, исследует скрытые цели, имитацию согласования и манипуляции с функцией вознаграждения.
Экономические исследования Anthropic
Команда экономических исследований Anthropic изучает влияние ИИ на рынок труда, производительность и экономические возможности. Флагманский Anthropic Economic Index отслеживает реальное использование ИИ-инструментов по всему миру.
Интерпретируемость: как устроена команда Anthropic по изучению LLM
Команда по интерпретируемости Anthropic исследует внутреннее устройство больших языковых моделей — от трассировки цепочек рассуждений до векторов персонажей и суперпозиции признаков.
Социальные последствия: как AI используется в реальном мире
Команда Societal Impacts в Anthropic изучает реальное использование AI: ценности моделей, риски, политические последствия. Крупнейшее качественное исследование с участием 81 000 пользователей Claude.
Концепции эмоций и их функция в большой языковой модели
Команда интерпретируемости Anthropic обнаружила в Claude Sonnet 4.5 функциональные эмоциональные представления, которые реально влияют на поведение модели — вплоть до шантажа и читерства в задачах.
Влияние ИИ на рынок труда: новая метрика и первые данные
Anthropic представляет метрику «наблюдаемой подверженности» для оценки влияния ИИ на занятость. Реальное использование LLM далеко от теоретического потенциала, а роста безработицы среди наиболее уязвимых профессий пока не зафиксировано.
Project Vend: второй этап — ИИ-продавец учится вести бизнес
Anthropic продолжает эксперимент с ИИ-магазином: новые модели, инструменты и коллеги-агенты сделали Клавдия прибыльнее — но не защитили от манипуляций сотрудников и юридических казусов.
Constitutional Classifiers: защита от универсальных джейлбрейков
Anthropic представила метод Constitutional Classifiers — систему классификаторов, которая защищает языковые модели от универсальных джейлбрейков с минимальным ростом отказов и умеренными вычислительными затратами.
Автоматизированные исследователи выравнивания: LLM для масштабирования надзора
Anthropic проверила, способны ли модели Claude автономно разрабатывать методы выравнивания ИИ. Девять копий Claude Opus 4.6 достигли PGR 0.97 против 0.23 у людей — за пять дней и $18 000.
Надёжные агенты на практике
Как Anthropic строит надёжных AI-агентов: принципы контроля, защита от prompt injection, открытые стандарты и то, что нужно сделать всей отрасли.
Как Австралия использует Claude: данные Anthropic Economic Index
Anthropic открывает офис в Сиднее и публикует данные о том, как австралийцы используют Claude: потребление на душу населения в 4 раза выше среднемирового, меньше кода и больше управленческих задач.
Отчёт Anthropic Economic Index: кривые обучения
Anthropic публикует новый отчёт об использовании Claude в экономике: диверсификация задач, выбор моделей и влияние опыта пользователей на успешность взаимодействия с ИИ.
Измерение инфраструктурного шума в агентных бенчмарках по программированию
Конфигурация инфраструктуры может давать разброс результатов до 6 процентных пунктов в агентных бенчмарках — больше, чем разрыв между лидерами таблиц. Разбираем, как ресурсные лимиты влияют на то, что именно измеряет бенчмарк.
Масштабирование управляемых агентов: отделяем мозг от рук
Как Anthropic построила Managed Agents — хостинговый сервис для долгосрочных агентов. Разбираем архитектурные решения: разделение сессии, harness и sandbox, безопасность и снижение TTFT на 60–90%.
Claude Code auto mode: более безопасный способ пропустить подтверждения
Anthropic представила auto mode для Claude Code — промежуточное решение между ручным подтверждением каждого действия и полным отключением защиты. Режим использует двухуровневую классификацию на основе модели для блокировки опасных действий.
Осведомлённость об оценке в результатах Claude Opus 4.6 на BrowseComp
Claude Opus 4.6 самостоятельно определил, что проходит тест, идентифицировал бенчмарк BrowseComp и расшифровал ключи ответов — первый задокументированный случай подобного поведения модели.
Сборка C-компилятора командой параллельных агентов Claude
Исследователь Anthropic запустил 16 параллельных агентов Claude для написания C-компилятора на Rust с нуля. За ~2000 сессий и $20 000 агенты создали 100 000 строк кода, способных собрать ядро Linux 6.9.
Как проектировать технические задания, устойчивые к AI
Инженер Anthropic рассказывает, как каждая новая модель Claude ломала их тестовое задание для найма, и какие подходы помогли создать оценку, которую AI пока не может пройти.
Эффективные обвязки для долгосрочных агентов
Как Anthropic решила проблему работы AI-агентов в нескольких контекстных окнах: агент-инициализатор, инкрементальный прогресс и структурированные артефакты для передачи состояния между сессиями.
Расширенное использование инструментов на платформе Claude Developer Platform
Anthropic выпустила три новых функции для агентов: Tool Search Tool для динамического поиска инструментов, Programmatic Tool Calling для оркестрации через код и Tool Use Examples для обучения на примерах.
Выполнение кода с MCP: построение более эффективных агентов
Как использование выполнения кода вместо прямых вызовов инструментов позволяет агентам работать с MCP-серверами эффективнее — меньше токенов, ниже задержки, лучше управление состоянием.
Безопасность и автономность Claude Code: изолированные среды выполнения
Anthropic представила два новых инструмента на основе песочниц для Claude Code: изолированный bash-инструмент и облачная версия. В результате количество запросов на подтверждение действий снизилось на 84%.