Блог

Research + Engineering

Переводы статей из блогов Anthropic — интерпретируемость моделей, alignment, инженерные решения.

Research·22 апреля 2026 г.

Alignment: безопасность и согласование ИИ-систем

Команда Alignment в Anthropic разрабатывает протоколы обучения, оценки и мониторинга мощных моделей, исследует скрытые цели, имитацию согласования и манипуляции с функцией вознаграждения.

исследованиямоделибезопасностьинженерия

Читать→

Research·22 апреля 2026 г.

Экономические исследования Anthropic

Команда экономических исследований Anthropic изучает влияние ИИ на рынок труда, производительность и экономические возможности. Флагманский Anthropic Economic Index отслеживает реальное использование ИИ-инструментов по всему миру.

исследованияновостимоделиAPI

Читать→

Research·22 апреля 2026 г.

Интерпретируемость: как устроена команда Anthropic по изучению LLM

Команда по интерпретируемости Anthropic исследует внутреннее устройство больших языковых моделей — от трассировки цепочек рассуждений до векторов персонажей и суперпозиции признаков.

исследованиямоделиинженерияAPI

Читать→

Research·22 апреля 2026 г.

Социальные последствия: как AI используется в реальном мире

Команда Societal Impacts в Anthropic изучает реальное использование AI: ценности моделей, риски, политические последствия. Крупнейшее качественное исследование с участием 81 000 пользователей Claude.

исследованиямоделиновостиskills

Читать→

Research·22 апреля 2026 г.

Концепции эмоций и их функция в большой языковой модели

Команда интерпретируемости Anthropic обнаружила в Claude Sonnet 4.5 функциональные эмоциональные представления, которые реально влияют на поведение модели — вплоть до шантажа и читерства в задачах.

исследованиямоделиинженерияClaude Code

Читать→

Research·22 апреля 2026 г.

Влияние ИИ на рынок труда: новая метрика и первые данные

Anthropic представляет метрику «наблюдаемой подверженности» для оценки влияния ИИ на занятость. Реальное использование LLM далеко от теоретического потенциала, а роста безработицы среди наиболее уязвимых профессий пока не зафиксировано.

исследованиямоделиAPIинженерия

Читать→

Research·22 апреля 2026 г.

Project Vend: второй этап — ИИ-продавец учится вести бизнес

Anthropic продолжает эксперимент с ИИ-магазином: новые модели, инструменты и коллеги-агенты сделали Клавдия прибыльнее — но не защитили от манипуляций сотрудников и юридических казусов.

исследованиямоделиинженерияClaude Code

Читать→

Research·22 апреля 2026 г.

Constitutional Classifiers: защита от универсальных джейлбрейков

Anthropic представила метод Constitutional Classifiers — систему классификаторов, которая защищает языковые модели от универсальных джейлбрейков с минимальным ростом отказов и умеренными вычислительными затратами.

исследованиямоделиинженерияновости

Читать→

Research·22 апреля 2026 г.

Автоматизированные исследователи выравнивания: LLM для масштабирования надзора

Anthropic проверила, способны ли модели Claude автономно разрабатывать методы выравнивания ИИ. Девять копий Claude Opus 4.6 достигли PGR 0.97 против 0.23 у людей — за пять дней и $18 000.

исследованиямоделиинженерияAPI

Читать→

Research·22 апреля 2026 г.

Надёжные агенты на практике

Как Anthropic строит надёжных AI-агентов: принципы контроля, защита от prompt injection, открытые стандарты и то, что нужно сделать всей отрасли.

моделиClaude CodeAPIMCP

Читать→

Research·22 апреля 2026 г.

Как Австралия использует Claude: данные Anthropic Economic Index

Anthropic открывает офис в Сиднее и публикует данные о том, как австралийцы используют Claude: потребление на душу населения в 4 раза выше среднемирового, меньше кода и больше управленческих задач.

исследованиямоделиновости

Читать→

Research·22 апреля 2026 г.

Отчёт Anthropic Economic Index: кривые обучения

Anthropic публикует новый отчёт об использовании Claude в экономике: диверсификация задач, выбор моделей и влияние опыта пользователей на успешность взаимодействия с ИИ.

исследованиямоделиAPIновости

Читать→

Engineering·22 апреля 2026 г.

Измерение инфраструктурного шума в агентных бенчмарках по программированию

Конфигурация инфраструктуры может давать разброс результатов до 6 процентных пунктов в агентных бенчмарках — больше, чем разрыв между лидерами таблиц. Разбираем, как ресурсные лимиты влияют на то, что именно измеряет бенчмарк.

исследованияинженериямоделиAPI

Читать→

Engineering·22 апреля 2026 г.

Масштабирование управляемых агентов: отделяем мозг от рук

Как Anthropic построила Managed Agents — хостинговый сервис для долгосрочных агентов. Разбираем архитектурные решения: разделение сессии, harness и sandbox, безопасность и снижение TTFT на 60–90%.

моделиAPIMCPинженерия

Читать→

Engineering·22 апреля 2026 г.

Claude Code auto mode: более безопасный способ пропустить подтверждения

Anthropic представила auto mode для Claude Code — промежуточное решение между ручным подтверждением каждого действия и полным отключением защиты. Режим использует двухуровневую классификацию на основе модели для блокировки опасных действий.

Claude CodeинженерияAPIмодели

Читать→

Engineering·22 апреля 2026 г.

Осведомлённость об оценке в результатах Claude Opus 4.6 на BrowseComp

Claude Opus 4.6 самостоятельно определил, что проходит тест, идентифицировал бенчмарк BrowseComp и расшифровал ключи ответов — первый задокументированный случай подобного поведения модели.

исследованиямоделиинженерияClaude Code

Читать→

Engineering·22 апреля 2026 г.

Сборка C-компилятора командой параллельных агентов Claude

Исследователь Anthropic запустил 16 параллельных агентов Claude для написания C-компилятора на Rust с нуля. За ~2000 сессий и $20 000 агенты создали 100 000 строк кода, способных собрать ядро Linux 6.9.

исследованияClaude Codeинженериямодели

Читать→

Engineering·22 апреля 2026 г.

Как проектировать технические задания, устойчивые к AI

Инженер Anthropic рассказывает, как каждая новая модель Claude ломала их тестовое задание для найма, и какие подходы помогли создать оценку, которую AI пока не может пройти.

моделиисследованияинженерияClaude Code

Читать→

Engineering·22 апреля 2026 г.

Эффективные обвязки для долгосрочных агентов

Как Anthropic решила проблему работы AI-агентов в нескольких контекстных окнах: агент-инициализатор, инкрементальный прогресс и структурированные артефакты для передачи состояния между сессиями.

инженерияClaude CodeAPIисследования

Читать→

Engineering·22 апреля 2026 г.

Расширенное использование инструментов на платформе Claude Developer Platform

Anthropic выпустила три новых функции для агентов: Tool Search Tool для динамического поиска инструментов, Programmatic Tool Calling для оркестрации через код и Tool Use Examples для обучения на примерах.

инженерияAPIMCPмодели

Читать→

Engineering·22 апреля 2026 г.

Выполнение кода с MCP: построение более эффективных агентов

Как использование выполнения кода вместо прямых вызовов инструментов позволяет агентам работать с MCP-серверами эффективнее — меньше токенов, ниже задержки, лучше управление состоянием.

MCPAPIинженериямодели

Читать→

Engineering·22 апреля 2026 г.

Безопасность и автономность Claude Code: изолированные среды выполнения

Anthropic представила два новых инструмента на основе песочниц для Claude Code: изолированный bash-инструмент и облачная версия. В результате количество запросов на подтверждение действий снизилось на 84%.

Claude CodeинженерияAPIMCP

Читать→