Claude Architecture Map

Полная карта компонентов, связей и потоков данных в экосистеме Claude. Все данные из официальной документации Anthropic (docs.anthropic.com). Версия 1 / Апрель 2026

Содержание
1. Пользовательские интерфейсы 2. Инструменты разработчика (SDK и API) 3. Claude API — эндпоинты 4. Модели 5. Возможности моделей 6. Инструменты (Tools) 7. Инфраструктура инструментов 8. MCP (Model Context Protocol) 9. Управление контекстом 10. Агентный слой 11. Администрирование 12. Жизненный цикл запроса 13. Ценообразование

1. Пользовательские интерфейсы

Способы взаимодействия с Claude без написания кода. Все интерфейсы используют один и тот же Claude API под капотом.

claude.ai

Основной веб-чат. Поддерживает артефакты (генерация HTML, React, SVG прямо в чате), проекты (группировка чатов с общим контекстом), memory (Claude запоминает информацию между чатами), загрузку файлов (PDF, изображения, документы), подключение внешних MCP-коннекторов (GitHub, Gmail, Notion и др. через меню "Search and tools").

claude.ai

Claude Code

Терминальный AI-агент для кодинга. Работает в CLI, читает и пишет файлы, запускает команды, поддерживает субагентов (параллельные агенты на подзадачи). Конфигурируется через CLAUDE.md в корне проекта. Поддерживает hooks (shell-команды до/после действий), plugins, и локальные MCP-серверы через STDIO.

docs → claude-code/overview

Claude Desktop

Нативное десктоп-приложение (macOS, Windows). Поддерживает локальные MCP-серверы через файл конфигурации claude_desktop_config.json. MCP-серверы запускаются как локальные процессы (STDIO transport) и работают с локальными файлами, базами данных, и API.

modelcontextprotocol.io → connect-local-servers

Cowork

Десктоп-инструмент для не-разработчиков. Автоматизация задач с файлами: обработка документов, организация, конвертация. Поддерживает remote MCP-коннекторы (как claude.ai). Бета-продукт.

Claude in Chrome

Браузерный агент (бета). Управляет вкладками Chrome, читает содержимое страниц, заполняет формы, навигирует по сайтам. Использует собственный набор инструментов: computer, navigate, read_page, form_input, javascript_tool и др.

Mobile apps

Нативные приложения для iOS и Android. Функционально аналогичны claude.ai: чат, загрузка файлов, memory, MCP-коннекторы. Поддерживают камеру для фото-ввода.

2. Инструменты разработчика

Программный доступ к Claude для интеграции в приложения.

Python SDK
pip install anthropic

Официальный SDK. Автоматическая аутентификация (читает ANTHROPIC_API_KEY из env), типизация, retry с экспоненциальным backoff, поддержка streaming (SSE), async/sync клиенты.

from anthropic import Anthropic
client = Anthropic()
TypeScript SDK
npm install @anthropic-ai/sdk

Официальный SDK для Node.js/Deno/Bun. Полная типизация TypeScript, async/await, streaming через async iterators. Тот же набор возможностей что и Python SDK.

Agent SDK
Python: anthropic[agent-sdk]
TS: @anthropic-ai/agent-sdk

Тот же движок, который работает внутри Claude Code, доступный программно. Предоставляет: agent loop (цикл думай-действуй-наблюдай), встроенные инструменты (bash, text_editor, web_search), подключение MCP-серверов, субагенты, hooks, structured outputs. Позволяет строить автономных агентов на Python или TypeScript.

docs → agent-sdk/overview

REST API напрямую
POST https://api.anthropic.com/v1/messages

Любой язык программирования через HTTP. Требует заголовки: x-api-key (API-ключ), anthropic-version (версия API, напр. 2023-06-01), Content-Type: application/json.

Сторонние платформы

Claude доступен на Amazon Bedrock (ID: anthropic.claude-opus-4-6-v1), Google Vertex AI, и Microsoft Foundry. Те же модели, но оплата и аутентификация через облачного провайдера. MCP connector в API на Bedrock и Vertex пока не поддерживается.

docs → claude-on-amazon-bedrock

3. Claude API — эндпоинты

RESTful API на api.anthropic.com. Единая точка входа для всех взаимодействий с моделями Claude.

Messages API
POST /v1/messages

Основной эндпоинт. Принимает: model (ID модели), messages (массив сообщений user/assistant), system (системный промпт), tools (определения инструментов), max_tokens (лимит выхода), temperature, stream (SSE). Возвращает текст, tool_use блоки, thinking блоки.

GA
Message Batches API
POST /v1/messages/batches

Асинхронная обработка больших объёмов запросов. Скидка 50% на все токены. До 100,000 запросов или 256MB на батч. Результаты доступны до 29 дней. Opus 4.6 и Sonnet 4.6 поддерживают до 300K output токенов через beta header output-300k-2026-03-24.

GA
Token Counting API
POST /v1/messages/count_tokens

Подсчёт токенов до отправки запроса. Позволяет заранее оценить стоимость и проверить, помещается ли контекст в окно модели.

GA
Models API
GET /v1/models

Список доступных моделей. Возвращает max_input_tokens, max_tokens (output), и объект capabilities для каждой модели. Позволяет программно определить, какие фичи поддерживает конкретная модель.

GA
Files API
POST /v1/files, GET /v1/files

Загрузка и управление файлами для использования в нескольких запросах. Файл загружается один раз, затем ссылка на него передаётся в messages. Экономит трафик при повторном использовании.

GA
Skills API
POST /v1/skills, GET /v1/skills

Создание и управление кастомными навыками агентов. Skill — это переиспользуемый набор инструкций и поведения, который можно подключить к агенту.

GA
Admin API

Управление организацией: workspaces (сегментация ключей и расходов), участники, роли. Отдельный от основного API, работает через admin.anthropic.com или через API-ключи с admin-правами.

GA

4. Модели

Три линейки моделей, отличающиеся балансом между интеллектом, скоростью и ценой.

Модель API ID Контекст (вход) Max выход Цена (input/output за 1M) Назначение
Opus 4.6 claude-opus-4-6 1M токенов 32K (sync), 300K (batch) $5 / $25 Самая умная модель. Кодинг, агенты, сложные рассуждения, enterprise
Sonnet 4.6 claude-sonnet-4-6 1M токенов 64K (sync), 300K (batch) $3 / $15 Баланс ум/скорость. Кодинг, агенты, рабочие нагрузки
Haiku 4.5 claude-haiku-4-5-20251001 200K токенов 8K $1 / $5 Быстрая и дешёвая. Классификация, роутинг, простые задачи
Все модели поддерживают: текст и изображения на вход, текст на выход, мультиязычность, vision. Opus 4.6 и Sonnet 4.6 поддерживают 1M контекст по стандартной цене (без наценки за long-context). Output по 5x от input — длина ответа часто самый большой рычаг стоимости. Источник: docs → pricing

5. Возможности моделей

Фичи, которые контролируют как модель рассуждает и форматирует ответы. Включаются через параметры в Messages API.

Extended thinking

Модель генерирует внутренний блок рассуждений (thinking) перед ответом. Thinking-токены оплачиваются как output-токены по стандартной ставке. Минимальный бюджет: 1024 токена. Улучшает качество на сложных задачах: математика, кодинг, анализ. Thinking-блок не виден пользователю по умолчанию.

GA

docs → extended-thinking

Adaptive thinking

Модель автоматически подбирает глубину рассуждений под задачу. Простой вопрос — мало thinking, сложный — много. Не требует ручной настройки бюджета thinking-токенов.

GA
Effort control

Ручная настройка усилий модели: low, medium, high. Позволяет контролировать баланс скорость/качество. Отличается от extended thinking тем, что влияет на всю генерацию, а не только на thinking-блок.

GA
Fast mode

Режим ускоренной генерации для задач, где скорость важнее максимального качества. Beta research preview.

Beta
Structured outputs

Гарантированный JSON-ответ по заданной JSON-схеме. Включается через strict: true в tool definitions. Claude всегда вернёт валидный JSON, точно соответствующий схеме. JSON-схемы кэшируются до 24 часов.

GA
Citations

Ссылки на конкретные предложения из источников. Работает с search results, загруженными документами. Каждая цитата указывает на индекс документа и предложения.

GA
Streaming

SSE (Server-Sent Events) поток токенов в реальном времени. Каждый токен отправляется по мере генерации. Типы событий: message_start, content_block_start, content_block_delta, content_block_stop, message_stop. Позволяет показывать ответ пользователю по мере генерации.

GA
Vision

Анализ изображений: фото, скриншоты, графики, диаграммы. Поддерживает PNG, JPEG, GIF, WebP. До 20 изображений за запрос. Изображения передаются как base64 или через URL. Токены считаются по формуле на основе размера изображения.

GA
PDF support

Чтение PDF файлов. PDF конвертируется в изображения (каждая страница — отдельное изображение). Поддерживает таблицы, графики, текст, формулы. Подходит для документов, отчётов, научных статей.

GA
Batch processing

Асинхронная обработка до 100K запросов. Скидка 50% на все токены. Результаты в течение 24 часов (обычно быстрее). Идеально для: генерация контента, классификация данных, обработка документов.

GA
Embeddings

Anthropic НЕ предоставляет собственную модель эмбеддингов. Документация рекомендует сторонние решения: Voyage AI, и др. Это часто путает новых пользователей.

6. Инструменты (Tools)

Tools позволяют Claude выполнять действия в реальном мире. Делятся на два типа по месту исполнения.

Server tools — исполняются на инфраструктуре Anthropic

Результат возвращается inline в потоке ответа. Клиент не участвует в исполнении. Могут иметь дополнительную стоимость сверх токенов.

web_search
type: web_search_20250305
Server tool

Поиск в интернете. Возвращает до 10 результатов с заголовками, URL, сниппетами. Claude автоматически цитирует источники. Стоимость: $10 за 1000 поисков + токены.

web_fetch
type: web_fetch_20250305
Server tool

Загрузка полного содержимого веб-страницы по URL. Извлекает текст в markdown. Без дополнительной платы сверх токенов.

code_execution
type: code_execution_20250522
Server tool

Исполнение Python-кода в изолированной песочнице Anthropic. Возвращает stdout/stderr. Бесплатно при использовании вместе с web_search или web_fetch. Отдельно — оплата по времени исполнения.

tool_search
type: tool_search_tool_regex_20251119
type: tool_search_tool_bm25_20251119
Server tool

Поиск по каталогу инструментов. Два режима: regex (точное совпадение по имени) и BM25 (семантический поиск по описаниям). Возвращает 3-5 наиболее релевантных tool_reference блоков, которые автоматически раскрываются в полные определения. Добавляет ~500 токенов overhead.

docs → tool-search-tool

Client tools — исполняются на стороне клиента

Claude возвращает tool_use блок с именем инструмента и JSON-аргументами. Клиент исполняет действие и отправляет tool_result обратно. Цикл продолжается пока модель не решит, что задача выполнена (stop_reason: end_turn).

Custom tools (ваши)
Client tool

Определяются через JSON-схему: name, description, input_schema. Claude решает когда вызвать на основе описания. Вы определяете логику исполнения. Поддержка parallel tool use (несколько вызовов за один ход) и strict mode (гарантия соответствия схеме).

Bash tool
type: bash_20250124
Client tool

Anthropic-schema tool для shell-команд. Предоставляется Anthropic (стандартная схема), но исполняется на вашей стороне. Claude отправляет команду, вы запускаете и возвращаете результат. Добавляет 245 input-токенов к каждому запросу.

Text editor tool
type: text_editor_20250124
Client tool

Anthropic-schema tool для редактирования файлов. Операции: view (чтение), str_replace (замена уникальной строки), create (создание файла). Вы исполняете операции в файловой системе.

Computer use tool
type: computer_20250124
Client tool

Управление компьютером через мышь и клавиатуру. Claude отправляет действия (click, type, screenshot), вы исполняете через драйвер (например, PyAutoGUI) и возвращаете скриншот результата.

Ключевое отличие: server tools исполняются Anthropic и результат приходит сразу в потоке ответа. Client tools требуют вашего кода для исполнения и отправки tool_result обратно — это создаёт "агентный цикл" (agentic loop). Источник: docs → tool-use/overview

7. Инфраструктура инструментов

Механизмы обнаружения, оркестрации и масштабирования инструментов.

Tool search (deferred loading)

Решает проблему "context bloat" — когда определения сотен инструментов съедают контекстное окно. Вместо загрузки всех tool definitions сразу, Claude видит только индекс (имена и описания) и подгружает полные определения по запросу. Результат: экономия 85%+ контекста. Типичный пример: 50+ MCP tools потребляют ~77K токенов без tool search, и ~8.7K с tool search.

docs → tool-search-tool

Manage tool context

Стратегии управления контекстом при использовании инструментов: фильтрация tool_result (не возвращать лишние данные), усечение длинных результатов, кэширование определений.

Parallel tool use

Claude может вызвать несколько инструментов в одном ходу (несколько tool_use блоков в одном ответе). Клиент исполняет все параллельно и отправляет все tool_result в одном сообщении.

Strict tool use

Гарантия что аргументы tool_use точно соответствуют JSON-схеме. Включается через strict: true в определении инструмента. Если модель не может сгенерировать валидные аргументы, она не вызовет инструмент.

Programmatic tool calling

Принудительный вызов конкретного инструмента через tool_choice: auto (модель решает), any (обязательно вызвать хотя бы один), tool (конкретный инструмент по имени), none (запретить вызовы).

8. MCP (Model Context Protocol)

Открытый стандарт для подключения AI к внешним инструментам и источникам данных. Позволяет Claude работать с базами данных, API, файловыми системами без написания кастомных интеграций.

MCP connector (в API)
параметр: mcp_servers[]
beta header: mcp-client-2025-11-20

Подключение к удалённым MCP-серверам прямо из Messages API. Сервер должен быть публично доступен через HTTP. Только tool calls поддерживаются (не prompts/resources из MCP спецификации). Anthropic подключается к серверу от своего имени — сервер должен быть доступен из интернета. Не поддерживается на Bedrock и Vertex.

docs → mcp-connector

Локальные MCP (STDIO)

MCP-серверы как локальные процессы. Работают только в Claude Code и Claude Desktop. Сервер запускается командой (npx, python, node) и общается через stdin/stdout. Примеры: файловая система, PostgreSQL, git. Конфигурируются в claude_desktop_config.json или .claude.json.

Remote MCP (HTTP/SSE)

MCP-серверы доступные через интернет. Работают во всех клиентах: claude.ai, Desktop, Cowork, mobile. Два транспорта: Streamable HTTP (новый, рекомендуемый) и SSE (legacy). Поддержка auth headers и OAuth 2.1. Примеры: GitHub, Slack, Gmail, Notion, Figma, Canva, Supabase, Vercel, ClickUp, Sentry.

support → custom-connectors

MCP в Agent SDK

Agent SDK автоматически управляет MCP-подключениями. Поддерживает все транспорты. MCP-серверы определяются в опциях агента, SDK сам подключается, получает список инструментов, и предоставляет их модели.

Важно: MCP connector НЕ покрывается ZDR (Zero Data Retention). Данные, обмениваемые с MCP-серверами, хранятся по стандартной политике Anthropic. Для ZDR-eligibility см. docs → data-retention

9. Управление контекстом

Всё, что модель "видит" при генерации ответа — это контекстное окно. Эти механизмы управляют его эффективностью.

Context windows

Максимальный объём информации, который модель обрабатывает за один запрос. Opus 4.6 и Sonnet 4.6: 1M токенов (~750K слов). Haiku 4.5: 200K токенов. Контекст включает: system prompt + conversation history + tool definitions + файлы. Всё, что за пределами окна — модель не видит.

Prompt caching

Кэширование повторяющихся частей контекста (system prompt, tool definitions, длинные документы). Cache hit стоит 10% от стандартной цены input. Два режима: 5-минутный кэш (write = 1.25x) и 1-часовой кэш (write = 2x). Кэширование окупается уже после 1-2 повторных запросов.

docs → prompt-caching

Compaction

Автоматическое сжатие контекста когда окно переполняется. Модель резюмирует историю, сохраняя суть и убирая детали. Используется в Claude Code и Agent SDK для длинных сессий.

docs → compaction

Context editing

Ручное редактирование контекстного окна: удаление ненужных сообщений, замена блоков. Позволяет освободить место для нового контента без потери важной информации.

10. Агентный слой

Компоненты для построения автономных AI-агентов. Доступны через Claude Code и Agent SDK.

Agent loop

Цикл: модель думает → вызывает инструмент → получает результат → думает снова. Продолжается пока модель не решит, что задача выполнена (stop_reason: end_turn). Agent SDK и Claude Code управляют этим циклом автоматически.

Subagents

Параллельные агенты, каждый на свою подзадачу. Главный агент координирует работу, назначает задачи, и объединяет результаты. Доступно в Claude Code и Agent SDK.

CLAUDE.md

Markdown-файл в корне проекта. Claude Code читает его в начале каждой сессии. Содержит: стандарты кода, архитектурные решения, предпочтительные библиотеки, чеклисты ревью. Также Claude сохраняет auto memory — выученные паттерны между сессиями.

Hooks

Shell-команды, выполняемые до или после действий Claude Code. Примеры: автоформатирование после редактирования файла, запуск lint перед коммитом. Конфигурируются в settings.json.

Plugins

Переиспользуемые пакеты для Claude Code, включающие MCP-серверы, hooks, и slash-команды. Устанавливаются на уровне команды — все участники получают одинаковые инструменты.

Agent Skills

Переиспользуемые навыки через Skills API. Skill — это набор инструкций, определяющий поведение агента для конкретной задачи. Может включать промпты, примеры, ограничения. Подключается через API или claude.ai.

docs → agent-skills/overview

11. Администрирование

Управление доступом, расходами, и соответствием требованиям.

Data residency

Параметр inference_geo в Messages API. Определяет где запускается инференс модели. Поддерживаемые регионы: US, EU. US-only inference = наценка 1.1x на все токены. Global routing (по умолчанию) — стандартная цена.

Workspaces

Сегментация API-ключей и расходов. Каждый workspace — свои ключи, свои лимиты, свой биллинг. Позволяет разделять расходы по проектам, командам, клиентам.

Usage and Cost API

Мониторинг расхода токенов и денег по моделям, ключам, и workspaces. Позволяет строить дашборды и алерты.

Data retention (ZDR)

Zero Data Retention — промпты и ответы не хранятся. Доступно для enterprise. Исключения: MCP connector, tool search (каталог инструментов хранится), web search с dynamic filtering. Structured outputs — только JSON-схемы кэшируются до 24 часов.

docs → data-retention

12. Жизненный цикл запроса

Пошаговый путь сообщения от пользователя до ответа.

1
Отправка запроса

Клиент отправляет POST /v1/messages с параметрами: model, messages[], system, tools[], max_tokens, stream. Заголовки: x-api-key, anthropic-version, Content-Type: application/json.

2
Аутентификация и rate limits

API проверяет API-ключ, права доступа, и лимиты: RPM (requests per minute), ITPM (input tokens per minute), OTPM (output tokens per minute). При превышении — 429 Too Many Requests.

3
Сборка контекстного окна

API собирает полный контекст для модели: system prompt + conversation history (все messages) + tool definitions + загруженные файлы/изображения. Если prompt caching включен — проверяет cache hit для повторяющегося префикса.

4
Инференс модели

Выбранная модель обрабатывает контекст. Если extended thinking включен — сначала генерирует thinking-блок (внутренние рассуждения), затем основной ответ. Inference_geo определяет регион исполнения.

5
Генерация и stop_reason

Модель генерирует токены. Три возможных stop_reason:

end_turn — модель закончила ответ. Финальный текст отправляется клиенту.

tool_use — модель хочет вызвать инструмент. Возвращает tool_use блок с именем и JSON-аргументами.

max_tokens — достигнут лимит output-токенов. Ответ обрезан.

6
Обработка tool_use (если есть)

Server tools (web_search, code_execution, web_fetch, tool_search): Anthropic исполняет на своей инфраструктуре. Результат появляется в потоке ответа автоматически.

Client tools (bash, text_editor, computer, ваши кастомные): API возвращает tool_use блок клиенту. Клиент исполняет действие и отправляет новый запрос с tool_result в messages.

MCP tools: MCP connector подключается к удалённому серверу, вызывает tool, получает результат. Для API — работает как server tool (результат inline). Для Agent SDK/Claude Code — может быть и локальный (STDIO).

7
Цикл продолжается

После получения tool_result, модель снова обрабатывает контекст (теперь включающий результат инструмента) и генерирует следующий ответ. Цикл повторяется до stop_reason: end_turn.

8
Финальный ответ

Модель возвращает финальный контент: текст, citations (если был web_search), structured output (если strict mode). При streaming — каждый токен отправляется через SSE по мере генерации. Usage в ответе содержит точный подсчёт: input_tokens, output_tokens, cache_creation_input_tokens, cache_read_input_tokens.

13. Ценообразование

Все цены за 1 миллион токенов (MTok). 1M токенов ~ 750,000 слов. Данные актуальны на апрель 2026.

Базовые цены моделей

МодельInput / MTokOutput / MTokCache writeCache read
Opus 4.6$5.00$25.001.25x input (5min) / 2x (1hr)0.1x input
Sonnet 4.6$3.00$15.001.25x / 2x0.1x
Haiku 4.5$1.00$5.001.25x / 2x0.1x

Модификаторы стоимости

МодификаторЭффект
Batch API-50% на input и output
Prompt caching (cache hit)-90% на закэшированные input токены
Data residency (US-only)+10% на все категории токенов
Extended thinkingThinking-токены = output rate (без наценки)

Стоимость server tools

ToolСтоимость
web_search$10 за 1000 поисков + стандартные токены
web_fetchБез доп. платы, только токены
code_executionБесплатно с web_search/web_fetch; отдельно — по времени
tool_search~500 токенов overhead
Tool use system prompt~313-346 доп. input-токенов при наличии хотя бы 1 tool
bash tool+245 input-токенов

Источник: docs → pricing