Crawl4AI Claude Skill

Комплексный Claude-скилл для веб-краулинга и извлечения данных с использованием Crawl4AI. Скилл позволяет Claude сканировать сайты, извлекать структурированные данные, работать с JavaScript-насыщенными страницами, обходить несколько URL одновременно и строить автоматизированные пайплайны сбора веб-данных.

Возможности

Веб-краулинг: извлечение контента с любого сайта с полной поддержкой JavaScript
Извлечение данных: схемное CSS-извлечение (без LLM) и LLM-извлечение
Генерация Markdown: чистый, хорошо отформатированный markdown-вывод, оптимизированный для потребления LLM
Фильтрация контента: фильтрация по релевантности с BM25 и качественная обрезка
Управление сессиями: постоянные сессии для краулинга с аутентификацией
Пакетная обработка: параллельный краулинг нескольких URL
CLI и SDK: поддержка как интерфейса командной строки, так и Python SDK

Установка

Способ 1: Импорт через ZIP (рекомендуется для Claude Desktop)

Скачайте или клонируйте этот репозиторий
Создайте ZIP-архив директории crawl4ai:
bash
```
cd crawl4ai-skill
zip -r crawl4ai.zip crawl4ai/
```
В Claude Desktop перейдите в Settings → Developer → Import Skill
Выберите файл crawl4ai.zip

Способ 2: Git Clone

bash

git clone https://github.com/brettdavies/crawl4ai-skill.git
cd crawl4ai-skill

Затем добавьте директорию скилла в папку скиллов Claude или импортируйте через Claude Desktop.

Предварительные требования

Скилл требует наличия Python-библиотеки Crawl4AI:

bash

pip install crawl4ai
crawl4ai-setup

# Проверка установки
crawl4ai-doctor

Быстрый старт

Использование CLI (рекомендуется для быстрых задач)

bash

# Базовый краулинг — возвращает markdown
crwl https://example.com

# Получить markdown-вывод
crwl https://example.com -o markdown

# JSON-вывод с обходом кэша
crwl https://example.com -o json -v --bypass-cache

Использование Python SDK

import asyncio
from crawl4ai import AsyncWebCrawler

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun("https://example.com")
        print(result.markdown[:500])

asyncio.run(main())

Документация

SKILL.md — полная документация скилла с примерами
Руководство по CLI — справочник интерфейса командной строки
Руководство по SDK — краткий справочник Python SDK
Полный справочник SDK — полная документация API (5900+ строк)

Типичные сценарии использования

Документация в Markdown

crwl https://docs.example.com -o markdown > docs.md

Мониторинг товаров в интернет-магазинах

bash

# Генерация схемы один раз (использует LLM)
python crawl4ai/scripts/extraction_pipeline.py --generate-schema https://shop.com "extract products"

# Использование схемы для извлечения (без затрат на LLM)
crwl https://shop.com -e extract_css.yml -s product_schema.json -o json

Агрегация новостей

bash

# Несколько источников с фильтрацией
for url in news1.com news2.com news3.com; do
  crwl "https://$url" -f filter_bm25.yml -o markdown-fit
done

Скрипты

Скилл включает вспомогательные скрипты в crawl4ai/scripts/:

basic_crawler.py — простое извлечение в markdown
batch_crawler.py — обработка нескольких URL
extraction_pipeline.py — генерация схем и извлечение данных

Тестирование

Запустите набор тестов для проверки корректной работы скилла:

bash

cd crawl4ai/tests
python run_all_tests.py

Маркетплейс

Скилл доступен на маркетплейсах Claude Skills:

Skills.pub

Лицензия

MIT License — подробности в файле LICENSE.

Участие в разработке

Вклад приветствуется! Не стесняйтесь открывать Pull Request.

Поддержка

По вопросам, проблемам или запросам новых функций открывайте issue в репозитории GitHub.

История изменений

См. CHANGELOG.md для истории версий и обновлений.

crawl4ai-skill

Установка

README

Crawl4AI Claude Skill

Возможности

Установка

Способ 1: Импорт через ZIP (рекомендуется для Claude Desktop)

Способ 2: Git Clone

Предварительные требования

Быстрый старт

Использование CLI (рекомендуется для быстрых задач)

Использование Python SDK

Документация

Типичные сценарии использования

Документация в Markdown

Мониторинг товаров в интернет-магазинах

Агрегация новостей

Скрипты

Тестирование

Маркетплейс

Лицензия

Участие в разработке

Поддержка

История изменений

Похожие скиллы

claude-mem

oh-my-openagent

Агенты и оркестрация

NanoClaw