Claude Info
AI и агенты

crawl4ai-skill

brettdavies/crawl4ai-skill

Скилл для Claude, позволяющий сканировать сайты, извлекать структурированные данные через CSS/LLM-стратегии и обрабатывать динамический JavaScript-контент. Построен на базе crawl4ai, включает полный SDK-справочник, примеры и тесты.

Установка

terminal
bash
pip install crawl4ai

README

Crawl4AI Claude Skill

Комплексный Claude-скилл для веб-краулинга и извлечения данных с использованием Crawl4AI. Скилл позволяет Claude сканировать сайты, извлекать структурированные данные, работать с JavaScript-насыщенными страницами, обходить несколько URL одновременно и строить автоматизированные пайплайны сбора веб-данных.

Возможности

  • Веб-краулинг: извлечение контента с любого сайта с полной поддержкой JavaScript
  • Извлечение данных: схемное CSS-извлечение (без LLM) и LLM-извлечение
  • Генерация Markdown: чистый, хорошо отформатированный markdown-вывод, оптимизированный для потребления LLM
  • Фильтрация контента: фильтрация по релевантности с BM25 и качественная обрезка
  • Управление сессиями: постоянные сессии для краулинга с аутентификацией
  • Пакетная обработка: параллельный краулинг нескольких URL
  • CLI и SDK: поддержка как интерфейса командной строки, так и Python SDK

Установка

Способ 1: Импорт через ZIP (рекомендуется для Claude Desktop)

  1. Скачайте или клонируйте этот репозиторий

  2. Создайте ZIP-архив директории crawl4ai:

    bash
    cd crawl4ai-skill
    zip -r crawl4ai.zip crawl4ai/
  3. В Claude Desktop перейдите в Settings → Developer → Import Skill

  4. Выберите файл crawl4ai.zip

Способ 2: Git Clone

bash
git clone https://github.com/brettdavies/crawl4ai-skill.git
cd crawl4ai-skill

Затем добавьте директорию скилла в папку скиллов Claude или импортируйте через Claude Desktop.

Предварительные требования

Скилл требует наличия Python-библиотеки Crawl4AI:

bash
pip install crawl4ai
crawl4ai-setup

# Проверка установки
crawl4ai-doctor

Быстрый старт

Использование CLI (рекомендуется для быстрых задач)

bash
# Базовый краулинг — возвращает markdown
crwl https://example.com

# Получить markdown-вывод
crwl https://example.com -o markdown

# JSON-вывод с обходом кэша
crwl https://example.com -o json -v --bypass-cache

Использование Python SDK

py
import asyncio
from crawl4ai import AsyncWebCrawler

async def main():
    async with AsyncWebCrawler() as crawler:
        result = await crawler.arun("https://example.com")
        print(result.markdown[:500])

asyncio.run(main())

Документация

Типичные сценарии использования

Документация в Markdown

crwl https://docs.example.com -o markdown > docs.md

Мониторинг товаров в интернет-магазинах

bash
# Генерация схемы один раз (использует LLM)
python crawl4ai/scripts/extraction_pipeline.py --generate-schema https://shop.com "extract products"

# Использование схемы для извлечения (без затрат на LLM)
crwl https://shop.com -e extract_css.yml -s product_schema.json -o json

Агрегация новостей

bash
# Несколько источников с фильтрацией
for url in news1.com news2.com news3.com; do
  crwl "https://$url" -f filter_bm25.yml -o markdown-fit
done

Скрипты

Скилл включает вспомогательные скрипты в crawl4ai/scripts/:

  • basic_crawler.py — простое извлечение в markdown
  • batch_crawler.py — обработка нескольких URL
  • extraction_pipeline.py — генерация схем и извлечение данных

Тестирование

Запустите набор тестов для проверки корректной работы скилла:

bash
cd crawl4ai/tests
python run_all_tests.py

Маркетплейс

Скилл доступен на маркетплейсах Claude Skills:

Лицензия

MIT License — подробности в файле LICENSE.

Участие в разработке

Вклад приветствуется! Не стесняйтесь открывать Pull Request.

Поддержка

По вопросам, проблемам или запросам новых функций открывайте issue в репозитории GitHub.

История изменений

См. CHANGELOG.md для истории версий и обновлений.

Похожие скиллы