crawl4ai-skill
brettdavies/crawl4ai-skillСкилл для Claude, позволяющий сканировать сайты, извлекать структурированные данные через CSS/LLM-стратегии и обрабатывать динамический JavaScript-контент. Построен на базе crawl4ai, включает полный SDK-справочник, примеры и тесты.
Установка
pip install crawl4aiREADME
Crawl4AI Claude Skill
Комплексный Claude-скилл для веб-краулинга и извлечения данных с использованием Crawl4AI. Скилл позволяет Claude сканировать сайты, извлекать структурированные данные, работать с JavaScript-насыщенными страницами, обходить несколько URL одновременно и строить автоматизированные пайплайны сбора веб-данных.
Возможности
- Веб-краулинг: извлечение контента с любого сайта с полной поддержкой JavaScript
- Извлечение данных: схемное CSS-извлечение (без LLM) и LLM-извлечение
- Генерация Markdown: чистый, хорошо отформатированный markdown-вывод, оптимизированный для потребления LLM
- Фильтрация контента: фильтрация по релевантности с BM25 и качественная обрезка
- Управление сессиями: постоянные сессии для краулинга с аутентификацией
- Пакетная обработка: параллельный краулинг нескольких URL
- CLI и SDK: поддержка как интерфейса командной строки, так и Python SDK
Установка
Способ 1: Импорт через ZIP (рекомендуется для Claude Desktop)
-
Скачайте или клонируйте этот репозиторий
-
Создайте ZIP-архив директории
crawl4ai:bashcd crawl4ai-skill zip -r crawl4ai.zip crawl4ai/ -
В Claude Desktop перейдите в Settings → Developer → Import Skill
-
Выберите файл
crawl4ai.zip
Способ 2: Git Clone
git clone https://github.com/brettdavies/crawl4ai-skill.git
cd crawl4ai-skillЗатем добавьте директорию скилла в папку скиллов Claude или импортируйте через Claude Desktop.
Предварительные требования
Скилл требует наличия Python-библиотеки Crawl4AI:
pip install crawl4ai
crawl4ai-setup
# Проверка установки
crawl4ai-doctorБыстрый старт
Использование CLI (рекомендуется для быстрых задач)
# Базовый краулинг — возвращает markdown
crwl https://example.com
# Получить markdown-вывод
crwl https://example.com -o markdown
# JSON-вывод с обходом кэша
crwl https://example.com -o json -v --bypass-cacheИспользование Python SDK
import asyncio
from crawl4ai import AsyncWebCrawler
async def main():
async with AsyncWebCrawler() as crawler:
result = await crawler.arun("https://example.com")
print(result.markdown[:500])
asyncio.run(main())Документация
- SKILL.md — полная документация скилла с примерами
- Руководство по CLI — справочник интерфейса командной строки
- Руководство по SDK — краткий справочник Python SDK
- Полный справочник SDK — полная документация API (5900+ строк)
Типичные сценарии использования
Документация в Markdown
crwl https://docs.example.com -o markdown > docs.md
Мониторинг товаров в интернет-магазинах
# Генерация схемы один раз (использует LLM)
python crawl4ai/scripts/extraction_pipeline.py --generate-schema https://shop.com "extract products"
# Использование схемы для извлечения (без затрат на LLM)
crwl https://shop.com -e extract_css.yml -s product_schema.json -o jsonАгрегация новостей
# Несколько источников с фильтрацией
for url in news1.com news2.com news3.com; do
crwl "https://$url" -f filter_bm25.yml -o markdown-fit
doneСкрипты
Скилл включает вспомогательные скрипты в crawl4ai/scripts/:
- basic_crawler.py — простое извлечение в markdown
- batch_crawler.py — обработка нескольких URL
- extraction_pipeline.py — генерация схем и извлечение данных
Тестирование
Запустите набор тестов для проверки корректной работы скилла:
cd crawl4ai/tests
python run_all_tests.pyМаркетплейс
Скилл доступен на маркетплейсах Claude Skills:
Лицензия
MIT License — подробности в файле LICENSE.
Участие в разработке
Вклад приветствуется! Не стесняйтесь открывать Pull Request.
Поддержка
По вопросам, проблемам или запросам новых функций открывайте issue в репозитории GitHub.
История изменений
См. CHANGELOG.md для истории версий и обновлений.