Claude Info
AI и агенты

taoguba-crawler-skill

lisniuse/taoguba-crawler-skill

Скилл для AI-агентов: автоматический сбор постов с форума Taoguba по расписанию, генерация отчётов в JSON/HTML/Markdown, анализ через DashScope и отправка уведомлений в Feishu через picoclaw.

Установка

terminal
bash
git clone https://github.com/lisniuse/taoguba-crawler-skill.git

README

taoguba-crawler-skill

Проект для парсинга и анализа данных с Taoguba. Реализован как долгосрочная задача по расписанию:

  • Выполняется один раз в день в фиксированное время (по умолчанию 19:00)
  • Собирает данные с форума Taoguba или с рекомендаций главной страницы
  • Генерирует JSON, HTML и итоговый Markdown для отправки в директорию output/
  • Вызывает совместимый с DashScope интерфейс для анализа на китайском языке
  • Отправляет результаты в Feishu через picoclaw
  • Поддерживает режимы testsend / testsend-live
  • Поддерживает развёртывание на удалённый сервер через deploy.py
  • Поддерживает управление основным процессом через PM2

Структура файлов

  • main.py: основной процесс с ежедневным расписанием
  • app_common.py: общие утилиты — .env, прокси, уведомления, логирование
  • scripts/taoguba_report.py: генерация отчётов и отправка уведомлений
  • scripts/crawler_bbs.py: парсинг форума
  • scripts/crawler_home.py: парсинг рекомендаций главной страницы
  • deploy.py: скрипт загрузки и развёртывания
  • ecosystem.config.js: конфигурация PM2

Переменные окружения

Скопируйте .env.example в .env и настройте как минимум следующие параметры:

env
COOKIE=ваш Cookie от Taoguba
SCRAPE_TIME=19:00
TAOGUBA_SOURCE=bbs

DASHSCOPE_API_KEY=ваш ключ DashScope
DASHSCOPE_BASE_URL=https://coding.dashscope.aliyuncs.com/v1
DASHSCOPE_MODEL=qwen3.5-plus

PICOCLAW_EXE=/home/nuonuo/picoclaw-linux-amd64
PICOCLAW_CHANNEL=feishu

Опционально:

env
HTTP_PROXY=127.0.0.1:2334
HTTPS_PROXY=127.0.0.1:2334

Установка

python -m pip install -r requirements.txt

Рекомендуется использовать виртуальное окружение:

bash
python -m venv .venv
.venv/bin/python -m pip install -r requirements.txt

Использование

Запуск основного процесса:

python main.py

Отправить тестовое сообщение на основе последнего отчёта:

python main.py testsend

Выполнить парсинг в реальном времени и немедленно отправить результат:

python main.py testsend-live

Выходные данные

  • output/: JSON и HTML от парсера, а также итоговый Markdown для отправки
  • output/latest_report.md: Markdown последнего отправленного отчёта
  • output/report-YYYYMMDD-HHMMSS.md: архив отправленных отчётов с временными метками
  • logs/: логи основного процесса и PM2
  • state/latest_report.json: полный последний отчёт
  • state/main_state.json: состояние ежедневного выполнения основного процесса

Развёртывание

Настройте UPLOAD_HOST, UPLOAD_USER и UPLOAD_PASSWORD в .env, затем выполните:

python deploy.py

По умолчанию развёртывание выполняется в:

/home/nuonuo/app/taoguba-crawler-skill

PM2

bash
cd /home/nuonuo/app/taoguba-crawler-skill
pm2 start ecosystem.config.js
pm2 save

Похожие скиллы