AI и агенты
taoguba-crawler-skill
lisniuse/taoguba-crawler-skillСкилл для AI-агентов: автоматический сбор постов с форума Taoguba по расписанию, генерация отчётов в JSON/HTML/Markdown, анализ через DashScope и отправка уведомлений в Feishu через picoclaw.
Установка
terminal
bash
git clone https://github.com/lisniuse/taoguba-crawler-skill.gitREADME
taoguba-crawler-skill
Проект для парсинга и анализа данных с Taoguba. Реализован как долгосрочная задача по расписанию:
- Выполняется один раз в день в фиксированное время (по умолчанию 19:00)
- Собирает данные с форума Taoguba или с рекомендаций главной страницы
- Генерирует JSON, HTML и итоговый Markdown для отправки в директорию
output/ - Вызывает совместимый с DashScope интерфейс для анализа на китайском языке
- Отправляет результаты в Feishu через picoclaw
- Поддерживает режимы
testsend/testsend-live - Поддерживает развёртывание на удалённый сервер через
deploy.py - Поддерживает управление основным процессом через PM2
Структура файлов
main.py: основной процесс с ежедневным расписаниемapp_common.py: общие утилиты —.env, прокси, уведомления, логированиеscripts/taoguba_report.py: генерация отчётов и отправка уведомленийscripts/crawler_bbs.py: парсинг форумаscripts/crawler_home.py: парсинг рекомендаций главной страницыdeploy.py: скрипт загрузки и развёртыванияecosystem.config.js: конфигурация PM2
Переменные окружения
Скопируйте .env.example в .env и настройте как минимум следующие параметры:
env
COOKIE=ваш Cookie от Taoguba
SCRAPE_TIME=19:00
TAOGUBA_SOURCE=bbs
DASHSCOPE_API_KEY=ваш ключ DashScope
DASHSCOPE_BASE_URL=https://coding.dashscope.aliyuncs.com/v1
DASHSCOPE_MODEL=qwen3.5-plus
PICOCLAW_EXE=/home/nuonuo/picoclaw-linux-amd64
PICOCLAW_CHANNEL=feishuОпционально:
env
HTTP_PROXY=127.0.0.1:2334
HTTPS_PROXY=127.0.0.1:2334Установка
python -m pip install -r requirements.txt
Рекомендуется использовать виртуальное окружение:
bash
python -m venv .venv
.venv/bin/python -m pip install -r requirements.txtИспользование
Запуск основного процесса:
python main.py
Отправить тестовое сообщение на основе последнего отчёта:
python main.py testsend
Выполнить парсинг в реальном времени и немедленно отправить результат:
python main.py testsend-live
Выходные данные
output/: JSON и HTML от парсера, а также итоговый Markdown для отправкиoutput/latest_report.md: Markdown последнего отправленного отчётаoutput/report-YYYYMMDD-HHMMSS.md: архив отправленных отчётов с временными меткамиlogs/: логи основного процесса и PM2state/latest_report.json: полный последний отчётstate/main_state.json: состояние ежедневного выполнения основного процесса
Развёртывание
Настройте UPLOAD_HOST, UPLOAD_USER и UPLOAD_PASSWORD в .env, затем выполните:
python deploy.py
По умолчанию развёртывание выполняется в:
/home/nuonuo/app/taoguba-crawler-skill
PM2
bash
cd /home/nuonuo/app/taoguba-crawler-skill
pm2 start ecosystem.config.js
pm2 save