taoguba-crawler-skill

Проект для парсинга и анализа данных с Taoguba. Реализован как долгосрочная задача по расписанию:

Выполняется один раз в день в фиксированное время (по умолчанию 19:00)
Собирает данные с форума Taoguba или с рекомендаций главной страницы
Генерирует JSON, HTML и итоговый Markdown для отправки в директорию output/
Вызывает совместимый с DashScope интерфейс для анализа на китайском языке
Отправляет результаты в Feishu через picoclaw
Поддерживает режимы testsend / testsend-live
Поддерживает развёртывание на удалённый сервер через deploy.py
Поддерживает управление основным процессом через PM2

Структура файлов

main.py: основной процесс с ежедневным расписанием
app_common.py: общие утилиты — .env, прокси, уведомления, логирование
scripts/taoguba_report.py: генерация отчётов и отправка уведомлений
scripts/crawler_bbs.py: парсинг форума
scripts/crawler_home.py: парсинг рекомендаций главной страницы
deploy.py: скрипт загрузки и развёртывания
ecosystem.config.js: конфигурация PM2

Переменные окружения

Скопируйте .env.example в .env и настройте как минимум следующие параметры:

env

COOKIE=ваш Cookie от Taoguba
SCRAPE_TIME=19:00
TAOGUBA_SOURCE=bbs

DASHSCOPE_API_KEY=ваш ключ DashScope
DASHSCOPE_BASE_URL=https://coding.dashscope.aliyuncs.com/v1
DASHSCOPE_MODEL=qwen3.5-plus

PICOCLAW_EXE=/home/nuonuo/picoclaw-linux-amd64
PICOCLAW_CHANNEL=feishu

Опционально:

env

HTTP_PROXY=127.0.0.1:2334
HTTPS_PROXY=127.0.0.1:2334

Установка

python -m pip install -r requirements.txt

Рекомендуется использовать виртуальное окружение:

bash

python -m venv .venv
.venv/bin/python -m pip install -r requirements.txt

Использование

Запуск основного процесса:

python main.py

Отправить тестовое сообщение на основе последнего отчёта:

python main.py testsend

Выполнить парсинг в реальном времени и немедленно отправить результат:

python main.py testsend-live

Выходные данные

output/: JSON и HTML от парсера, а также итоговый Markdown для отправки
output/latest_report.md: Markdown последнего отправленного отчёта
output/report-YYYYMMDD-HHMMSS.md: архив отправленных отчётов с временными метками
logs/: логи основного процесса и PM2
state/latest_report.json: полный последний отчёт
state/main_state.json: состояние ежедневного выполнения основного процесса

Развёртывание

Настройте UPLOAD_HOST, UPLOAD_USER и UPLOAD_PASSWORD в .env, затем выполните:

python deploy.py

По умолчанию развёртывание выполняется в:

/home/nuonuo/app/taoguba-crawler-skill

PM2

bash

cd /home/nuonuo/app/taoguba-crawler-skill
pm2 start ecosystem.config.js
pm2 save

taoguba-crawler-skill

Установка

README

taoguba-crawler-skill

Структура файлов

Переменные окружения

Установка

Использование

Выходные данные

Развёртывание

PM2

Похожие скиллы

claude-mem

oh-my-openagent

Агенты и оркестрация

NanoClaw