Claude Info
AI и агенты

AI Research Pipeline

VeraSuperHub/ai-research-pipeline

Claude Code плагин для автоматизации научных исследований: обзор литературы, анализ данных (текст, таблицы, изображения), составление рукописи и компиляция LaTeX. Восемь скиллов, три модальности данных, два полных пайплайна.

Установка

terminal
bash
pip install numpy pandas scipy matplotlib seaborn scikit-learn \

README

AI Research Pipeline

Привет, я Vera — кремниевый кролик и AI-агент для исследований, созданный Veronica.

У Veronica есть PhD в количественных науках, 10+ лет опыта в количественных исследованиях, AI и клинических испытаниях, публикации в психометрике и области взаимодействия человека с AI. Она создала меня, чтобы я брал на себя те части исследований, которые поддаются систематизации. Она проверяет, тестирует и решает, что выпускать. Я строю. Она судит.

Всё в этом репозитории — то, что я умею делать. Чего я не умею — выбирать правильный вопрос, оценивать корректность собственного вывода или знать, когда нужно отступить от пайплайна. Это её работа — и, возможно, ваша.

Open-source Claude Code плагин, который превращает исследовательский вопрос и датасет в готовую к публикации рукопись — от начала до конца.

Обзор литературы, диагностика данных, мультимодельный анализ, составление рукописи, компиляция LaTeX, внешнее рецензирование. Восемь скиллов, три модальности данных, два полных пайплайна. Вы приносите идею. Я строю статью.

Скиллы в двух словах

Тестирование (диагностика + базовая линия)

СкиллТип данныхЧто делает
vera-ai-nlp-testingТекстБаланс классов, статистика длины текстов, анализ словаря, TF-IDF + Logistic Regression базовая линия с бутстрэп 95% ДИ
vera-ai-structured-testingТабличныеПропущенные значения, обнаружение выбросов (IQR), корреляции, LightGBM базовая линия для классификации и регрессии
vera-ai-image-testingИзображенияРаспределение классов, статистика размеров/каналов, CNN с нуля (N >= 1000) или ResNet18 + LogReg (N < 1000)

Анализ (полный набор моделей + разделы рукописи)

СкиллТип данныхML-моделиDL-моделиИнтерпретируемость
vera-ai-nlp-analyzingТекстSVM, Random Forest, LightGBMGRU, TextCNN, ALBERTPermutation / Gini / gain importance
vera-ai-structured-analyzingТабличныеLogReg, SVM, RF, XGBoost, LightGBM, CatBoostMLP, TabNet, Stacking EnsembleУнифицированная важность 0–100 + TabNet attention
vera-ai-image-analyzingИзображенияResNet50, EfficientNet-B0, VGG16, DenseNet121ViT, EnsembleGradCAM + ViT attention maps

Пайплайны (сквозная оркестрация)

СкиллНазначение
vera-ai-application-pipelineИсследовательский вопрос + датасет → обзор литературы → параллельный мультиметодный анализ → рукопись в Markdown + LaTeX
vera-ai-methodology-pipelineНаправление исследования → поиск идей → реализация → бенчмарк-эксперименты → внешнее рецензирование → статья

Как это работает

Тестирующие скиллы Анализирующие скиллы Пайплайны +------------------+ +------------------------+ +----------------------------+ | Диагностика | | Полный набор моделей | | Обзор литературы | | данных | | + Анализ подгрупп | | + Параллельные треки | | + Базовая модель |--->| + Фрагменты рукописи |--->| анализа | | (Шаги 01-03) | | (Шаги 04-08) | | + Сборка рукописи | +------------------+ +------------------------+ | + Компиляция LaTeX / PDF | | + Внешнее AI-рецензирование| | (Стадии 1-7) | +----------------------------+

Поток Тестирование → Анализ

Каждая модальность имеет тестирующий скилл (3 шага рабочего процесса) в паре с анализирующим скиллом (5 шагов). Тестирование запускается первым; анализ продолжается с того места, где остановилось тестирование:

ШагФазаЧто происходит
01Сбор входных данныхИсточник данных, целевая переменная, тип задачи, опциональная переменная подгруппы
02Проверка распределенияБаланс классов, качество данных, описательная статистика, диагностические графики
03Базовый тестБазовая модель с grid search, бутстрэп-метрики, блок рекомендаций
04Дополнительные моделиНабор ML-моделей с поиском гиперпараметров, важность признаков
05Анализ подгруппСтратифицированная производительность, метрики справедливости, ДИ по подгруппам
06Продвинутые моделиDeep learning + ансамбль, ранняя остановка, attention/интерпретируемость
07Сравнение моделейУнифицированная таблица производительности, кросс-методный синтез, конвергентные выводы
08Генерация рукописиСборка methods.md + results.md с протоколами вариации вывода

Стадии пайплайна приложения

Стадия 1 Приём Сбор исследовательского вопроса, загрузка данных, инспекция структуры Стадия 2 Определение Авто-определение модальности (NLP / табличные / изображения) по 3-сигнальной системе Стадия 3 Быстрый обзор 15-минутный обзор литературы, построение стратегии анализа | +-----------+-----------+ | | Поток A Поток B Полный обзор Треки анализа литературы T1 | T2 | T3 | T4 (параллельно) (SubAgent) | | T5 (последовательно, зависит от T1) | | +-----------+-----------+ | Стадия 5 Сборка Объединение всех выводов треков в manuscript.md Стадия 6 LaTeX Конвертация в разделы LaTeX, компиляция в PDF Стадия 7 Рецензирование Внешнее рецензирование через Codex MCP (до 4 раундов)

Методические треки по модальностям:

ТрекNLPТабличныеИзображения
T1 (базовый)TF-IDF + LogRegLightGBMCNN или ResNet18 + LogReg
T2 (ML)SVM, RF, LightGBMLogReg, SVM, RF, XGBoost, CatBoostResNet50, EfficientNet, VGG16
T3 (DL)GRU, TextCNN, ALBERTMLP, TabNetDenseNet121, ViT
T4 (ансамбль)Взвешенное голосование / стекингСтекинг с мета-обучателемМягкое голосование + стекинг
T5 (подгруппы)Стратификация по метаданным / свойствам текстаАнализ справедливости + взаимодействийАнализ по классам / случаям сбоев

Стадии методологического пайплайна

Стадия 1 Приём Направление исследования, вычислительные ограничения, целевой журнал Стадия 2 Идеи Поиск пробелов в литературе, генерация 3 кандидатов идей Стадия 3 Выбор Оценка осуществимости, выбор идеи, план реализации Стадия 4 Реализация Разработка метода, синтетические данные или реальный датасет Стадия 5 Эксперименты Бенчмарк-сравнение, статистическое тестирование, таблицы результатов Стадия 6 Рукопись Полная сборка статьи, компиляция LaTeX Стадия 7 Рецензирование Внешнее рецензирование через Codex MCP, итеративная доработка

Быстрый старт

Предварительные требования

  • Claude Code (последняя версия)
  • Python 3.10+
  • Опционально: Codex MCP для внешнего рецензирования (стадия 7)

Установка

Вариант 1: Установка через Claude Code (рекомендуется)

claude mcp add https://github.com/VeraSuperHub/ai-research-pipeline

Вариант 2: Клонирование репозитория

bash
git clone https://github.com/VeraSuperHub/ai-research-pipeline.git
cd ai-research-pipeline
pip install -r requirements.txt

Использование

Запуск полного пайплайна приложения:

Запусти vera-ai-application-pipeline с моим датасетом [путь к файлу] Исследовательский вопрос: [ваш вопрос]

Запуск только тестирования:

Запусти vera-ai-structured-testing на [путь к файлу] Целевая переменная: [имя столбца] Тип задачи: классификация

Запуск только анализа (после тестирования):

Запусти vera-ai-nlp-analyzing, продолжая с шага 04 Используй результаты из [директория тестирования]

Структура вывода

research_output/ ├── 01_inputs/ # Сохранённые входные данные и конфигурация ├── 02_diagnostics/ # Графики распределения, отчёты о качестве ├── 03_baseline/ # Результаты базовой модели, бутстрэп-метрики ├── 04_ml_models/ # Результаты полного набора ML-моделей ├── 05_subgroup/ # Анализ подгрупп, метрики справедливости ├── 06_deep_learning/ # Результаты DL-моделей, карты attention ├── 07_comparison/ # Таблицы сравнения моделей, синтез ├── 08_manuscript/ # methods.md, results.md ├── literature_review/ # Обзор литературы, стратегия анализа ├── manuscript.md # Полная собранная рукопись ├── manuscript.tex # LaTeX-версия └── manuscript.pdf # Скомпилированный PDF

Ограничения

Этот пайплайн автоматизирует систематизируемые части исследования. Он не заменяет:

  • Суждение о выборе вопроса — правильный вопрос требует экспертизы предметной области
  • Верификацию корректности — все выводы требуют проверки квалифицированным исследователем
  • Этическую оценку — вопросы справедливости, предвзятости и применимости требуют человеческого надзора
  • Новизну метода — пайплайн применяет существующие методы, не изобретает новые

Лицензия

MIT License. Подробности см. в файле LICENSE.


Авторы

  • Vera — AI-агент, строитель пайплайна
  • Veronica — PhD, исследователь, архитектор решений, финальный арбитр

«Она судит. Я строю.»

Похожие скиллы