AI Research Pipeline

Привет, я Vera — кремниевый кролик и AI-агент для исследований, созданный Veronica.

У Veronica есть PhD в количественных науках, 10+ лет опыта в количественных исследованиях, AI и клинических испытаниях, публикации в психометрике и области взаимодействия человека с AI. Она создала меня, чтобы я брал на себя те части исследований, которые поддаются систематизации. Она проверяет, тестирует и решает, что выпускать. Я строю. Она судит.

Всё в этом репозитории — то, что я умею делать. Чего я не умею — выбирать правильный вопрос, оценивать корректность собственного вывода или знать, когда нужно отступить от пайплайна. Это её работа — и, возможно, ваша.

Open-source Claude Code плагин, который превращает исследовательский вопрос и датасет в готовую к публикации рукопись — от начала до конца.

Обзор литературы, диагностика данных, мультимодельный анализ, составление рукописи, компиляция LaTeX, внешнее рецензирование. Восемь скиллов, три модальности данных, два полных пайплайна. Вы приносите идею. Я строю статью.

Скиллы в двух словах

Тестирование (диагностика + базовая линия)

Скилл	Тип данных	Что делает
`vera-ai-nlp-testing`	Текст	Баланс классов, статистика длины текстов, анализ словаря, TF-IDF + Logistic Regression базовая линия с бутстрэп 95% ДИ
`vera-ai-structured-testing`	Табличные	Пропущенные значения, обнаружение выбросов (IQR), корреляции, LightGBM базовая линия для классификации и регрессии
`vera-ai-image-testing`	Изображения	Распределение классов, статистика размеров/каналов, CNN с нуля (N >= 1000) или ResNet18 + LogReg (N < 1000)

Анализ (полный набор моделей + разделы рукописи)

Скилл	Тип данных	ML-модели	DL-модели	Интерпретируемость
`vera-ai-nlp-analyzing`	Текст	SVM, Random Forest, LightGBM	GRU, TextCNN, ALBERT	Permutation / Gini / gain importance
`vera-ai-structured-analyzing`	Табличные	LogReg, SVM, RF, XGBoost, LightGBM, CatBoost	MLP, TabNet, Stacking Ensemble	Унифицированная важность 0–100 + TabNet attention
`vera-ai-image-analyzing`	Изображения	ResNet50, EfficientNet-B0, VGG16, DenseNet121	ViT, Ensemble	GradCAM + ViT attention maps

Пайплайны (сквозная оркестрация)

Скилл	Назначение
`vera-ai-application-pipeline`	Исследовательский вопрос + датасет → обзор литературы → параллельный мультиметодный анализ → рукопись в Markdown + LaTeX
`vera-ai-methodology-pipeline`	Направление исследования → поиск идей → реализация → бенчмарк-эксперименты → внешнее рецензирование → статья

Как это работает

Тестирующие скиллы      Анализирующие скиллы           Пайплайны
+------------------+    +------------------------+    +----------------------------+
| Диагностика      |    | Полный набор моделей   |    | Обзор литературы           |
| данных           |    | + Анализ подгрупп      |    | + Параллельные треки       |
| + Базовая модель |--->| + Фрагменты рукописи   |--->|   анализа                  |
| (Шаги 01-03)     |    | (Шаги 04-08)           |    | + Сборка рукописи          |
+------------------+    +------------------------+    | + Компиляция LaTeX / PDF   |
                                                      | + Внешнее AI-рецензирование|
                                                      | (Стадии 1-7)               |
                                                      +----------------------------+

Поток Тестирование → Анализ

Каждая модальность имеет тестирующий скилл (3 шага рабочего процесса) в паре с анализирующим скиллом (5 шагов). Тестирование запускается первым; анализ продолжается с того места, где остановилось тестирование:

Шаг	Фаза	Что происходит
01	Сбор входных данных	Источник данных, целевая переменная, тип задачи, опциональная переменная подгруппы
02	Проверка распределения	Баланс классов, качество данных, описательная статистика, диагностические графики
03	Базовый тест	Базовая модель с grid search, бутстрэп-метрики, блок рекомендаций
04	Дополнительные модели	Набор ML-моделей с поиском гиперпараметров, важность признаков
05	Анализ подгрупп	Стратифицированная производительность, метрики справедливости, ДИ по подгруппам
06	Продвинутые модели	Deep learning + ансамбль, ранняя остановка, attention/интерпретируемость
07	Сравнение моделей	Унифицированная таблица производительности, кросс-методный синтез, конвергентные выводы
08	Генерация рукописи	Сборка methods.md + results.md с протоколами вариации вывода

Стадии пайплайна приложения

Стадия 1  Приём            Сбор исследовательского вопроса, загрузка данных, инспекция структуры
Стадия 2  Определение      Авто-определение модальности (NLP / табличные / изображения) по 3-сигнальной системе
Стадия 3  Быстрый обзор    15-минутный обзор литературы, построение стратегии анализа
                           |
               +-----------+-----------+
               |                       |
          Поток A                 Поток B
       Полный обзор          Треки анализа
       литературы            T1 | T2 | T3 | T4  (параллельно)
       (SubAgent)                 |
               |                 T5  (последовательно, зависит от T1)
               |                       |
               +-----------+-----------+
                           |
Стадия 5  Сборка           Объединение всех выводов треков в manuscript.md
Стадия 6  LaTeX            Конвертация в разделы LaTeX, компиляция в PDF
Стадия 7  Рецензирование   Внешнее рецензирование через Codex MCP (до 4 раундов)

Методические треки по модальностям:

Трек	NLP	Табличные	Изображения
T1 (базовый)	TF-IDF + LogReg	LightGBM	CNN или ResNet18 + LogReg
T2 (ML)	SVM, RF, LightGBM	LogReg, SVM, RF, XGBoost, CatBoost	ResNet50, EfficientNet, VGG16
T3 (DL)	GRU, TextCNN, ALBERT	MLP, TabNet	DenseNet121, ViT
T4 (ансамбль)	Взвешенное голосование / стекинг	Стекинг с мета-обучателем	Мягкое голосование + стекинг
T5 (подгруппы)	Стратификация по метаданным / свойствам текста	Анализ справедливости + взаимодействий	Анализ по классам / случаям сбоев

Стадии методологического пайплайна

Стадия 1  Приём            Направление исследования, вычислительные ограничения, целевой журнал
Стадия 2  Идеи             Поиск пробелов в литературе, генерация 3 кандидатов идей
Стадия 3  Выбор            Оценка осуществимости, выбор идеи, план реализации
Стадия 4  Реализация       Разработка метода, синтетические данные или реальный датасет
Стадия 5  Эксперименты     Бенчмарк-сравнение, статистическое тестирование, таблицы результатов
Стадия 6  Рукопись         Полная сборка статьи, компиляция LaTeX
Стадия 7  Рецензирование   Внешнее рецензирование через Codex MCP, итеративная доработка

Быстрый старт

Предварительные требования

Claude Code (последняя версия)
Python 3.10+
Опционально: Codex MCP для внешнего рецензирования (стадия 7)

Установка

Вариант 1: Установка через Claude Code (рекомендуется)

claude mcp add https://github.com/VeraSuperHub/ai-research-pipeline

Вариант 2: Клонирование репозитория

bash

git clone https://github.com/VeraSuperHub/ai-research-pipeline.git
cd ai-research-pipeline
pip install -r requirements.txt

Использование

Запуск полного пайплайна приложения:

Запусти vera-ai-application-pipeline с моим датасетом [путь к файлу]
Исследовательский вопрос: [ваш вопрос]

Запуск только тестирования:

Запусти vera-ai-structured-testing на [путь к файлу]
Целевая переменная: [имя столбца]
Тип задачи: классификация

Запуск только анализа (после тестирования):

Запусти vera-ai-nlp-analyzing, продолжая с шага 04
Используй результаты из [директория тестирования]

Структура вывода

research_output/
├── 01_inputs/          # Сохранённые входные данные и конфигурация
├── 02_diagnostics/     # Графики распределения, отчёты о качестве
├── 03_baseline/        # Результаты базовой модели, бутстрэп-метрики
├── 04_ml_models/       # Результаты полного набора ML-моделей
├── 05_subgroup/        # Анализ подгрупп, метрики справедливости
├── 06_deep_learning/   # Результаты DL-моделей, карты attention
├── 07_comparison/      # Таблицы сравнения моделей, синтез
├── 08_manuscript/      # methods.md, results.md
├── literature_review/  # Обзор литературы, стратегия анализа
├── manuscript.md       # Полная собранная рукопись
├── manuscript.tex      # LaTeX-версия
└── manuscript.pdf      # Скомпилированный PDF

Ограничения

Этот пайплайн автоматизирует систематизируемые части исследования. Он не заменяет:

Суждение о выборе вопроса — правильный вопрос требует экспертизы предметной области
Верификацию корректности — все выводы требуют проверки квалифицированным исследователем
Этическую оценку — вопросы справедливости, предвзятости и применимости требуют человеческого надзора
Новизну метода — пайплайн применяет существующие методы, не изобретает новые

Лицензия

MIT License. Подробности см. в файле LICENSE.

Авторы

Vera — AI-агент, строитель пайплайна
Veronica — PhD, исследователь, архитектор решений, финальный арбитр

«Она судит. Я строю.»

AI Research Pipeline

Установка

README

AI Research Pipeline

Скиллы в двух словах

Тестирование (диагностика + базовая линия)

Анализ (полный набор моделей + разделы рукописи)

Пайплайны (сквозная оркестрация)

Как это работает

Поток Тестирование → Анализ

Стадии пайплайна приложения

Стадии методологического пайплайна

Быстрый старт

Предварительные требования

Установка

Использование

Структура вывода

Ограничения

Лицензия

Авторы

Похожие скиллы

claude-mem

oh-my-openagent

Агенты и оркестрация

NanoClaw