AI Dataset Generator: Скилл для Claude, Codex и Antigravity

Скилл для генерации AI-датасетов в агентских IDE, построенный на инструментно-нативном рассуждении и детерминированном локальном пайплайне для нормализации, верификации, дедупликации, экспорта и генерации карточек данных.

Простыми словами: Этот инструмент превращает вашего AI-ассистента в автоматизированного дата-инженера. Вы описываете нужный датасет, а агент исследует примеры, собирает их батчами, отсеивает дубликаты на раннем этапе, проверяет покрытие в процессе генерации, применяет семантическое ревью и экспортирует готовый к обучению датасет (SFT или DPO).

Совместимость с IDE

Antigravity IDE: локально в проекте .agent/skills/dataset-generator или глобально ~/.gemini/antigravity/skills/dataset-generator
Claude Code: локально в проекте .claude/skills/dataset-generator или глобально ~/.claude/skills/dataset-generator
Codex: локально в проекте .codex/skills/dataset-generator или глобально ~/.codex/skills/dataset-generator

Принцип работы

Скилл работает в непрерывном агентском цикле, разделяя задачи между рассуждением (LLM) и детерминированной обработкой (локальный SQLite/скрипты):

Стратегическое планирование: Агент анализирует ваш промпт, определяет выходную схему, задаёт цель SFT или DPO и проектирует многоосевую таксономию с акцентом на редкие граничные случаи.
Исследование и посев: Следуя принципу «сначала исследование», агент получает реальные примеры (через поиск в IDE или веб-инструменты) и формирует канонические записи с явными метаданными покрытия.
Цикл сборки батчей: scripts/build_loop.py импортирует черновые батчи, отклоняет почти-дубликаты при импорте, запускает верификацию и измеряет покрытие после каждого батча, направляя генерацию на недостающие сегменты.
Семантическое ревью: Агент IDE применяет рубрику llm-judge через файл review.jsonl. Детерминированные скрипты сначала проверяют структуру и эвристики, но семантическое решение «пройдено/отклонено» по-прежнему принимается на шаге LLM-ревью.
Финальный аудит и экспорт: Пайплайн выполняет финальную дедупликацию, безопасный по сплитам экспорт и аудит на уровне корпуса: утечки, покрытие таксономии, баланс и синтетические отпечатки.

Текущий состав

Специализированных под-скиллов: 12
Входных скриптов пайплайна: 8
Общих утилитарных модулей: 9
Внутренних канонических схем: 1
Пресетных схем экспорта: 3
Автоматизированных тестов: 48

Возможности

Возможность	Описание
`dataset collect`	Получение контента из веб-поиска (цепочка из 5 бэкендов с фолбэком), явных URL или локальных файлов/репозиториев с выводом канонического JSONL для агентной генерации датасетов
`dataset generate`	Генерация по теме, структурирование по URL/ссылкам, захват веб-исследований или нормализация сырых датасетов в канонические записи с управлением эффективным счётчиком и покрытием
`dataset verify`	Эвристические проверки, обязательные поля/провенанс, разбор файлов ревью и верификация с поддержкой аудита через БД
`dataset audit`	Глубокая оценка качества корпуса после генерации (непересечение сплитов, утечка контекста, покрытие таксономии, разнообразие рассуждений, обнаружение синтетических отпечатков)
`dataset export`	Экспорт в форматы OpenAI, HuggingFace, CSV и плоский JSONL с автоматической генерацией карточки данных
`dataset-strategy`	Классификация запросов, планирование таксономии, выбор `task_type` и планирование схемы
`seed-generator`	Создание канонических черновиков для сгенерированных, URL-производных, исследовательских или импортированных датасетов
`diversity-engine`	Расширение покрытия через переписанные аугментации или детерминированные варианты метаданных
`quality-filter`	Быстрая эвристическая фильтрация заглушек, отказов, слабых записей и синтаксических ошибок
`llm-judge`	Структурированный контракт файла ревью для семантических решений «пройдено/отклонено», поведенческой дельты и снижения самооценочного смещения
`dpo-pair-generator`	Генерация контрастных пар предпочтений с жёсткими негативами для Direct Preference Optimization (DPO)
`deduplicator`	Подавление точных и семантически близких дубликатов перед экспортом
`formatter-exporter`	Пресетное и кастомное маппирование плоских схем для финальных пользовательских выводов
`dataset-auditor`	Оценка полных корпусов на синтетическое загрязнение, утечку контекста, сбалансированное покрытие и загрязнение holdout-выборки
`local-collector`	Под-скилл, направляющий сбор через нативные инструменты IDE, с фолбэком на `scripts/collect.py`

Установка (все IDE)

Выберите один из режимов установки.

Все команды с флагом --online автоматически загружают последний пакет релиза.

1. Установка в рабочее пространство (рекомендуется)

Используйте, когда скилл нужен внутри конкретного проекта.

Создаёт:

<project>/.agent/skills/dataset-generator
<project>/.claude/skills/dataset-generator
<project>/.codex/skills/dataset-generator

macOS / Linux (Bash):

bash

curl -sSL https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.sh | bash -s -- --online --target all --project-dir /path/to/your/project

Windows (PowerShell):

powershell

Invoke-Expression "& { $(Invoke-RestMethod 'https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.ps1') } --online --target all --project-dir C:\path\to\your\project"

2. Глобальная установка

Используйте, когда нужна одна общая установка для всех проектов на машине.

Создаёт:

~/.gemini/antigravity/skills/dataset-generator
~/.claude/skills/dataset-generator
~/.codex/skills/dataset-generator

macOS / Linux (Bash):

bash

curl -sSL https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.sh | bash -s -- --online --target global

Windows (PowerShell):

powershell

Invoke-Expression "& { $(Invoke-RestMethod 'https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.ps1') } --online --target global"

3. Установка из локального клона

Используйте, когда хотите проверить или отредактировать репозиторий перед установкой.

macOS / Linux (Bash):

bash

git clone https://github.com/Bhanunamikaze/ai-dataset-generator.git
cd ai-dataset-generator
bash install.sh --target all --project-dir /path/to/your/project

Windows (PowerShell):

powershell

git clone https://github.com/Bhanunamikaze/ai-dataset-generator.git
cd ai-dataset-generator
.\install.ps1 --target all --project-dir C:\path\to\your\project

AI Dataset Generator

Установка

README

AI Dataset Generator: Скилл для Claude, Codex и Antigravity

Совместимость с IDE

Принцип работы

Текущий состав

Возможности

Установка (все IDE)

1. Установка в рабочее пространство (рекомендуется)

2. Глобальная установка

3. Установка из локального клона

Похожие скиллы

claude-mem

oh-my-openagent

Агенты и оркестрация

NanoClaw