AI Dataset Generator
Bhanunamikaze/AI-Dataset-GeneratorСкилл для Claude Code, Codex и Antigravity, превращающий AI-ассистента в автоматизированного дата-инженера. Поддерживает SFT/DPO-пайплайны, дедупликацию, верификацию и гибкий экспорт в форматы OpenAI, HuggingFace, CSV.
Установка
git clone https://github.com/Bhanunamikaze/AI-Dataset-Generator.gitREADME
AI Dataset Generator: Скилл для Claude, Codex и Antigravity
Скилл для генерации AI-датасетов в агентских IDE, построенный на инструментно-нативном рассуждении и детерминированном локальном пайплайне для нормализации, верификации, дедупликации, экспорта и генерации карточек данных.
Простыми словами: Этот инструмент превращает вашего AI-ассистента в автоматизированного дата-инженера. Вы описываете нужный датасет, а агент исследует примеры, собирает их батчами, отсеивает дубликаты на раннем этапе, проверяет покрытие в процессе генерации, применяет семантическое ревью и экспортирует готовый к обучению датасет (SFT или DPO).
Совместимость с IDE
- Antigravity IDE: локально в проекте
.agent/skills/dataset-generatorили глобально~/.gemini/antigravity/skills/dataset-generator - Claude Code: локально в проекте
.claude/skills/dataset-generatorили глобально~/.claude/skills/dataset-generator - Codex: локально в проекте
.codex/skills/dataset-generatorили глобально~/.codex/skills/dataset-generator
Принцип работы
Скилл работает в непрерывном агентском цикле, разделяя задачи между рассуждением (LLM) и детерминированной обработкой (локальный SQLite/скрипты):
- Стратегическое планирование: Агент анализирует ваш промпт, определяет выходную схему, задаёт цель SFT или DPO и проектирует многоосевую таксономию с акцентом на редкие граничные случаи.
- Исследование и посев: Следуя принципу «сначала исследование», агент получает реальные примеры (через поиск в IDE или веб-инструменты) и формирует канонические записи с явными метаданными покрытия.
- Цикл сборки батчей:
scripts/build_loop.pyимпортирует черновые батчи, отклоняет почти-дубликаты при импорте, запускает верификацию и измеряет покрытие после каждого батча, направляя генерацию на недостающие сегменты. - Семантическое ревью: Агент IDE применяет рубрику
llm-judgeчерез файлreview.jsonl. Детерминированные скрипты сначала проверяют структуру и эвристики, но семантическое решение «пройдено/отклонено» по-прежнему принимается на шаге LLM-ревью. - Финальный аудит и экспорт: Пайплайн выполняет финальную дедупликацию, безопасный по сплитам экспорт и аудит на уровне корпуса: утечки, покрытие таксономии, баланс и синтетические отпечатки.
Текущий состав
- Специализированных под-скиллов:
12 - Входных скриптов пайплайна:
8 - Общих утилитарных модулей:
9 - Внутренних канонических схем:
1 - Пресетных схем экспорта:
3 - Автоматизированных тестов:
48
Возможности
| Возможность | Описание |
|---|---|
dataset collect | Получение контента из веб-поиска (цепочка из 5 бэкендов с фолбэком), явных URL или локальных файлов/репозиториев с выводом канонического JSONL для агентной генерации датасетов |
dataset generate | Генерация по теме, структурирование по URL/ссылкам, захват веб-исследований или нормализация сырых датасетов в канонические записи с управлением эффективным счётчиком и покрытием |
dataset verify | Эвристические проверки, обязательные поля/провенанс, разбор файлов ревью и верификация с поддержкой аудита через БД |
dataset audit | Глубокая оценка качества корпуса после генерации (непересечение сплитов, утечка контекста, покрытие таксономии, разнообразие рассуждений, обнаружение синтетических отпечатков) |
dataset export | Экспорт в форматы OpenAI, HuggingFace, CSV и плоский JSONL с автоматической генерацией карточки данных |
dataset-strategy | Классификация запросов, планирование таксономии, выбор task_type и планирование схемы |
seed-generator | Создание канонических черновиков для сгенерированных, URL-производных, исследовательских или импортированных датасетов |
diversity-engine | Расширение покрытия через переписанные аугментации или детерминированные варианты метаданных |
quality-filter | Быстрая эвристическая фильтрация заглушек, отказов, слабых записей и синтаксических ошибок |
llm-judge | Структурированный контракт файла ревью для семантических решений «пройдено/отклонено», поведенческой дельты и снижения самооценочного смещения |
dpo-pair-generator | Генерация контрастных пар предпочтений с жёсткими негативами для Direct Preference Optimization (DPO) |
deduplicator | Подавление точных и семантически близких дубликатов перед экспортом |
formatter-exporter | Пресетное и кастомное маппирование плоских схем для финальных пользовательских выводов |
dataset-auditor | Оценка полных корпусов на синтетическое загрязнение, утечку контекста, сбалансированное покрытие и загрязнение holdout-выборки |
local-collector | Под-скилл, направляющий сбор через нативные инструменты IDE, с фолбэком на scripts/collect.py |
Установка (все IDE)
Выберите один из режимов установки.
Все команды с флагом --online автоматически загружают последний пакет релиза.
1. Установка в рабочее пространство (рекомендуется)
Используйте, когда скилл нужен внутри конкретного проекта.
Создаёт:
<project>/.agent/skills/dataset-generator<project>/.claude/skills/dataset-generator<project>/.codex/skills/dataset-generator
macOS / Linux (Bash):
curl -sSL https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.sh | bash -s -- --online --target all --project-dir /path/to/your/projectWindows (PowerShell):
Invoke-Expression "& { $(Invoke-RestMethod 'https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.ps1') } --online --target all --project-dir C:\path\to\your\project"2. Глобальная установка
Используйте, когда нужна одна общая установка для всех проектов на машине.
Создаёт:
~/.gemini/antigravity/skills/dataset-generator~/.claude/skills/dataset-generator~/.codex/skills/dataset-generator
macOS / Linux (Bash):
curl -sSL https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.sh | bash -s -- --online --target globalWindows (PowerShell):
Invoke-Expression "& { $(Invoke-RestMethod 'https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.ps1') } --online --target global"3. Установка из локального клона
Используйте, когда хотите проверить или отредактировать репозиторий перед установкой.
macOS / Linux (Bash):
git clone https://github.com/Bhanunamikaze/ai-dataset-generator.git
cd ai-dataset-generator
bash install.sh --target all --project-dir /path/to/your/projectWindows (PowerShell):
git clone https://github.com/Bhanunamikaze/ai-dataset-generator.git
cd ai-dataset-generator
.\install.ps1 --target all --project-dir C:\path\to\your\project