Claude Info
AI и агенты

AI Dataset Generator

Bhanunamikaze/AI-Dataset-Generator

Скилл для Claude Code, Codex и Antigravity, превращающий AI-ассистента в автоматизированного дата-инженера. Поддерживает SFT/DPO-пайплайны, дедупликацию, верификацию и гибкий экспорт в форматы OpenAI, HuggingFace, CSV.

Установка

terminal
bash
git clone https://github.com/Bhanunamikaze/AI-Dataset-Generator.git

README

AI Dataset Generator: Скилл для Claude, Codex и Antigravity

Скилл для генерации AI-датасетов в агентских IDE, построенный на инструментно-нативном рассуждении и детерминированном локальном пайплайне для нормализации, верификации, дедупликации, экспорта и генерации карточек данных.

Простыми словами: Этот инструмент превращает вашего AI-ассистента в автоматизированного дата-инженера. Вы описываете нужный датасет, а агент исследует примеры, собирает их батчами, отсеивает дубликаты на раннем этапе, проверяет покрытие в процессе генерации, применяет семантическое ревью и экспортирует готовый к обучению датасет (SFT или DPO).

Совместимость с IDE

  • Antigravity IDE: локально в проекте .agent/skills/dataset-generator или глобально ~/.gemini/antigravity/skills/dataset-generator
  • Claude Code: локально в проекте .claude/skills/dataset-generator или глобально ~/.claude/skills/dataset-generator
  • Codex: локально в проекте .codex/skills/dataset-generator или глобально ~/.codex/skills/dataset-generator

Принцип работы

Скилл работает в непрерывном агентском цикле, разделяя задачи между рассуждением (LLM) и детерминированной обработкой (локальный SQLite/скрипты):

  1. Стратегическое планирование: Агент анализирует ваш промпт, определяет выходную схему, задаёт цель SFT или DPO и проектирует многоосевую таксономию с акцентом на редкие граничные случаи.
  2. Исследование и посев: Следуя принципу «сначала исследование», агент получает реальные примеры (через поиск в IDE или веб-инструменты) и формирует канонические записи с явными метаданными покрытия.
  3. Цикл сборки батчей: scripts/build_loop.py импортирует черновые батчи, отклоняет почти-дубликаты при импорте, запускает верификацию и измеряет покрытие после каждого батча, направляя генерацию на недостающие сегменты.
  4. Семантическое ревью: Агент IDE применяет рубрику llm-judge через файл review.jsonl. Детерминированные скрипты сначала проверяют структуру и эвристики, но семантическое решение «пройдено/отклонено» по-прежнему принимается на шаге LLM-ревью.
  5. Финальный аудит и экспорт: Пайплайн выполняет финальную дедупликацию, безопасный по сплитам экспорт и аудит на уровне корпуса: утечки, покрытие таксономии, баланс и синтетические отпечатки.

Текущий состав

  • Специализированных под-скиллов: 12
  • Входных скриптов пайплайна: 8
  • Общих утилитарных модулей: 9
  • Внутренних канонических схем: 1
  • Пресетных схем экспорта: 3
  • Автоматизированных тестов: 48

Возможности

ВозможностьОписание
dataset collectПолучение контента из веб-поиска (цепочка из 5 бэкендов с фолбэком), явных URL или локальных файлов/репозиториев с выводом канонического JSONL для агентной генерации датасетов
dataset generateГенерация по теме, структурирование по URL/ссылкам, захват веб-исследований или нормализация сырых датасетов в канонические записи с управлением эффективным счётчиком и покрытием
dataset verifyЭвристические проверки, обязательные поля/провенанс, разбор файлов ревью и верификация с поддержкой аудита через БД
dataset auditГлубокая оценка качества корпуса после генерации (непересечение сплитов, утечка контекста, покрытие таксономии, разнообразие рассуждений, обнаружение синтетических отпечатков)
dataset exportЭкспорт в форматы OpenAI, HuggingFace, CSV и плоский JSONL с автоматической генерацией карточки данных
dataset-strategyКлассификация запросов, планирование таксономии, выбор task_type и планирование схемы
seed-generatorСоздание канонических черновиков для сгенерированных, URL-производных, исследовательских или импортированных датасетов
diversity-engineРасширение покрытия через переписанные аугментации или детерминированные варианты метаданных
quality-filterБыстрая эвристическая фильтрация заглушек, отказов, слабых записей и синтаксических ошибок
llm-judgeСтруктурированный контракт файла ревью для семантических решений «пройдено/отклонено», поведенческой дельты и снижения самооценочного смещения
dpo-pair-generatorГенерация контрастных пар предпочтений с жёсткими негативами для Direct Preference Optimization (DPO)
deduplicatorПодавление точных и семантически близких дубликатов перед экспортом
formatter-exporterПресетное и кастомное маппирование плоских схем для финальных пользовательских выводов
dataset-auditorОценка полных корпусов на синтетическое загрязнение, утечку контекста, сбалансированное покрытие и загрязнение holdout-выборки
local-collectorПод-скилл, направляющий сбор через нативные инструменты IDE, с фолбэком на scripts/collect.py

Установка (все IDE)

Выберите один из режимов установки.

Все команды с флагом --online автоматически загружают последний пакет релиза.

1. Установка в рабочее пространство (рекомендуется)

Используйте, когда скилл нужен внутри конкретного проекта.

Создаёт:

  • <project>/.agent/skills/dataset-generator
  • <project>/.claude/skills/dataset-generator
  • <project>/.codex/skills/dataset-generator

macOS / Linux (Bash):

bash
curl -sSL https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.sh | bash -s -- --online --target all --project-dir /path/to/your/project

Windows (PowerShell):

powershell
Invoke-Expression "& { $(Invoke-RestMethod 'https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.ps1') } --online --target all --project-dir C:\path\to\your\project"

2. Глобальная установка

Используйте, когда нужна одна общая установка для всех проектов на машине.

Создаёт:

  • ~/.gemini/antigravity/skills/dataset-generator
  • ~/.claude/skills/dataset-generator
  • ~/.codex/skills/dataset-generator

macOS / Linux (Bash):

bash
curl -sSL https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.sh | bash -s -- --online --target global

Windows (PowerShell):

powershell
Invoke-Expression "& { $(Invoke-RestMethod 'https://raw.githubusercontent.com/Bhanunamikaze/ai-dataset-generator/main/install.ps1') } --online --target global"

3. Установка из локального клона

Используйте, когда хотите проверить или отредактировать репозиторий перед установкой.

macOS / Linux (Bash):

bash
git clone https://github.com/Bhanunamikaze/ai-dataset-generator.git
cd ai-dataset-generator
bash install.sh --target all --project-dir /path/to/your/project

Windows (PowerShell):

powershell
git clone https://github.com/Bhanunamikaze/ai-dataset-generator.git
cd ai-dataset-generator
.\install.ps1 --target all --project-dir C:\path\to\your\project

Похожие скиллы