Claude Info
AI и агенты

woodshed

gaearon/woodshed

Инструмент для разработки и тестирования Claude Skills: создание вариантов скилла, прогон фикстур, автоматическая оценка результатов и итеративное улучшение. Подходит для экспериментов с промптами и оценочными агентами.

Установка

terminal
bash
npx woodshed create my-idea

README

woodshed

Создавайте, запускайте, оценивайте и итерируйте ваши Claude Skills.

⚠️ ПРЕДУПРЕЖДЕНИЕ ⚠️

Это альфа-версия, написанная для личного использования.

  • Запускает Claude в yolo-режиме, который может и будет уничтожать ваши данные.
  • Также может сжечь огромное количество токенов, если ваши Skills неэффективны.
  • Код написан на 100% в режиме вайбкодинга, и на этот раз я не читал его.

Если вы сожжёте все токены и заодно сломаете компьютер — я не несу ответственности.

Использование

Создайте новое рабочее пространство:

npx woodshed create my-idea

Это даст вам место для работы над вашими Skills:

cd my-idea

Время работать:

npx woodshed

По умолчанию вся матрица запускается 10 раз.

Запуск идемпотентен: повторный прогон по умолчанию мгновенно «пропускает» уже полученные результаты, как будто они произошли только что.

Передайте npx woodshed --reset, чтобы принудительно перезапустить прогоны. При этом данные каждого повторного запуска в results/ будут удалены перед выполнением. Можно также удалить папку results/ вручную.

Внимательно изучите папку results/ после первого успешного запуска. Она содержит лог основного агента с prompt.md вашей фикстуры, лог оценивающего агента с eval.md, рабочую папку, в которой они оба работали, и, вероятно, ещё какой-то мусор.

Соглашения по структуре папок

sh
my-idea/
  skills/
    # Skills, которые вы хотите создать или улучшить
    my-skill/
      # Каждый Skill может иметь один или несколько вариантов
      baseline/SKILL.md
      experiment/SKILL.md
      silly/SKILL.md
  fixtures/
    # Фикстуры для тестирования ваших Skills
    my-fixture/
      prompt.md
      eval.md
  assets/
    # Данные, общие для фикстур
    words.txt
  results/
    # Здесь появляются результаты и прошлые запуски

Рабочий процесс

Рекомендую запустить ещё один экземпляр Claude и обсудить с ним содержимое /results.

Затем можно использовать полученные инсайты для улучшения eval.md и SKILL.md.

Совет: если вы итерируете скилл, попросите Claude записывать каждый эксперимент в документ, чтобы видеть, что работает, а что нет.

Опции

--runs <n> Количество запусков на вариант (по умолчанию: 10) --reset Удалить старые результаты и начать заново --reeval Повторно запустить оценку на существующих рабочих папках --cache-only Показать только кэшированные результаты

Лицензия

MIT

Похожие скиллы