woodshed
gaearon/woodshedИнструмент для разработки и тестирования Claude Skills: создание вариантов скилла, прогон фикстур, автоматическая оценка результатов и итеративное улучшение. Подходит для экспериментов с промптами и оценочными агентами.
Установка
npx woodshed create my-ideaREADME
woodshed
Создавайте, запускайте, оценивайте и итерируйте ваши Claude Skills.
⚠️ ПРЕДУПРЕЖДЕНИЕ ⚠️
Это альфа-версия, написанная для личного использования.
- Запускает Claude в yolo-режиме, который может и будет уничтожать ваши данные.
- Также может сжечь огромное количество токенов, если ваши Skills неэффективны.
- Код написан на 100% в режиме вайбкодинга, и на этот раз я не читал его.
Если вы сожжёте все токены и заодно сломаете компьютер — я не несу ответственности.
Использование
Создайте новое рабочее пространство:
npx woodshed create my-idea
Это даст вам место для работы над вашими Skills:
cd my-idea
Время работать:
npx woodshed
По умолчанию вся матрица запускается 10 раз.
Запуск идемпотентен: повторный прогон по умолчанию мгновенно «пропускает» уже полученные результаты, как будто они произошли только что.
Передайте npx woodshed --reset, чтобы принудительно перезапустить прогоны. При этом данные каждого повторного запуска в results/ будут удалены перед выполнением. Можно также удалить папку results/ вручную.
Внимательно изучите папку results/ после первого успешного запуска. Она содержит лог основного агента с prompt.md вашей фикстуры, лог оценивающего агента с eval.md, рабочую папку, в которой они оба работали, и, вероятно, ещё какой-то мусор.
Соглашения по структуре папок
my-idea/
skills/
# Skills, которые вы хотите создать или улучшить
my-skill/
# Каждый Skill может иметь один или несколько вариантов
baseline/SKILL.md
experiment/SKILL.md
silly/SKILL.md
fixtures/
# Фикстуры для тестирования ваших Skills
my-fixture/
prompt.md
eval.md
assets/
# Данные, общие для фикстур
words.txt
results/
# Здесь появляются результаты и прошлые запускиРабочий процесс
Рекомендую запустить ещё один экземпляр Claude и обсудить с ним содержимое /results.
Затем можно использовать полученные инсайты для улучшения eval.md и SKILL.md.
Совет: если вы итерируете скилл, попросите Claude записывать каждый эксперимент в документ, чтобы видеть, что работает, а что нет.
Опции
--runs <n> Количество запусков на вариант (по умолчанию: 10)
--reset Удалить старые результаты и начать заново
--reeval Повторно запустить оценку на существующих рабочих папках
--cache-only Показать только кэшированные результаты
Лицензия
MIT