Caveman : économiser 65% de tokens Claude Code avec un skill GitHub

Forcez votre agent IA à parler comme un homme des cavernes et économisez 65% de tokens en moyenne. La blague qui cache une vraie optimisation, validée par un papier de recherche de 2026.

Open Source••Publié le 9 avril 2026 à 11:14•Mis à jour le 13 avril 2026 à 09:09

Qu'est-ce que le skill Caveman exactement ?

Caveman est un skill compatible avec Claude Code, Cursor, Cline, Windsurf, GitHub Copilot et une quarantaine d'autres agents. Son fonctionnement est simple jusqu'à l'évidence : il contraint le modèle à supprimer tout ce qui ne sert à rien. Les articles, les conjonctions inutiles, les formules de politesse, les phrases d'introduction, les tournures de couverture. « Sure! I'd be happy to help you with that. The issue you're experiencing is most likely caused by... » devient « Bug in auth middleware. Token expiry not validated. ». Identique sur le fond. 83% de tokens en moins. Le skill propose trois niveaux d'intensité : lite, full et ultra. Et des règles strictes sur ce qui ne doit jamais être compressé : les avertissements de sécurité, les confirmations d'actions irréversibles, les blocs de code, les URLs, les numéros de version.

Combien de tokens Caveman économise vraiment ?

Brussee a mesuré 10 tâches typiques de développement avec l'API Claude, comparé les sorties en mode normal et en mode caveman, et publié le tableau complet dans le README. Expliquer un bug de re-render React : 1 180 tokens normalement, 159 en caveman — 87% de réduction. Déboguer un pool de connexions PostgreSQL : 2 347 tokens normalement, 380 en caveman — 84%. Implémenter une error boundary React : 3 454 tokens normalement, 456 en caveman — 87%. Discuter de l'architecture microservices vs monolithe : 446 tokens normalement, 310 en caveman — 30% seulement. La variation est logique : plus la réponse est naturellement verbeuse, plus le gain est important. Moyenne sur les 10 tâches : 65%, avec un minimum de 22% et un pic à 87%.

Pourquoi les réponses brèves sont parfois plus précises ?

C'est le point le plus contre-intuitif et le plus important. Un papier de mars 2026 intitulé « Brevity Constraints Reverse Performance Hierarchies in Language Models » a évalué 31 modèles open-source de 0,5 à 405 milliards de paramètres sur 1 485 problèmes. Leur découverte : sur 7,7% des cas, les grands modèles sous-performaient les petits — jusqu'à 28,4 points d'écart. Et contraindre un modèle à répondre brièvement améliorait la précision de 26 points sur certains benchmarks. Pourquoi ? Parce que la verbosité génère de la dilution. L'explication qui fait 200 mots peut introduire des nuances contradictoires, des qualifications inutiles, des revirements qui déroutent l'agent lui-même quand il enchappe les réponses en contexte long. Caveman coupe ce bruit. Et comme les tokens de réflexion (thinking) ne sont pas touchés — seulement la sortie finale — le modèle continue de penser autant, il dit juste moins.

Comment installer Caveman en une commande ?

L'installation tient en une ligne : `npx skills add JuliusBrussee/caveman`. Pour un agent spécifique, ajouter le flag correspondant :

`-a cursor` pour Cursor
`-a github-copilot` pour GitHub Copilot
`-a cline` pour Cline
`-a windsurf` pour Windsurf

Le skill se déclenche avec les phrases `caveman mode`, `talk like caveman`, `use caveman` ou `less tokens`, et via la commande `/caveman`. Les niveaux d'intensité se changent directement : `/caveman lite`, `/caveman full`, `/caveman ultra`. Pour revenir au mode normal : `stop caveman` ou `normal mode`.

Caveman Compress : réduire aussi les tokens en entrée

Brussee a publié un companion tool : `caveman-compress`. Le principe s'attaque cette fois aux tokens en entrée plutôt qu'en sortie. Chaque projet charge CLAUDE.md ou AGENTS.md à chaque ouverture de session. Sur un fichier de 1 000 tokens, ça représente un coût fixe à chaque conversation. Caveman Compress réécrit ces fichiers en style caveman — tout en gardant l'original en backup lisible par l'humain sous `CLAUDE.original.md`. Réduction moyenne : 45% sur les tokens d'entrée. Combiné aux 65% sur les tokens de sortie, l'effet sur une session intensive à plusieurs agents est très significatif pour quiconque paie à l'usage ou gère des limites de contexte serrées.

Ce projet m'a fait sourire, puis réfléchir sérieusement. La verbosité des LLMs n'est pas un bug — c'est un comportement entraîné. Ces modèles ont été formés sur des données humaines, et les humains aiment les introductions. Caveman est le patch manuel en attendant qu'Anthropic ou OpenAI règlent ça au niveau du modèle. En attendant, ça reste une des optimisations les plus simples et les plus immédiates qu'un développeur puisse faire sur sa stack IA. Une ligne dans le terminal, et ton agent parle caveman. Cerveau intact, bouche plus petite.

Voir le projet sur GitHub

Neura