
Le 7 avril 2026, Z.ai publie les poids complets de GLM-5.1 sur Hugging Face sous licence MIT. Dans les heures qui suivent, le modèle prend la première place mondiale sur SWE-Bench Pro avec un score de 58,4 — devant GPT-5.4 (57,7), Claude Opus 4.6 (57,3) et Gemini 3.1 Pro (54,2). C'est la première fois qu'un modèle open-source passe devant les plus grands LLM propriétaires sur le benchmark de code le plus exigeant de l'industrie. Licence MIT, poids téléchargeables gratuitement, usage commercial sans restriction.
Qu'est-ce que GLM-5.1 et comment fonctionne son architecture ?
GLM-5.1 est un modèle Mixture-of-Experts (MoE) de 754 milliards de paramètres au total, avec 40 milliards de paramètres actifs par token à l'inférence. L'architecture MoE permet de disposer d'un modèle théoriquement très large tout en n'activant qu'une fraction des paramètres pour chaque requête, ce qui réduit considérablement le coût de calcul. Le modèle dispose d'une fenêtre de contexte de 200 000 tokens et d'une sortie maximale de 131 000 tokens — deux paramètres critiques pour les tâches agentiques longues sur de grandes bases de code. Fait notable : GLM-5.1 a été entraîné entièrement sur des puces Huawei Ascend 910B via le framework MindSpore — sans Nvidia, sans AMD, sans silicon américain. C'est un signal important dans le contexte des sanctions sur les semi-conducteurs.
Pourquoi SWE-Bench Pro est-il le benchmark qui compte vraiment ?
SWE-Bench Pro est considéré comme le benchmark le plus représentatif des capacités réelles d'un modèle en ingénierie logicielle. Plutôt que de générer des extraits de code isolés, le modèle évalué doit comprendre une vraie base de code extraite de GitHub, diagnostiquer un bug sur plusieurs fichiers, et produire un patch correct qui passe les suites de tests existantes. C'est le type de tâche qu'un ingénieur effectue quotidiennement. Que GLM-5.1 prenne la première place sur ce benchmark signifie que ses capacités agentiques en conditions réelles de développement dépassent celles de GPT-5.4 et Claude Opus 4.6 — sur cette tâche spécifique. Il faut nuancer : sur le composite élargi incluant Terminal-Bench 2.0 et NL2Repo, Claude Opus 4.6 conserve une légère avance (57,5 contre 54,9). « Bat Claude » est exact sur SWE-Bench Pro, pas sur tous les benchmarks de code.
Quels sont les autres benchmarks de GLM-5.1 ?
Au-delà de SWE-Bench Pro, le modèle affiche un profil complet sur les tâches agentiques et de raisonnement :
- AIME 2026 (mathématiques de compétition) : 95,3 — solide, mais derrière GPT-5.4 (98,7) et Gemini 3.1 Pro (98,2)
- GPQA-Diamond (raisonnement scientifique expert) : 86,2
- CyberGym (sécurité agentique) : 68,7 — soit +20 points par rapport au GLM-5 précédent
- BrowseComp (navigation web agentique) : 68,0
- MCP-Atlas (interopérabilité MCP) : 71,8
- Humanity’s Last Exam : 31,0 en standalone, 52,3 avec accès à des outils externes
Le point le plus révélateur est le Scenario 3 des tests agentiques internes : GLM-5.1 a construit un environnement de bureau style Linux complet en 8 heures de manière autonome — navigateur de fichiers, terminal, éditeur de texte, moniteur système et jeux fonctionnels inclus. C'est cette capacité d'exécution longue durée qui distingue ce modèle des assistants de code classiques.
Qui est Z.ai et quel est le contexte du lancement de GLM-5.1 ?
Z.ai, anciennement Zhipu AI, est une startup fondée en 2019 en spin-off de l'Université Tsinghua. La société a réalisé son IPO à Hong Kong le 8 janvier 2026, levant environ 558 millions de dollars, devenant la première société de modèles fondateurs à être cotée en bourse dans le monde, avec une valorisation de 31,3 milliards de dollars. Ce capital a clairement accéléré la cadence de sortie : GLM-5 le 11 février, GLM-5-Turbo le 15 mars, l'API GLM-5.1 le 27 mars, puis les poids open-source le 7 avril — trois mises à jour majeures en six semaines. En termes de tarification, l'API du modèle est proposée à 1,40 dollar par million de tokens en entrée et 4,40 dollars en sortie. Les abonnements GLM Coding Plan démarrent à 3 dollars par mois en promotion, 10 dollars en tarif standard.
Ce que GLM-5.1 révèle sur l'état de l’open-source en IA en 2026
GLM-5.1 matérialise une évolution qu'on observait depuis plusieurs trimestres : l'écart entre les modèles open-source et les modèles propriétaires frontier se ferme. En 2023, cet écart était estimé à deux ans. En 2024, un an. En 2025, six mois. Avec ce modèle de Z.ai, sur SWE-Bench Pro, l'écart est d'un seul point de score — et l'open-source est devant. La disponibilité gratuite des poids sous licence MIT signifie que n'importe quelle équipe peut télécharger, inspecter, modifier et déployer commercialement GLM-5.1 sans aucune restriction. C'est un changement structurel dans la compétition en IA — d'autant plus que le modèle a été entièrement entraîné sur des puces chinoises, démontrant que la chaîne de valeur de l'IA frontier peut fonctionner indépendamment du silicon américain.