
En avril 2026, la course aux puces d'intelligence artificielle est entrée dans une phase décisive. NVIDIA domine avec 80 à 95 % du marché des accélérateurs de data center, AMD s'est imposé comme le challenger crédible avec ses MI350 adoptés par OpenAI, Microsoft et Oracle, et Intel réorganise sa stratégie après avoir annoncé l'arrêt de sa gamme Gaudi. En parallèle, Huawei, Google, Apple et une nouvelle génération de startups spécialisées redistribuent les cartes. Voici l'état réel de la guerre des puces IA, les enjeux techniques, financiers et géopolitiques.
Pourquoi les puces IA sont devenues le pétrole du 21e siècle
Un grand modèle de langage comme GPT-5.4 ou Claude Opus 4.7 nécessite des dizaines de milliers de GPU pour son entraînement, et des millions pour servir ses utilisateurs en inférence. Le marché mondial des accélérateurs IA dépassera 400 milliards de dollars en 2026, porté par une demande quasi infinie. Meta, Microsoft, Google, Amazon et quelques hyperscalers engloutissent la production mondiale à un rythme qui dépasse les capacités manufacturières de TSMC — le fondeur taïwanais qui fabrique l'essentiel de ces puces. C'est la pénurie de GPU qui détermine aujourd'hui la vitesse de déploiement de l'IA générative mondiale.
NVIDIA : le roi incontesté avec CUDA comme douve
NVIDIA n'est plus un fabricant de cartes graphiques : c'est l'entreprise la plus valorisée au monde, oscillant entre 3 et 4 trillions de dollars de capitalisation. Sa gamme Blackwell (B200, B300) est devenue le standard de fait pour l'entraînement de grands modèles. Le B200 délivre jusqu'à 20 petaFLOPS de performance FP4, connecté via la cinquième génération de NVLink (1,8 To/s de bande passante bidirectionnelle). Le Blackwell Ultra, prévu en 2026 autour de 40 000 dollars l'unité, pousse encore les performances.
Derrière les GPU, l'avantage stratégique de NVIDIA tient surtout à CUDA, son écosystème logiciel développé depuis 2007. PyTorch, TensorFlow, JAX, vLLM et la quasi-totalité des frameworks d'IA sont d'abord optimisés pour CUDA. Migrer vers une autre architecture nécessite des mois d'ingénierie pour réécrire les kernels optimisés. Cette « douve logicielle » est ce qui rend NVIDIA si difficile à déloger, même quand les concurrents proposent des spécifications matérielles compétitives.
La prochaine génération, Rubin (avec mémoire HBM4), est prévue pour 2026-2027. Le partenariat annoncé avec OpenAI porte sur 100 milliards de dollars pour déployer 10 gigawatts d'infrastructure IA, avec la plateforme Vera Rubin offrant huit exaflops à partir de 2026.
AMD : le challenger qui grignote avec une stratégie pragmatique
AMD ne prétend plus détrôner NVIDIA : il prétend être la deuxième option crédible. Stratégie plus réaliste, et redoutablement efficace. La gamme Instinct MI300X puis MI350X (architecture CDNA-3) mise sur deux avantages tangibles : plus de mémoire (288 Go de HBM3e contre 192 Go pour les H100) et meilleur ratio prix-performance sur les charges d'inférence. La bande passante mémoire atteint 8 To/s, idéale pour les LLM dont les contraintes principales sont mémoire plutôt que calcul.
Résultats concrets : Microsoft Azure et Oracle Cloud ont adopté les MI300X pour diversifier leurs fournisseurs. OpenAI a pris en octobre 2025 une participation de 10 % dans AMD en contrepartie de 6 gigawatts de fourniture de GPU — un signal politique fort. Le chiffre d'affaires data center d'AMD a atteint 4,34 milliards de dollars sur un trimestre récent (+22,3 % YoY), des montants substantiels même si encore modérés face au rythme de NVIDIA. La gamme MI400 est en développement actif.
L'enjeu pour AMD est surtout logiciel. Son écosystème ROCm progresse rapidement en compatibilité PyTorch, mais garde un retard fonctionnel sur CUDA. Chaque trimestre où ROCm rattrape CUDA, c'est une tranche de marché qui devient accessible à AMD.
Intel : une stratégie en pleine redéfinition
Le cas Intel est plus complexe. Le fondeur historique du x86, longtemps invincible, a pris du retard dans la course aux accélérateurs IA. Sa gamme Gaudi 3, rachetée lors de l'acquisition d'Habana Labs en 2019, offrait des promesses intéressantes (50 % plus rapide que le H100 sur certaines tâches d'entraînement selon Intel) mais peine à convaincre le marché : 500 M$ de revenus en 2024 seulement, loin des objectifs. En conséquence, Intel a annoncé la discontinuation de la gamme Gaudi au profit d'une nouvelle stratégie.
Son successeur, le projet Jaguar Shores (développé en partenariat avec SK Hynix), combine GPU pour IA et systèmes intégrés sur noeud de gravure 18A (l'un des plus avancés au monde), exploitant les transistors RibbonFET et la technologie d'alimentation arrière PowerVia. En parallèle, Intel mise sur le créneau différencié de l'IA edge (sur le terminal plutôt qu'en data center) avec sa gamme Arc et les NPU intégrés aux processeurs Core Ultra.
L'enjeu pour Intel n'est plus de gagner le marché frontal de l'entraînement mais de trouver ses niches : edge AI, inférence économique, intégration CPU+GPU+NPU sur les stations de travail professionnelles. Une reconquête incertaine mais pas terminée.
Huawei : l'acteur chinois qui monte
Les restrictions américaines à l'export ont paradoxalement accéléré Huawei et l'écosystème chinois. La série Ascend 910B et 910C offre des performances compétitives avec les H100 de NVIDIA, et le plus récent Ascend 920 vise les Blackwell. Derrière Huawei, toute une industrie (SMIC pour la fabrication, MindSpore pour le framework logiciel) se structure pour créer un écosystème IA autonome. La Chine vise l'autosuffisance en semi-conducteurs IA d'ici 2027.
La fracture technologique s'accentue : les hyperscalers chinois (Alibaba Cloud, Tencent Cloud, Baidu Cloud) migrent progressivement vers Ascend, tandis que le reste du monde reste sur NVIDIA et AMD. C'est une division du marché mondial qui se dessine.
Les hyperscalers : quand les clients deviennent concurrents
Phenomène marquant de 2025-2026 : les géants du cloud fabriquent désormais leurs propres puces IA pour réduire leur dépendance à NVIDIA.
- Google TPU v5 et v6 — utilisés en interne pour Gemini, et accessibles aux clients via Google Cloud. Hautement optimisés pour TensorFlow/JAX.
- AWS Trainium et Inferentia — puces maison d'Amazon, vendues à 30-50 % moins cher que les GPU NVIDIA équivalents sur AWS.
- Microsoft Maia — accélérateur interne d'Azure, lancé en 2024 pour alimenter les instances OpenAI.
- Meta MTIA — puces conçues pour les recommandations et l'inférence des modèles Llama.
- Apple Silicon — les puces M5 (rumeurs pour fin 2026) intègrent un NPU dédié pour l'IA on-device sur Mac et iPhone.
Chaque hyperscaler développe ses puces pour contrôler ses coûts et son calendrier, réduisant mécaniquement la part du marché adressable par NVIDIA et AMD. Mais l'écart logiciel reste énorme : CUDA reste la référence pour l'entraînement de frontière.
Les startups spécialisées qui bousculent l'inférence
Un sous-ensemble de startups se concentre sur l'inférence (faire tourner les modèles plutôt que les entraîner), avec des architectures radicalement différentes.
- Groq — avec son LPU (Language Processing Unit), très optimisée pour la latence ultra-basse. Mistral, Meta et d'autres utilisent Groq pour l'inférence temps réel.
- Cerebras — wafer-scale chip (une puce de la taille d'un plateau de pizza), 900 000 cœurs dans un seul chip. Fournit des performances record sur les très gros modèles.
- SambaNova — architecture dataflow, cible les déploiements enterprise à grande échelle.
- Tenstorrent — dirigée par Jim Keller (l'architecte derrière les processeurs AMD Zen et Apple Silicon), pariant sur une approche ouverte RISC-V.
Ces acteurs ne menacent pas la domination de NVIDIA sur l'entraînement, mais grignotent des parts sur l'inférence, un marché qui devrait dépasser l'entraînement en volume dès 2027.
La géopolitique : les puces comme arme diplomatique
Depuis 2022, les États-Unis ont imposé des restrictions d'exportation sur les GPU de pointe vers la Chine. Le H100 a été bloqué, puis une version réduite (le H800, puis le H20) a été autorisée sous conditions. En 2025, l'administration Trump a révisé partiellement ces contraintes en autorisant les ventes de H200 à la Chine avec une surtaxe de 25 %, tout en maintenant le bloc sur les Blackwell.
Conséquence : un marché parallèle de contrebande a explosé. En 2025, le Département de la Justice américain a démantelé un réseau de contrebande de 160 millions de dollars. Pour NVIDIA, la Chine représente un marché clé qu'ils tentent de conserver partiellement malgré les contraintes, tandis que Huawei bénéficie d'un marché domestique captif pour accélérer son rattrapage.
TSMC : l'acteur invisible qui tient le robinet
Un fait trop souvent oublié : TSMC (Taiwan Semiconductor Manufacturing Company) fabrique physiquement la quasi-totalité des GPU NVIDIA, AMD et Apple. Ses usines sur les nœuds 3 nm et 2 nm sont les seules au monde capables de produire les puces de pointe. Cette dépendance crée un risque géopolitique majeur : une crise dans le détroit de Taïwan paralyserait mondialement l'approvisionnement en GPU.
En réponse, les États-Unis (via le CHIPS Act de 66 milliards de dollars) et l'Europe (via l'European Chips Act de 43 milliards) financent la construction d'usines sur leur sol. TSMC construit son usine en Arizona, Samsung au Texas, Intel au Ohio. Mais les premières productions de pointe n'arriveront qu'en 2027-2028.
Que retenir pour investir ou comprendre le secteur ?
Les dynamiques clés à retenir pour 2026-2028 :
- NVIDIA restera dominant sur l'entraînement tant que CUDA conserve son avance logicielle. Passer en-dessous de 70 % de part de marché prendra plusieurs années.
- AMD est la deuxième option structurellement crédible et bénéficie de la demande de diversification des hyperscalers.
- Intel reste un pari à risque : l'entreprise doit prouver l'exécution de sa stratégie Jaguar Shores et de sa foundry 18A.
- Les hyperscalers (Google, AWS, Microsoft, Meta) fabriquant leurs puces maison grignotent le marché par le bas.
- L'inférence deviendra plus grande que l'entraînement en volume d'ici 2027, ouvrant des opportunités pour les spécialistes (Groq, Cerebras, SambaNova).
- La Chine construit son écosystème parallèle (Huawei + SMIC + MindSpore) : à terme, deux mondes technologiques distincts.
FAQ puces IA
Qu'est-ce que la mémoire HBM et pourquoi est-ce stratégique ?
La HBM (High Bandwidth Memory) est une mémoire empilee en 3D, directement intégrée à côté du GPU. Elle offre une bande passante 10 fois supérieure à la GDDR classique. Sans HBM4 (dernière génération), impossible d'alimenter suffisamment vite un GPU IA moderne. SK Hynix, Samsung et Micron sont les trois seuls fournisseurs mondiaux — une autre chokepoint de la chaîne.
Pourquoi NVIDIA vaut-elle si cher ?
Au-delà des chiffres de vente (plus de 100 milliards de dollars de revenus annuels en rythme de croisière), les investisseurs valorisent la douve logicielle CUDA (quasi impossible à répliquer), la position de monopole de facto sur l'entraînement d'IA, et la croissance structurelle de la demande. C'est l'une des histoires de croissance les plus violentes jamais observées sur un grand groupe coté.
Peut-on faire tourner de l'IA sans GPU NVIDIA ?
Oui, mais pas au niveau frontier. Pour l'inférence de modèles moyens, Apple Silicon, AMD, AWS Trainium ou Groq fonctionnent très bien. Pour entraîner un modèle de la taille de GPT-5.4 ou Claude Opus 4.7, NVIDIA reste aujourd'hui la seule option industriellement viable à l'échelle requise.
Un particulier peut-il acheter ces cartes ?
Pas les B200, réservés aux data centers (40 000+ $ l'unité, disponibles uniquement en livraison enterprise). Mais les RTX 5090 (architecture Blackwell grand public, 2 000-3 000 €) et les RTX 4090 d'occasion permettent déjà de faire tourner localement des LLM de 70 milliards de paramètres. Deux RTX 5090 égalent même les performances d'un H100 pour certains modèles, à une fraction du coût.
Les informations sur les parts de marché, prix et stratégies sont issues des rapports officiels des entreprises, des analyses d'IntuitionLabs et de The Register. Le marché des semi-conducteurs évolue rapidement ; certaines données peuvent changer d'ici quelques mois.