Installer un LLM en local en 2026 : Ollama, LM Studio, vLLM — le guide complet

Ollama, LM Studio, vLLM, llama.cpp : installez une IA privée sur votre machine en 10 minutes. Llama 3.3, Mistral, Qwen 3, DeepSeek — guide complet des modèles, configurations et outils en 2026.

Intelligence Artificielle••Publié le 18 avril 2026 à 09:57

Faire tourner un grand modèle de langage directement sur votre machine, sans abonnement, sans envoyer la moindre donnée à un serveur tiers, c'est désormais accessible en moins de 10 minutes. Les outils comme Ollama, LM Studio, vLLM et llama.cpp rendent cette installation aussi simple que d'installer Chrome. Ce guide couvre les 4 méthodes principales, les modèles recommandés en avril 2026 (Llama 3.3, Mistral, Qwen 3, DeepSeek Coder), les configurations matérielles minimales et les cas d'usage pour chaque outil.

Pourquoi faire tourner un LLM en local ?

Trois raisons majeures motivent ce choix en 2026. D'abord, la confidentialité : vos prompts et documents ne quittent jamais votre machine, ce qui résout d'un coup la plupart des contraintes RGPD. Ensuite, le coût : une fois le modèle installé, l'usage est illimité et gratuit, quel que soit le volume de requêtes. Enfin, la disponibilité : pas de panne d'API, pas de limite de requêtes, pas de dépendance à une connexion Internet. Pour les développeurs, équipes techniques, juristes, chercheurs et toute profession qui traite des documents sensibles, c'est devenu un standard.

La contrepartie : les modèles locaux sont généralement un cran en-dessous des modèles frontier (GPT-5.4, Claude Opus 4.7, Gemini 3.1 Pro) en pure performance. Mais l'écart s'est considérablement réduit : pour 80 % des tâches courantes, un bon modèle local fait l'affaire.

De quelle machine avez-vous besoin ?

La consommation mémoire est le facteur limitant principal. Voici les ordres de grandeur à retenir pour des modèles quantisés en Q4 (le standard grand public) à contexte 4K :

Modèle 3B (Phi-3 Mini, Gemma 3 4B) : environ 2,5 Go VRAM ou 4 Go RAM. Tourne sur n'importe quel ordinateur récent.
Modèle 7B-8B (Llama 3.1 8B, Qwen 3 8B, Mistral 7B) : environ 5 Go VRAM ou 8 Go RAM. Mac M1/M2 de base, PC portable avec GPU 6 Go.
Modèle 14B-24B (Mistral Small 3.1, Qwen 3 14B) : 12 à 16 Go VRAM. Mac M-series 24+ Go, PC avec GPU RTX 4070+.
Modèle 32B-70B (Llama 3.3 70B) : 40 à 48 Go VRAM, ou 64 Go RAM pour faire tourner en CPU (beaucoup plus lent).
Contexte long (32K tokens+) : comptez environ 50 à 80 % de mémoire en plus selon le modèle.

Un Mac avec puce Apple Silicon (M1, M2, M3, M4) est particulièrement adapté grâce à sa mémoire unifiée : un MacBook Pro 16 Go peut déjà faire tourner confortablement un Mistral 7B. Côté PC, une GPU NVIDIA RTX 3060 (12 Go) est le point d'entrée raisonnable pour les modèles 7B-8B.

Ollama : la solution la plus simple

Ollama est devenu le standard de facto pour l'installation locale. Il s'installe en une commande, gère automatiquement le téléchargement et le chargement des modèles, expose une API compatible OpenAI sur le port 11434, et tourne en démon en arrière-plan. Sur macOS et Linux, l'installation tient en une ligne :

`curl -fsSL https://ollama.ai/install.sh | sh`
`ollama run llama3.1` (lance Llama 3.1 8B, télécharge automatiquement si absent)
`ollama run mistral` (Mistral 7B)
`ollama run qwen2.5-coder:7b` (modèle spécialisé code)
`ollama list` (voir les modèles installés)
`ollama rm mistral` (supprimer un modèle)

Sur Windows, un installeur graphique est disponible sur le site officiel. Les modèles se téléchargent depuis la bibliothèque Ollama qui en compte plusieurs centaines, avec les variantes de tailles et de quantifications présentées clairement. Idéal pour débuter.

LM Studio : l'interface graphique pour explorer

LM Studio est souvent décrit comme « Ollama avec une UI ». Il offre une interface de chat complète, un navigateur de modèles intégré (avec filtre par taille, capacités, popularité), et un serveur local compatible OpenAI sur le port 1234. Particulièrement adapté à la phase d'exploration : tester plusieurs modèles sur vos prompts avant de choisir lequel déployer.

Points forts : pas de commandes à taper, visualisation en temps réel de la consommation VRAM/RAM, paramètres réglables (température, top-p, context length) sans toucher à un fichier de config. Limite : sur les charges multi-utilisateurs, l'architecture est moins robuste qu'Ollama.

vLLM : la solution production haute performance

vLLM est une autre catégorie. Conçu pour la production et les charges multi-utilisateurs, il implemente le PagedAttention qui optimise la mémoire GPU et permet un throughput 5 à 15 fois supérieur à Ollama pour les scénarios avec plusieurs requêtes simultanées. Requiert Linux avec GPU NVIDIA et un peu de débutage.

Installation via pip : `pip install vllm`. Démarrage d'un serveur : `vllm serve Qwen/Qwen3-32B`. L'API est compatible OpenAI sur le port 8000 par défaut. À privilégier si vous déployez un LLM pour une équipe ou une application interne, avec plusieurs requêtes par seconde.

llama.cpp : le moteur sous-jacent, contrôle maximal

llama.cpp est le moteur d'inférence open source qui propulse Ollama, LM Studio, Jan et la plupart des autres outils. L'utiliser directement donne accès à tous les paramètres, permet des quantisations personnalisées (choisir le compromis exact qualité/taille), et supporte l'inférence hybride CPU+GPU. Trade-off : installation plus technique (compilation C++), gestion manuelle des fichiers GGUF, pas d'interface.

À considérer si vous voulez optimiser au maximum les performances sur votre matériel spécifique, ou utiliser un modèle pas encore disponible dans la bibliothèque Ollama.

Quelle solution choisir selon votre profil

Débutant, Mac ou PC portable : Ollama + un client de chat comme Open-WebUI ou Jan pour l'interface. Installation en 5 minutes.
Utilisateur sérieux, expérimentation multiple : LM Studio pour sa UI complète et son navigateur de modèles.
Déploiement équipe ou production : vLLM derrière un reverse proxy type nginx ou Caddy.
Optimisation hardware ou quantisation custom : llama.cpp compilé à la main.

Les meilleurs modèles locaux en avril 2026

Le paysage bouge très vite. Voici un panorama à jour des options les plus intéressantes selon vos usages.

Pour un usage généraliste

Llama 3.3 70B (Meta) est le modèle open source généraliste le plus performant. Requiert 40+ Go VRAM ou 64 Go RAM. Pour une machine plus modeste, Llama 3.1 8B reste un excellent choix polyvalent. Qwen 3 (Alibaba) rivalise avec Llama sur de nombreuses tâches et se décline en plusieurs tailles (0,5B jusqu'à 72B).

Pour le code

DeepSeek Coder V2 (version 16B MoE) est parmi les meilleurs modèles de code en open source, souvent comparé à GPT-4 sur certains benchmarks. Qwen2.5 Coder (7B et 32B) est plus léger et excelle pour l'auto-completion dans un IDE. Codestral (Mistral) est optimisé spécifiquement pour le code, avec une licence Apache 2.0 pour la version 22B.

Pour le français et l'Europe

Mistral Small 3.1 (24B, Apache 2.0) est le meilleur modèle multilingue européen grand public actuellement, avec une maîtrise particulièrement fine du français. Tourne confortablement sur 16 Go RAM. Ministral (3B et 8B) est la version légère adaptée aux machines modestes.

Pour les machines modestes

Phi-3 Mini (Microsoft, 3,8B) tient dans 2,5 Go, tourne sur des laptops sans GPU dédié. Gemma 3 4B (Google) est une autre option légère très optimisée. Qwen 3 1,7B est parmi les plus petits modèles utilisables pour des tâches simples.

Connecter une interface de chat à votre modèle

Une fois Ollama installé, vous pouvez y brancher une interface graphique moderne similaire à ChatGPT. Les options populaires :

Open-WebUI : interface web auto-hébergée, multi-utilisateurs, support RAG et documents. Installation via Docker en 1 commande.
Jan : application desktop native, offline-first, très épurée.
LibreChat : clone ChatGPT open source, supporte simultanément modèles locaux et API cloud.
Msty : application desktop premium (Mac/Windows/Linux), interface soignée, multiple modèles en parallèle.
Continue (VS Code) ou Cody : extensions IDE pour avoir l'IA intégrée dans votre éditeur de code.

Quantisation : comprendre ce terme en 2 minutes

La quantisation réduit la précision numérique des poids du modèle pour diminuer sa taille. Un modèle 7B en FP16 pèse environ 14 Go ; le même quantisé en Q4 ne pèse plus que 4-5 Go avec une perte de qualité généralement minime. Les variantes courantes, du plus léger au plus lourd : Q2, Q3, Q4_K_M, Q5_K_M, Q6_K, Q8, FP16. Pour un usage général, Q4_K_M offre le meilleur compromis. Si vous avez la VRAM, Q6 ou Q8 conservent davantage de précision. FP16 est réservé aux configurations haut de gamme.

Intégrer votre LLM local dans un IDE

Pour les développeurs, le cas d'usage le plus immédiat est de remplacer GitHub Copilot par un modèle local. Extension Continue pour VS Code ou JetBrains : pointez-la vers `http://localhost:11434` (Ollama) ou `http://localhost:1234` (LM Studio) et vous avez l'auto-completion et le chat intégrés dans votre éditeur, gratuitement. Les CLI comme Claude Code, Codex ou Aider peuvent aussi se connecter à n'importe quel serveur compatible OpenAI.

Configuration type : `/v1/chat/completions` sur l'URL locale, modèle spécifié dans la configuration, clé API bidon (certaines extensions en demandent une, mais elle n'est pas vérifiée localement).

Les pièges classiques à éviter

Télécharger un modèle trop gros pour son matériel : vérifiez toujours la VRAM/RAM requise avant.
Oublier de régler le contexte : par défaut, certains outils limitent à 2K tokens. Pour des documents longs, passez à 8K, 16K ou 32K selon votre machine.
Comparer un modèle local 7B avec GPT-5.4 : vous serez déçu. Comparez plutôt à un modèle de même catégorie.
Exposer le serveur Ollama sur Internet sans authentification : un scan Shodan a trouvé plus de 40 000 instances exposées en janvier 2026. Gardez-le sur localhost ou derrière un reverse proxy avec authentification.
Négliger la quantisation : un modèle 13B Q4 est souvent meilleur qu'un 7B FP16 pour la même empreinte mémoire.

FAQ LLM local

Un modèle local peut-il égaler ChatGPT ou Claude ?

Pour les cas d'usage les plus complexes (code avancé, raisonnement pointu, agents longue durée), non — les modèles frontier gardent une avance. Pour 70 à 80 % des tâches courantes (rédaction, résumé, traduction, code simple, questions générales), un Llama 3.3 70B ou Qwen 3 32B donne des résultats très proches.

Ça consomme combien d'électricité ?

En inférence active, un GPU RTX 4070 consomme 150-200W, soit environ 0,03 € de l'heure d'utilisation intensive. Sur un MacBook Apple Silicon, la consommation est beaucoup plus faible (30-50W en inférence). À relativiser par rapport au coût des abonnements cloud.

Puis-je fine-tuner un modèle sur mes propres données ?

Oui. Les outils comme Unsloth (simple, optimisé pour les petites configurations) ou Axolotl (plus avancé) permettent de fine-tuner un modèle 7B sur un GPU 24 Go en quelques heures. Le résultat : un modèle spécialisé sur votre domaine, votre ton, votre vocabulaire.

Quel est le modèle le plus rapide ?

Les petits modèles (Phi-3 Mini, Gemma 3 4B) peuvent atteindre 100+ tokens/seconde sur GPU moderne. Les modèles 7B tournent typiquement à 30-60 tokens/s. Les 70B sur CPU sont beaucoup plus lents (2-5 tokens/s). Pour l'interactivité, la règle : plus petit est souvent mieux.

Installer un LLM localement est légal tant que vous respectez la licence du modèle choisi. Llama, Mistral, Qwen, DeepSeek et Phi sont tous publiés sous des licences permettant l'usage personnel et souvent commercial (avec des clauses spécifiques à vérifier selon le cas).

Neura