Déployer un LLM localement avec Ollama

Faire tourner un modèle d’intelligence artificielle sur son propre matériel n’est plus réservé aux chercheurs équipés de supercalculateurs. C’est devenu accessible, et surtout, indispensable si vous tenez à vos données.

Aujourd’hui, l’outil le plus simple et le plus robuste pour y parvenir s’appelle Ollama.

Pourquoi tout faire en local ?

Quand vous utilisez une API comme celle d’OpenAI, chaque prompt est envoyé sur leurs serveurs. En local, c’est l’inverse.

Vous gardez la maîtrise totale de vos données (code source, documents internes).
Vous ne payez pas à chaque token généré.
Vous êtes indépendant des pannes réseau ou des changements de politique tarifaire.

Ollama masque toute la complexité sous-jacente (comme la gestion de la mémoire VRAM ou la compilation C++) et vous offre une expérience aussi simple que Docker.

Installation

Sur macOS ou Linux, ouvrez votre terminal et lancez cette commande.

curl -fsSL https://ollama.com/install.sh | sh

Si vous êtes sur Windows, un installeur classique est disponible sur leur site.

Lancer votre premier modèle

Ollama gère lui-même le téléchargement des poids du modèle. Pour tester Gemma 2 (le modèle performant de Google, parfait pour un usage quotidien).

ollama run gemma2

La première fois, l’outil va télécharger environ 4.7 Go. Ensuite, un prompt interactif s’affiche directement dans votre terminal. Vous pouvez poser vos questions, le modèle tourne chez vous.

Commandes utiles au quotidien

Si vous avez l’habitude de Docker, vous ne serez pas perdu.

# Lister les modèles téléchargés sur votre disque
ollama list

# Supprimer un modèle pour libérer de l'espace
ollama rm mistral

# Mettre à jour un modèle vers sa dernière version
ollama pull gemma2

L’API locale

Le vrai pouvoir d’Ollama pour un développeur, c’est qu’il expose automatiquement une API locale (sur le port 11434). Mieux encore, cette API est compatible avec le format d’OpenAI.

Vous pouvez donc tester vos scripts d’IA sans dépenser un centime.

curl http://localhost:11434/api/chat -d '{
  "model": "gemma2",
  "messages": [
    { "role": "user", "content": "Explique-moi l'architecture microservices." }
  ]
}'

C’est une bonne base pour commencer à coder vos propres applications avec de l’IA.