fr.brain.carotte-7B - experimental.brain.fr

Créé dans le cadre des recherches menées sur experimental.brain.fr, fr.brain.carotte-7B est un modèle francophone expérimental. Il représente une archive intéressante de l’état de l’art de l’IA générative ouverte d’il y a plus de deux ans.

Attention : Le paysage de l’IA évolue à une vitesse fulgurante. Ce modèle est aujourd’hui dépassé par des architectures plus récentes et optimisées (comme Llama 3 ou Gemma 2). Il est présenté ici à titre historique et éducatif pour comprendre comment déployer un ancien modèle GGUF brut.

Pourquoi tester ce modèle ?

Si vous vous intéressez à l’évolution des LLMs, faire tourner un modèle de la génération précédente permet de mesurer le chemin parcouru, notamment en termes de cohérence, de gestion du contexte et de qualité du français.

Inférence locale avec llama.cpp

Contrairement aux modèles récents souvent pré-packagés pour Ollama, nous allons déployer celui-ci “à la dure” avec le moteur llama.cpp pur, exactement comme cela se faisait à l’époque.

1. Télécharger le fichier GGUF

Le format GGUF (successeur du GGML) contient tous les poids du modèle quantifié (compressé) pour tenir dans la RAM d’un ordinateur standard. Nous utilisons ici la version Q4_K_M (quantification 4-bit optimisée), qui pèse un peu plus de 4 Go.

Téléchargez le modèle directement depuis Hugging Face avec wget ou curl :

wget https://huggingface.co/lbl/fr.brain.carotte-7B-gguf/resolve/main/fr.brain.carotte-7B-Q4_K_M.gguf

2. Exécuter le modèle

Si vous avez déjà compilé ou installé llama.cpp sur votre machine (voir notre tutoriel dédié à llama.cpp), naviguez dans son dossier et lancez la commande suivante.

Nous utiliserons le paramètre -p pour lui donner un prompt initial et -n pour limiter le nombre de tokens générés.

./llama-cli -m /chemin/vers/fr.brain.carotte-7B-Q4_K_M.gguf 
  -n 256 
  -p "La recette traditionnelle du boeuf bourguignon implique"

3. Activer l’accélération GPU

Si vous possédez une carte graphique dédiée (NVIDIA) ou un Mac avec puce Apple Silicon (M1/M2/M3), vous pouvez considérablement accélérer la génération en déchargeant les couches de calcul sur le GPU avec l’argument -ngl (Number of GPU Layers).

./llama-cli -m fr.brain.carotte-7B-Q4_K_M.gguf -ngl 99 -p "Explique-moi l'intelligence artificielle en français : "

Une fois l’exécution terminée, analysez la réponse. Vous remarquerez probablement une syntaxe parfois hésitante ou des hallucinations plus fréquentes que sur les modèles d’aujourd’hui. C’est l’illustration parfaite des progrès accomplis par la communauté open-source en 24 mois.