Meta 2024 1B / 3B Text Generation

Llama 3.2

La version ultra-légère de Llama. En 1B et 3B, ce modèle est pensé pour tourner directement sur mobile ou sur du matériel très modeste.

Aperçu

Avec Llama 3.2, Meta se lance dans les modèles “on-device”. Contrairement aux versions plus grosses (8B+), les variantes 1B et 3B sont optimisées pour une faible latence et une empreinte mémoire minimale, tout en gardant une fenêtre de contexte de 128k tokens.

C’est le bon choix pour des tâches de résumé, de reformulation ou d’extraction d’entités directement en local, sans que rien ne quitte la machine.

Inférence locale (llama.cpp)

Grâce à sa petite taille, Llama 3.2 tourne sur la plupart des CPU modernes avec une bonne vitesse de génération (souvent plus de 50 tokens/seconde).

# Lancement de la version 3B (format GGUF)
./llama-cli -m llama-3.2-3b-instruct-q8_0.gguf -p "Réalise un résumé de ce texte : [votre texte]"

# La version 1B peut même tourner avec seulement 1 Go de RAM
./llama-cli -m llama-3.2-1b-instruct-q4_k_m.gguf -n 256 -p "Écris une blague sur les serveurs."

Cas d’usage “Edge”

L’un des gros avantages de Llama 3.2, c’est le déploiement sur des architectures ARM (Apple Silicon, Raspberry Pi 5, smartphones Android). On peut monter des assistants IA complètement hors-ligne avec un temps de réponse quasi instantané.

Le modèle 3B est assez surprenant dans sa capacité à suivre des instructions complexes malgré sa petite taille.