Llama 3
La nouvelle génération de modèles ouverts par Meta. De bons résultats pour sa taille, adapté à l'inférence locale et au raisonnement.
Aperçu
Llama 3 est disponible en deux tailles principales. 8 milliards (8B) et 70 milliards (70B) de paramètres. La version 8B est intéressante parce qu’elle fait mieux que pas mal de modèles plus lourds de la génération précédente, tout en tournant sur un portable standard.
L’entraînement a porté sur 15 trillions de tokens, avec beaucoup de code et de données multilingues, ce qui lui donne de bonnes capacités de raisonnement logique.
Inférence locale avec Ollama
La méthode la plus simple pour utiliser Llama 3 sur votre machine (Mac, Linux, ou Windows via WSL) est d’utiliser Ollama.
1. Installation
curl -fsSL https://ollama.com/install.sh | sh
2. Lancement du modèle (version 8B)
La version 8B nécessite environ 8 Go de RAM. La commande suivante va télécharger le modèle (environ 4.7 Go) et lancer une interface de chat interactive.
ollama run llama3
Format de Prompt (Instruct)
Pour que Llama 3 réponde correctement, il est crucial de respecter son format de prompt spécifique. Si vous utilisez Ollama, ce formatage est géré automatiquement. Si vous l’utilisez via l’API transformers, la structure requise est la suivante.
<|begin_of_text|><|start_header_id|>system<|end_header_id|>
Vous êtes un assistant IA utile.<|eot_id|><|start_header_id|>user<|end_header_id|>
Écris une fonction Python pour trier un tableau.<|eot_id|><|start_header_id|>assistant<|end_header_id|>
Cas d’usage recommandés
- Version 8B : Assistante locale rapide, summarization de textes, RAG (Retrieval-Augmented Generation) sur des bases de données documentaires.
- Version 70B : Génération de code complexe, raisonnement mathématique, création d’agents autonomes.