Mistral NeMo
Collaboration avec NVIDIA. Un modèle 12B avec une fenêtre de contexte de 128k, bien adapté au RAG et à l'analyse de documents longs.
Aperçu
Mistral NeMo (12 milliards de paramètres) se place entre les petits modèles (7-8B) et les gros (70B+). Son point fort, c’est son architecture optimisée pour traiter jusqu’à 128 000 tokens d’un coup, soit l’équivalent d’un roman de 300 pages.
Il embarque aussi le tokenizer Tekken, environ 30% plus efficace sur le code source et les langues autres que l’anglais (dont le français).
Exploiter le contexte long
Pour faire tourner ce modèle localement, Ollama ou vLLM sont recommandés pour gérer efficacement la mémoire requise par le contexte étendu.
1. Lancement avec Ollama
Ollama gère parfaitement Mistral NeMo. Attention cependant à la RAM consommée si vous envoyez de très gros documents dans le contexte.
ollama run mistral-nemo
2. Résumé de document en Python
Comment utiliser le modèle pour résumer un long texte en utilisant l’API Hugging Face.
from transformers import pipeline
pipe = pipeline("text-generation", model="mistralai/Mistral-Nemo-Instruct-2407")
long_texte = "... insérez un rapport de 50 pages ici ..."
prompt = "Résume les points clés de ce document en français :
" + long_texte
response = pipe(prompt, max_new_tokens=500)
print(response[0]['generated_text'])
Format de Prompt
Mistral utilise son format standard de balises d’instructions, très simple à retenir.
<s>[INST] Quelle est la capitale de la France ? [/INST] La capitale de la France est Paris.</s>[INST] Et sa population ? [/INST]
Cas d’usage recommandés
- RAG (Génération Augmentée par la Recherche) : Injecter de nombreux documents dans le contexte pour des réponses ultra-précises.
- Analyse Juridique / Financière : Lire et analyser des contrats ou des rapports financiers d’une traite.
- Programmation : Passer la base de code entière d’un petit projet dans le prompt pour demander des refactorisations globales.