Mistral NeMo - Mistral AI

Aperçu

Mistral NeMo (12 milliards de paramètres) se place entre les petits modèles (7-8B) et les gros (70B+). Son point fort, c’est son architecture optimisée pour traiter jusqu’à 128 000 tokens d’un coup, soit l’équivalent d’un roman de 300 pages.

Il embarque aussi le tokenizer Tekken, environ 30% plus efficace sur le code source et les langues autres que l’anglais (dont le français).

Exploiter le contexte long

Pour faire tourner ce modèle localement, Ollama ou vLLM sont recommandés pour gérer efficacement la mémoire requise par le contexte étendu.

1. Lancement avec Ollama

Ollama gère parfaitement Mistral NeMo. Attention cependant à la RAM consommée si vous envoyez de très gros documents dans le contexte.

ollama run mistral-nemo

2. Résumé de document en Python

Comment utiliser le modèle pour résumer un long texte en utilisant l’API Hugging Face.

from transformers import pipeline

pipe = pipeline("text-generation", model="mistralai/Mistral-Nemo-Instruct-2407")

long_texte = "... insérez un rapport de 50 pages ici ..."
prompt = "Résume les points clés de ce document en français :

" + long_texte

response = pipe(prompt, max_new_tokens=500)
print(response[0]['generated_text'])

Format de Prompt

Mistral utilise son format standard de balises d’instructions, très simple à retenir.

<s>[INST] Quelle est la capitale de la France ? [/INST] La capitale de la France est Paris.</s>[INST] Et sa population ? [/INST]

Cas d’usage recommandés

RAG (Génération Augmentée par la Recherche) : Injecter de nombreux documents dans le contexte pour des réponses ultra-précises.
Analyse Juridique / Financière : Lire et analyser des contrats ou des rapports financiers d’une traite.
Programmation : Passer la base de code entière d’un petit projet dans le prompt pour demander des refactorisations globales.