Choisir entre RAG et Fine-tuning

On entend souvent dire “je veux fine-tuner Llama 3 pour qu’il connaisse la documentation de mon entreprise”. C’est une erreur classique d’architecture.

Faire ingérer des connaissances factuelles à un modèle via le fine-tuning est coûteux, inefficace et impossible à mettre à jour rapidement. Pour comprendre comment concevoir votre application, il faut séparer la mémoire du comportement.

Le RAG pour la connaissance dynamique

Le RAG (Retrieval-Augmented Generation) agit comme un moteur de recherche couplé à une synthèse. Le modèle ne connaît pas la réponse d’avance, on lui fournit le texte exact dans le prompt juste avant qu’il réponde.

Pourquoi utiliser le RAG

Données changeantes Un document mis à jour remplace l’ancien dans la base vectorielle instantanément.
Traçabilité Vous savez exactement quel paragraphe a servi à générer la réponse.
Coût Vectoriser du texte coûte infiniment moins cher que de calculer des gradients sur un GPU.

Le Fine-tuning pour le comportement

Le fine-tuning modifie les “réflexes” du modèle. On l’utilise pour lui apprendre à parler un certain jargon, à adopter un format strict ou à réagir avec une personnalité spécifique.

Pourquoi fine-tuner

Formatage strict Apprendre au modèle à toujours répondre en JSON ou dans un dialecte interne.
Réduction du prompt Au lieu de donner 50 exemples dans chaque requête (few-shot), le modèle a déjà assimilé la structure.
Tâches très spécifiques Classification de texte métier, extraction d’entités avec un schéma figé.

La règle d’or

Si vous voulez que le modèle sache quoi dire, utilisez le RAG. Si vous voulez que le modèle sache comment le dire, utilisez le fine-tuning.

Dans les architectures d’entreprise matures, on combine souvent les deux. Un petit modèle (8B) fine-tuné pour suivre parfaitement les consignes internes, branché sur un système RAG pour aller chercher l’information fraîche.