Qu'est-ce que l'Attention (Attention Mechanism) ?

L'Attention est un mécanisme qui permet aux modèles de focaliser sur certaines parties d'un texte plus que sur d'autres, améliorant ainsi leur capacité à comprendre et générer du texte.

Qu'est-ce qu'une complétion (Completion) ?

Une complétion est le processus par lequel un modèle de langue génère du texte en réponse à une invite ou un début de phrase donné.

Qu'est-ce qu'un prompt ?

Un prompt est une entrée donnée à un modèle de langue, souvent sous forme de texte, à laquelle le modèle réagit en générant ou complétant du texte.

Qu'est-ce que le System Prompt (Instruction Système) ?

Le System Prompt est une instruction de haut niveau donnée au modèle avant le début d'une conversation pour définir son comportement, sa personnalité ou ses contraintes (ex: 'Tu es un expert en cybersécurité').

Qu'est-ce que le RAG (Retrieval-Augmented Generation) ?

Le RAG est une technique qui permet à un LLM d'accéder à des données externes (documents, bases de données) en temps réel pour répondre à une question, réduisant ainsi les hallucinations et permettant d'utiliser des informations privées ou récentes.

Qu'est-ce qu'une Hallucination ?

Une hallucination se produit lorsqu'un modèle génère une réponse qui semble cohérente et factuelle mais qui est en réalité fausse ou inventée.

Qu'est-ce que le Fine-tuning (Ajustement fin) ?

Le fine-tuning est le processus consistant à prendre un modèle déjà pré-entraîné et à l'entraîner davantage sur un jeu de données spécifique pour le spécialiser dans une tâche ou un domaine particulier.

Qu'est-ce que le RLHF (Reinforcement Learning from Human Feedback) ?

C'est une méthode d'alignement où les humains notent les réponses du modèle pour lui apprendre lesquelles sont préférables, aidant à rendre l'IA plus utile et plus sûre.

Qu'est-ce que la Fenêtre de Contexte (Context Window) ?

Il s'agit de la quantité maximale de texte (tokens) qu'un modèle peut 'lire' et garder en mémoire à un instant T pour générer sa réponse.

Qu'est-ce qu'un modèle Multimodal ?

Un modèle multimodal est capable de traiter et de générer différents types de données simultanément, comme du texte, des images, de l'audio ou de la vidéo.

Qu'est-ce que le MoE (Mixture of Experts) ?

C'est une architecture (comme celle de Mixtral) où le modèle est divisé en plusieurs 'experts'. Seule une petite partie du modèle est activée pour chaque token, ce qui permet d'avoir un gros modèle très rapide.

Qu'est-ce qu'une Base de Données Vectorielle (Vector Database) ?

Une base de données optimisée pour stocker et rechercher des embeddings (vecteurs). Elle est essentielle pour le RAG afin de trouver rapidement les documents les plus proches d'une question.

Qu'est-ce que la Température (Temperature) ?

C'est un paramètre qui contrôle le degré de créativité ou de hasard dans les réponses. Une température basse (0.1) rend le modèle factuel et répétitif, une température haute (0.8+) le rend plus créatif et imprévisible.

Qu'est-ce que le format GGUF ?

Le GGUF est le format de fichier standard pour l'inférence locale. Il permet de stocker des modèles quantifiés et de les faire tourner efficacement sur CPU et GPU, tout en étant facile à distribuer en un seul fichier.

Qu'est-ce que GELU ?

GELU (Gaussian Error Linear Unit) est une fonction d'activation utilisée dans les réseaux neuronaux, permettant de moduler les signaux passant entre les couches du réseau.

Qu'est-ce que RELU ?

RELU (Rectified Linear Unit) est une fonction d'activation populaire dans les réseaux de neurones, utilisée pour introduire la non-linéarité dans le modèle.

Qu'est-ce que softmax ?

Softmax est une fonction qui convertit un vecteur de scores en probabilités, souvent utilisée dans les couches de sortie des modèles de classification pour représenter des probabilités distribuées.

Qu'est-ce que le décodage (Decoding) ?

Le décodage est le processus de conversion de représentations internes ou encodées en données compréhensibles ou utilisables, comme du texte généré.

Qu'est-ce que l'encodage (Encoding) ?

L'encodage est le processus de conversion de données d'entrée, comme du texte, en une forme interne que le modèle peut traiter.

Qu'est-ce que la tokenisation (Tokenization) ?

La tokenisation est le processus de découpage d'un texte en morceaux plus petits, appelés tokens, qui peuvent être des mots, des caractères ou des sous-mots.

Qu'est-ce qu'un embedding ?

Un embedding est une représentation vectorielle d'un mot, d'un token ou d'une phrase, capturant le contexte et la signification dans un espace de dimension réduite.

Qu'est-ce que la quantification (Quantization) ?

La quantification est un processus visant à réduire la précision des nombres utilisés dans un modèle, permettant de diminuer sa taille et d'accélérer son exécution sans compromettre significativement les performances.

Qu'est-ce qu'un tenseur (Tensor) ?

Un tensor est une structure de données multi-dimensionnelle utilisée pour stocker des données numériques, servant de bloc de construction de base pour les opérations dans les réseaux de neurones.

Qu'est-ce qu'un tenseur épars (Sparse Tensor) ?

Un tensor épars est un tensor où la majorité des éléments sont zéro, permettant une représentation et un traitement plus efficaces des données de grande dimension peu denses.

Qu'est-ce qu'un vecteur (Vector) ?

Un vecteur est un tableau unidimensionnel de nombres utilisé pour représenter des données dans un espace vectoriel, souvent utilisé comme le bloc de construction le plus simple d'un tensor.

Comment est implémentée l'attention ?

L'attention est implémentée via un mécanisme mathématique qui calcule un score d'attention pour chaque paire de mots dans une séquence, permettant au modèle de pondérer l'importance relative de chaque mot lors de la génération de texte.

Pourquoi dit-on que « l'attention, c'est tout ce dont vous avez besoin » (Attention is all you need) ?

Cette phrase fait référence à l'architecture des modèles Transformer qui montre que l'utilisation de couches d'attention multiples et complexes peut suffire à réaliser des tâches de traitement du langage naturel avec une efficacité remarquable, sans nécessiter d'autres types de couches de réseau neuronal.

Qu'est-ce que RoPE et à quoi sert-il ?

RoPE (Rotary Position Embedding) est une technique d'incorporation de la position qui améliore la capacité des modèles Transformer à gérer la relation entre les positions des tokens dans une séquence, contribuant à une meilleure compréhension du texte.

Qu'est-ce que LoRA et à quoi sert-il ?

LoRA (Low-Rank Adaptation) est une technique d'adaptation de modèle qui ajuste une petite partie des poids d'un modèle pré-entraîné pour des tâches spécifiques, permettant une personnalisation efficace avec peu de modifications.

Qu'est-ce que les poids (Weights) ?

Les poids sont des paramètres ajustables dans un réseau de neurones qui sont appris au cours de l'entraînement. Ils déterminent l'importance de l'entrée de chaque neurone dans le calcul de la sortie.

Qu'est-ce que les biais (Biases) ?

Les biais sont des paramètres ajustables, ajoutés à la somme pondérée des entrées d'un neurone, qui permettent de modifier la sortie du neurone indépendamment de ses entrées.

Qu'est-ce que les checkpoints ?

Les checkpoints sont des sauvegardes des états d'un modèle pendant l'entraînement, permettant de reprendre l'entraînement à partir de ce point ou d'utiliser cet état du modèle pour des prédictions.

Qu'est-ce que la perplexité (Perplexity) ?

La perplexité est une mesure de performance pour les modèles de langue, évaluant à quel point un modèle est perplexe ou surpris par un ensemble de données de test, avec des valeurs plus basses indiquant une meilleure performance.

Qu'est-ce qu'un modèle (Model) ?

Dans ce contexte, les modèles sont des structures algorithmiques entraînées pour comprendre, générer, ou traduire du langage naturel, basées sur des architectures neuronales complexes comme le Transformer.

Quelle est la différence entre un langage de programmation interprété et un langage compilé ?

Un langage interprété (comme Python) est exécuté ligne par ligne par un interpréteur, tandis qu'un langage compilé (comme C++ ou Rust) est d'abord traduit dans son intégralité en code machine par un compilateur avant d'être exécuté, ce qui le rend généralement beaucoup plus rapide.

Dans le contexte du développement logiciel, qu'est-ce qu'un débogueur (Debugger) ?

Un débogueur est un outil qui aide les développeurs à trouver et corriger des erreurs (bugs) dans le code, en permettant l'exécution pas à pas et l'inspection des variables en temps réel.

Dans le contexte de l'apprentissage automatique, qu'est-ce que l'oubli catastrophique (Catastrophic Forgetting) ?

L'oubli catastrophique désigne la tendance des modèles d'apprentissage automatique à oublier rapidement l'information apprise précédemment lorsqu'ils sont entraînés sur de nouvelles données, ce qui peut être un défi lors de l'apprentissage continu.

Qu'est-ce que la consolidation pondérale élastique (EWC) ?

EWC est une technique visant à atténuer l'oubli catastrophique en ajustant l'importance des poids du modèle en fonction de leur importance pour les tâches apprises précédemment, permettant une meilleure rétention des connaissances.

Dans le contexte des réseaux neuronaux, qu'est-ce qu'une couche cachée (Hidden Layer) ?

Une couche cachée est une couche de neurones qui se trouve entre la couche d'entrée et la couche de sortie dans un réseau de neurones, jouant un rôle clé dans la capacité du réseau à apprendre des caractéristiques complexes des données.

Qu'est-ce qu'une convolution ?

Une convolution est une opération mathématique appliquée à l'entrée d'un réseau de neurones convolutionnels, utilisée principalement pour le traitement d'images, qui permet de capturer les caractéristiques spatiales et temporelles des données.

Qu'est-ce que le dropout ?

Le dropout est une technique de régularisation utilisée pour prévenir le surapprentissage dans les réseaux de neurones. Il fonctionne en désactivant aléatoirement certains neurones pendant l'entraînement, forçant le réseau à apprendre des caractéristiques plus robustes.

Qu'est-ce que l'entropie croisée (Cross-Entropy) ?

L'entropie croisée est une mesure de la différence entre deux distributions de probabilités, souvent utilisée comme fonction de perte dans les problèmes de classification pour mesurer la distance entre la distribution prédite par le modèle et la distribution réelle des étiquettes.

Qu'est-ce que le surapprentissage (Overfitting) ?

Le surapprentissage se produit lorsque un modèle de réseau de neurones apprend trop bien les données d'entraînement, au point d'incorporer le bruit ou les détails insignifiants, réduisant ainsi sa capacité à généraliser à de nouvelles données.

Qu'est-ce que le sous-apprentissage (Underfitting) ?

Le sous-apprentissage se produit lorsque un modèle de réseau de neurones n'apprend pas suffisamment les relations dans les données d'entraînement, conduisant à de faibles performances à la fois sur les données d'entraînement et de test.

GPU : Qu'est-ce que la décharge (Off-loading) ?

La décharge (off-loading) fait référence au transfert de certaines tâches de calcul du processeur central (CPU) vers le processeur graphique (GPU) pour accélérer ces tâches, en exploitant la capacité de traitement parallèle du GPU.

GPU : Qu'est-ce qu'un lot (Batch) ?

Un lot (batch) est un ensemble de données traitées ensemble dans une opération parallèle sur un GPU. L'utilisation de lots permet d'améliorer l'efficacité du traitement en exploitant la capacité de traitement parallèle des GPUs.

GPU : Qu'est-ce qu'un bloc (Block) ?

Un bloc est une unité de travail distribuée au sein d'un GPU, contenant un ensemble de threads qui exécutent le même code sur différentes parties des données en parallèle.

GPU : Quelle est la différence entre un lot et un bloc ?

Un lot fait référence à un ensemble de données traitées ensemble, tandis qu'un bloc se réfère à une unité de travail au sein du GPU. Les blocs sont utilisés pour diviser le traitement d'un lot en parties plus petites qui peuvent être exécutées en parallèle.

GPU : Qu'est-ce qu'un tenseur de travail (Scratch Tensor) ?

Un tensor de travail (scratch tensor) est une zone de stockage temporaire utilisée par les GPUs pendant les calculs, facilitant le traitement parallèle des données sans interférence entre les threads.

GPU : Qu'est-ce qu'une couche (Layer) ?

Dans ce contexte, une couche fait référence à une strate computationnelle dans un réseau de neurones, traitée par le GPU. Chaque couche effectue un type spécifique de transformation sur ses entrées.

GPU : Qu'est-ce qu'un cache ?

Un cache est une petite quantité de mémoire rapide située sur le GPU, utilisée pour stocker temporairement des données fréquemment accédées afin de réduire le temps d'accès aux données et d'améliorer les performances de calcul.

GPU : Qu'est-ce que la mémoire unifiée (Unified Memory) ?

La mémoire unifiée est un modèle de gestion de mémoire (ou une technologie spécifique chez Apple) qui permet une allocation de mémoire partagée entre le CPU et le GPU, simplifiant le transfert de données et l'accès aux données.

GPU : Qu'est-ce que la VRAM ?

La VRAM (Video RAM) est un type de mémoire spécialement conçue pour les GPUs, utilisée pour stocker rapidement les tenseurs, les poids du modèle, ou encore les images nécessaires pour le calcul.

GPU : Qu'est-ce qu'un noyau (Kernel) ?

Un noyau (kernel) est un programme ou une fonction exécutée sur le GPU, traitant les données en parallèle sur plusieurs threads. Les kernels sont au cœur du calcul parallèle sur les GPUs.

GPU : Qu'est-ce que Metal ?

Metal est une API (Interface de Programmation d'Applications) développée par Apple pour optimiser les performances de calcul sur les appareils iOS et macOS, en fournissant un accès direct au GPU.

Quels sont les modèles d'apprentissage Zero-Shot, One-Shot et Few-Shot ?

Zero-Shot Learning : Un modèle exécute des tâches sans données d'entraînement spécifiques pour celles-ci. dOne-Shot Learning : Il apprend à partir d'un seul exemple.dFew-Shot Learning : Il apprend à partir d'un petit nombre d'exemples, montrant une compréhension adaptable.

Qu'est-ce que l'architecture Transformer ?

L'architecture Transformer est un type de réseau de neurones basé sur des mécanismes d'attention, permettant de pondérer différemment les parties d'une séquence d'entrée. Elle a révolutionné le traitement du langage naturel (NLP).

Qu'est-ce que l'Attention Multi-Têtes (Multi-Head Attention) ?

C'est une extension du mécanisme d'attention qui permet au modèle de se concentrer sur différentes parties d'une séquence d'entrée simultanément, améliorant la capacité du modèle à capter des relations complexes.

Qu'est-ce que l'Auto-Attention (Self-Attention) ?

L'Auto-Attention permet à un modèle d'évaluer et de pondérer l'importance de chaque partie d'une séquence par rapport à toutes les autres, améliorant ainsi sa capacité à comprendre le texte.

Comment les mécanismes d'attention utilisent-ils les masques (Masking) ?

Les masques contrôlent quelles parties d'une séquence sont visibles à chaque étape. Cela empêche par exemple le modèle de 'voir' les parties futures d'une séquence lors de la génération de texte, préservant la causalité.

Qu'est-ce qu'une Époque (Epoch) ?

Une époque correspond à un passage complet de l'ensemble du jeu de données d'entraînement à travers le réseau de neurones.

Qu'est-ce que le Taux d'Apprentissage (Learning Rate) ?

C'est un hyperparamètre qui définit la taille des pas que fait le modèle pour ajuster ses poids afin de minimiser l'erreur (la fonction de perte).

Qu'est-ce qu'une Fonction de Perte (Loss Function) ?

C'est une mesure mathématique de la différence entre la prédiction du modèle et la réalité. L'objectif de l'entraînement est de minimiser cette valeur.

Qu'est-ce que la Descente de Gradient (Gradient Descent) ?

C'est l'algorithme d'optimisation le plus courant pour entraîner les IA. Il ajuste les poids du modèle en suivant la pente (le gradient) de la fonction de perte pour trouver le minimum.

Qu'est-ce que l'Alignement (Alignment) ?

L'alignement est le processus visant à s'assurer que le comportement d'une IA correspond aux intentions, aux valeurs et aux instructions humaines.

Qu'est-ce qu'une IA Agente (AI Agent) ?

Un agent est un système basé sur un LLM capable d'utiliser des outils externes (recherche web, exécution de code, accès fichiers) pour accomplir une tâche complexe de manière autonome.

Qu'est-ce que la Chaîne de Pensée (Chain of Thought - CoT) ?

C'est une technique de prompting (ou d'entraînement) qui demande au modèle d'expliquer son raisonnement étape par étape avant de donner la réponse finale, ce qui améliore grandement la précision logique.

Qu'est-ce que la Distillation (Knowledge Distillation) ?

C'est une technique où un petit modèle (l'élève) est entraîné pour reproduire le comportement d'un modèle beaucoup plus large (le professeur), permettant d'obtenir des performances élevées dans un format compact.

Qu'est-ce que le KV Cache (Key-Value Cache) ?

C'est un mécanisme d'optimisation qui stocke les calculs précédents lors d'une génération de texte pour éviter de tout recalculer à chaque nouveau token, accélérant ainsi l'inférence.

Qu'est-ce que le Flash Attention ?

Une implémentation optimisée de l'attention qui réduit considérablement les accès à la mémoire, permettant d'accélérer l'entraînement et l'inférence tout en gérant de plus longues séquences de texte.

Qu'est-ce que l'Inférence (Inference) ?

L'inférence est la phase où l'on utilise un modèle déjà entraîné pour prédire ou générer des données à partir d'une nouvelle entrée.

Qu'est-ce que le Pré-entraînement (Pre-training) ?

C'est la première phase d'apprentissage d'un modèle sur des quantités massives de données non étiquetées (le web, des livres) pour qu'il apprenne les structures du langage.

Qu'est-ce que les Garde-fous (Guardrails) ?

Ce sont des systèmes de contrôle (souvent d'autres petits modèles) qui filtrent les entrées ou les sorties d'une IA pour empêcher la génération de contenus toxiques, illégaux ou hors sujet.

Qu'est-ce que Top-P (Nucleus Sampling) ?

Un paramètre d'échantillonnage qui ne considère que les tokens dont la probabilité cumulée atteint un certain seuil (P), permettant de filtrer les mots les moins probables tout en gardant de la diversité.

Qu'est-ce que Top-K ?

Un paramètre qui limite le choix du prochain token aux 'K' options les plus probables, ce qui aide à garder le modèle concentré et à éviter les divagations incohérentes.

Qu'est-ce qu'une Injection de Prompt (Prompt Injection) ?

Une faille de sécurité où un utilisateur malveillant tente de détourner les instructions système d'une IA en insérant des commandes cachées dans son message.

Qu'est-ce qu'un Jailbreak ?

Une technique de manipulation de prompt visant à contourner les restrictions de sécurité et d'éthique imposées à un modèle pour lui faire dire des choses interdites.

Qu'est-ce que les Données Synthétiques (Synthetic Data) ?

Ce sont des données générées par une IA (souvent un modèle très large comme GPT-4) pour entraîner d'autres modèles, ce qui permet de pallier le manque de données réelles de haute qualité.

Qu'est-ce qu'un modèle de base (Base Model) ?

C'est un modèle brut qui a été pré-entraîné sur d'énormes quantités de texte mais qui ne sait pas encore 'discuter'. Il a tendance à simplement compléter le texte de manière statistique.

Qu'est-ce qu'un modèle d'instruction (Instruct/Chat Model) ?

C'est un modèle de base qui a subi un ajustement fin (SFT) pour apprendre à suivre des instructions et à tenir une conversation cohérente avec un utilisateur.

Qu'est-ce que le SFT (Supervised Fine-Tuning) ?

C'est l'étape d'entraînement supervisé où l'on montre au modèle des milliers d'exemples de questions et de réponses idéales rédigées par des humains.

Qu'est-ce que le DPO (Direct Preference Optimization) ?

Une technique moderne et plus simple que le RLHF pour aligner un modèle sur les préférences humaines en comparant directement des paires de réponses (une 'bonne' et une 'mauvaise').

Qu'est-ce que le QLoRA ?

Une version optimisée de LoRA qui permet d'effectuer un fine-tuning sur un modèle déjà quantifié en 4-bit, réduisant drastiquement la mémoire VRAM nécessaire.

Qu'est-ce que la Précision (FP32, FP16, BF16) ?

C'est le format numérique des poids du modèle. FP32 est la haute précision, FP16/BF16 sont des formats de demi-précision plus légers utilisés lors de l'entraînement et de l'inférence moderne.

Qu'est-ce qu'un NPU (Neural Processing Unit) ?

Une puce spécialisée, différente du CPU et du GPU, conçue exclusivement pour accélérer les calculs d'intelligence artificielle (très courante dans les nouveaux processeurs mobiles et PC AI).

Qu'est-ce que CUDA ?

C'est la plateforme de calcul parallèle créée par NVIDIA. C'est le standard industriel qui permet aux développeurs d'utiliser la puissance des GPUs NVIDIA pour l'IA.

Qu'est-ce que ROCm ?

L'équivalent de CUDA mais pour les cartes graphiques AMD, permettant de faire tourner des modèles d'IA sur du matériel AMD de manière optimisée.

Qu'est-ce que la Similitude Cosinus (Cosine Similarity) ?

Une mesure mathématique utilisée pour comparer deux embeddings et savoir à quel point ils sont proches sémantiquement. C'est le cœur de la recherche dans les bases de données vectorielles.

Qu'est-ce que le Chunking (Découpage) ?

Dans le cadre du RAG, c'est l'action de découper un long document en petits morceaux (chunks) pour qu'ils puissent être indexés et retrouvés plus facilement par le modèle.

Qu'est-ce que le BPE (Byte Pair Encoding) ?

Un algorithme de tokenisation très répandu qui fusionne les paires de caractères les plus fréquentes pour créer un vocabulaire de sous-mots efficace.

Qu'est-ce que la taille du vocabulaire (Vocab Size) ?

C'est le nombre total de tokens uniques qu'un modèle est capable de reconnaître et de générer (généralement entre 32k et 128k).

Qu'est-ce que les Logits ?

Ce sont les scores bruts générés par la dernière couche du modèle pour chaque token du vocabulaire, juste avant d'être transformés en probabilités par la fonction Softmax.

Qu'est-ce que le Greedy Search (Recherche Gourmande) ?

Une méthode d'échantillonnage simple où le modèle choisit systématiquement le token ayant la probabilité la plus élevée. C'est efficace mais cela produit souvent un texte répétitif.

Qu'est-ce que la Pénalité de Répétition (Repetition Penalty) ?

Un paramètre qui réduit artificiellement la probabilité des tokens déjà générés, forçant le modèle à être plus varié et à éviter de boucler sur les mêmes phrases.

Qu'est-ce qu'une Séquence d'Arrêt (Stop Sequence) ?

Un caractère ou un mot spécifique qui, lorsqu'il est généré par le modèle, lui donne l'ordre d'arrêter immédiatement la génération (ex: 'User:' ou '</s>').

Qu'est-ce que l'Inférence en flux (Streaming) ?

Une technique qui permet d'afficher les tokens au fur et à mesure qu'ils sont générés par le modèle, plutôt que d'attendre que la réponse complète soit terminée.

Qu'est-ce qu'un Prompt Template (Modèle de Prompt) ?

Une structure de texte fixe (comme ChatML ou Llama-3-Instruct) utilisée pour envelopper le message de l'utilisateur afin que le modèle comprenne qui parle (système, utilisateur ou assistant).

Qu'est-ce que les FLOPS ?

Le nombre d'opérations en virgule flottante par seconde. C'est l'unité de mesure de la puissance de calcul brute d'un processeur ou d'un GPU.

Qu'est-ce que l'AWQ (Activation-aware Weight Quantization) ?

Une méthode de quantification avancée qui protège les poids les plus importants du modèle, permettant d'obtenir d'excellentes performances en 4-bit avec très peu de perte de précision.

Qu'est-ce que le format EXL2 ?

Un format de quantification ultra-rapide optimisé spécifiquement pour les GPUs NVIDIA (via la bibliothèque ExLlamaV2), offrant une grande flexibilité de précision (ex: 4.65 bits).

Qu'est-ce qu'un modèle de récompense (Reward Model) ?

Un modèle secondaire utilisé pendant le RLHF pour noter les réponses du modèle principal et lui servir de guide lors de son entraînement par renforcement.

Qu'est-ce que le Few-Shot Prompting ?

Une technique consistant à donner au modèle quelques exemples (questions/réponses) directement dans le prompt pour lui montrer exactement comment il doit répondre.

Qu'est-ce que le GQA (Grouped-Query Attention) ?

Une architecture d'attention (utilisée par Llama 3) qui regroupe les têtes de 'Clés' et de 'Valeurs' tout en gardant plusieurs têtes de 'Requêtes'. Cela réduit drastiquement la taille du KV Cache et accélère l'inférence sans perte notable de précision.

Qu'est-ce que le MQA (Multi-Query Attention) ?

Une version extrême de l'attention où toutes les têtes de 'Requêtes' partagent une seule tête de 'Clés' et de 'Valeurs'. C'est encore plus rapide que le GQA mais peut légèrement dégrader la qualité du raisonnement.

Qu'est-ce que le SwiGLU ?

C'est la fonction d'activation utilisée dans les modèles les plus récents (Llama, Mistral). Elle combine une porte linéaire (GLU) avec une activation Swish. Elle est plus performante que GELU ou RELU pour capturer des relations complexes.

Qu'est-ce que le RMSNorm ?

Une technique de normalisation des couches qui stabilise l'entraînement en simplifiant le calcul du LayerNorm classique. Elle permet une convergence plus rapide et une meilleure stabilité numérique.

Qu'est-ce que la Rétropropagation (Backpropagation) ?

C'est l'algorithme fondamental de l'entraînement. Il utilise la règle de dérivation en chaîne pour calculer l'influence de chaque poids sur l'erreur finale, permettant de les ajuster dans le bon sens.

Qu'est-ce que l'Adam / AdamW ?

C'est l'algorithme d'optimisation standard pour l'entraînement des LLMs. Il ajuste le taux d'apprentissage de chaque poids de manière adaptative en fonction de l'historique des gradients. La version 'W' (Weight Decay) améliore la régularisation.

Qu'est-ce que les Scaling Laws (Lois de mise à l'échelle) ?

Ce sont des formules mathématiques qui prédisent la performance d'un modèle en fonction de sa taille, de la quantité de données et de la puissance de calcul. La loi de Chinchilla suggère qu'un modèle optimal doit être entraîné sur 20 tokens pour chaque paramètre.

Qu'est-ce que le In-Context Learning (ICL) ?

C'est la capacité d'un LLM à apprendre une nouvelle tâche uniquement à partir des exemples fournis dans le prompt, sans aucune modification de ses poids permanents.

Qu'est-ce que le Speculative Decoding (Décodage Spéculatif) ?

Une technique pour accélérer l'inférence où un petit modèle très rapide (le draft) génère plusieurs tokens à l'avance, qui sont ensuite validés ou corrigés en un seul passage par le grand modèle (le vérificateur).

Qu'est-ce qu'un Model Merge (Merging) ?

Une technique permettant de fusionner les poids de deux ou plusieurs modèles différents (souvent via des méthodes comme SLERP ou DARE) pour combiner leurs capacités sans nouvel entraînement.

Qu'est-ce que le Vanishing Gradient (Disparition du Gradient) ?

Un problème lors de l'entraînement des réseaux profonds où les signaux d'erreur deviennent si petits qu'ils n'atteignent plus les premières couches, empêchant le modèle d'apprendre.

Qu'est-ce que le PEFT (Parameter-Efficient Fine-Tuning) ?

Un ensemble de techniques (dont LoRA fait partie) visant à ajuster un modèle en ne modifiant qu'une infime fraction de ses paramètres, économisant ainsi du temps et de la mémoire.

Qu'est-ce que le KV Cache Quantization ?

Une technique consistant à quantifier (souvent en 8-bit ou 4-bit) les données stockées dans le cache d'attention (KV Cache), permettant de gérer des contextes beaucoup plus longs avec la même VRAM.

Qu'est-ce qu'un Tokeniseur de type Unigram ?

Une méthode de tokenisation statistique qui part d'un vocabulaire géant et supprime progressivement les tokens les moins utiles, contrairement au BPE qui fusionne les plus fréquents.

Qu'est-ce que le format ONNX ?

Un format d'échange ouvert pour les modèles d'IA, permettant de transférer des modèles entre différents frameworks (PyTorch vers TensorFlow par exemple) et de les optimiser pour le matériel spécifique.