Microsoft 2024 3.8B Text Generation

Phi-3 Mini

Modèle compact (3.8B) de Microsoft, optimisé pour les appareils avec peu de ressources. Il raisonne bien malgré sa petite taille.

Aperçu

La série Phi montre qu’on n’a pas forcément besoin de centaines de milliards de paramètres pour avoir un comportement “intelligent”. Phi-3 Mini pèse seulement 3.8 milliards de paramètres.

L’astuce vient des données d’entraînement, au lieu d’avaler le web brut, Phi-3 a été entraîné sur des données très filtrées, “textbook-like” (genre manuels scolaires), générées synthétiquement. Ça donne un modèle logique, bon en Q&A, en code et en maths de base.

L’avantage matériel

L’intérêt principal de Phi-3 Mini est matériel. Dans son format quantifié (GGUF 4-bit), le modèle pèse moins de 2.5 Go. Il peut être exécuté.

  • Sur de vieux processeurs (CPU uniquement) avec des temps de réponse acceptables.
  • Nativement sur des smartphones via des applications comme MLC LLM ou ChatTER.
  • Dans le navigateur directement (WebGPU).

Inférence en local (Python / Transformers)

Si vous souhaitez l’intégrer dans un script Python léger sans infrastructure lourde, les étapes sont simples.

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_id = "microsoft/Phi-3-mini-4k-instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id, 
    device_map="auto", 
    torch_dtype="auto", 
    trust_remote_code=True
)

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
)

generation_args = {
    "max_new_tokens": 500,
    "return_full_text": False,
    "temperature": 0.0,
    "do_sample": False,
}

messages = [
    {"role": "user", "content": "Rédige une fonction pour calculer la suite de Fibonacci en Rust."}
]

output = pipe(messages, **generation_args)
print(output[0]['generated_text'])

Cas d’usage idéaux

  • Agents IA embarqués. Applications mobiles, jeux vidéo hors-ligne ou objets connectés (IoT).
  • Triage et extraction de données basique. Analyser rapidement de petits textes structurés sans faire d’appels API.
  • Apprentissage. C’est le modèle parfait pour bidouiller l’architecture LLM sans avoir besoin d’une carte graphique à 2000€.