Microsoft 2024 3.8B Text Generation

Phi-3.5 Mini

Évolution du Phi-3 Mini. Toujours 3.8B de paramètres, mais avec une attention multi-requêtes (MQA) et une fenêtre de contexte de 128k.

Aperçu

Phi-3.5 Mini reprend l’approche de Phi-3 par données synthétiques, en passant à une attention multi-requêtes (MQA) qui accélère encore l’inférence. Avec 3.8 milliards de paramètres, il se débrouille bien sur les benchmarks maths et logique, souvent au niveau de modèles 7B.

Fenêtre de contexte étendue (128k)

C’est l’un des plus petits modèles (SLM) à proposer une fenêtre de contexte stable de 128 000 tokens. On peut lui fournir un livre complet ou des centaines de lignes de code et l’interroger dessus en local.

Inférence locale (Python / Transformers)

import torch
from transformers import AutoModelForCausalLM, AutoTokenizer, pipeline

model_id = "microsoft/Phi-3.5-mini-instruct"

tokenizer = AutoTokenizer.from_pretrained(model_id)
model = AutoModelForCausalLM.from_pretrained(
    model_id,
    device_map="auto",
    torch_dtype="auto",
    trust_remote_code=True
)

pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
)

messages = [
    {"role": "user", "content": "Résume cet article technique de 50 pages : [URL ou texte]"}
]

output = pipe(messages, max_new_tokens=1000)
print(output[0]['generated_text'])

Cas d’usage

  • Analyse de gros documents, les 128k de contexte sur une simple station de travail.
  • Inférence CPU pure, sa petite taille lui permet de rester rapide sans GPU.
  • RAG local, se couple bien avec une base de données vectorielle locale.