Qwen 2.5 - Alibaba Cloud

Aperçu

Qwen 2.5 pousse loin ce qu’on peut faire avec des petits modèles (SLM). Entraînés sur 18 trillions de tokens, ces modèles se débrouillent en raisonnement, en maths et en programmation au niveau de modèles deux à trois fois plus gros.

Leur atout principal, c’est la flexibilité.

1.5B et 3B. ça tourne sur des smartphones, des Raspberry Pi ou des machines avec 2 à 4 Go de RAM.
7B, un bon généraliste pour les stations de travail classiques (~6 Go de VRAM).

Inférence locale (llama.cpp)

Pour exécuter Qwen 2.5 et comprendre ce qui se passe sous le capot, le mieux c’est llama.cpp (ou LM Studio) avec des poids GGUF quantifiés.

1. Récupérer un modèle GGUF

Téléchargez une version quantifiée (par exemple Q4_K_M pour un bon compromis taille/qualité) depuis Hugging Face (souvent mis à disposition par la communauté, ex. bartowski/Qwen2.5-7B-Instruct-GGUF).

2. Exécuter en ligne de commande

# Lancement basique avec llama-cli (précédemment main)
./llama-cli -m qwen2.5-7b-instruct-q4_k_m.gguf -n 512 -p "Explique-moi la mécanique quantique simplement."

# Lancement en mode serveur API local (compatible OpenAI)
./llama-server -m qwen2.5-7b-instruct-q4_k_m.gguf -c 8192 --port 8080

Capacités spécifiques

Un des gros points forts de Qwen 2.5, c’est sa fenêtre de contexte de 128k tokens (même si l’attention se dégrade un peu au-delà de 32k sur les petits modèles). Ça permet d’analyser des documents entiers (PDF, code source) directement en local.

Le modèle est aussi nativement bon en français, ce qui n’est pas toujours le cas à cette taille.

Versions spécialisées

Alibaba Cloud a aussi sorti Qwen2.5-Coder, des variantes fine-tunées sur le code source. Elles sont pensées pour servir d’assistant de complétion locale (style Copilot) dans VSCode ou Neovim.