Qwen 3.5 35B (A3B)
Architecture hybride MoE + Gated Delta Networks. 35B de paramètres au total mais seulement 3B activés par token, ce qui donne la puissance d'un gros modèle avec la vitesse d'un petit.
Aperçu
Le Qwen3.5-35B-A3B est le modèle phare de la série “Medium” d’Alibaba Cloud. Son architecture hybride combine les Gated Delta Networks (attention linéaire) avec du MoE (Mixture of Experts) sparse.
Concrètement, le modèle stocke 35 milliards de paramètres mais n’en active que 3 milliards à chaque token généré. On a donc un modèle qui “sait” beaucoup de choses grâce à sa taille totale, mais qui tourne aussi vite qu’un modèle 3B au moment de l’inférence.
Vision et multimodal
Qwen 3.5 n’est pas limité au texte. C’est un modèle Vision-Language natif, capable d’analyser des images, des graphiques ou des captures d’écran. Et vu la quantification possible, ça reste jouable en local sur du matériel grand public.
Contexte massif
Le modèle supporte nativement 262 144 tokens et peut monter jusqu’à 1 million. En pratique, ça permet de.
- Passer une base de code entière dans le prompt.
- Résumer un livre ou un gros dossier juridique d’un coup.
- Alimenter un système RAG avec beaucoup de contexte.
Inférence locale (quantification GGUF)
Pour faire tourner ce modèle sur une machine avec 8 ou 12 Go de VRAM, il faut passer par la quantification. En 4-bit (Q4_K_M), comptez environ 20-22 Go de RAM/VRAM au total. Mais grâce aux 3B de paramètres activés, la vitesse de génération reste très correcte.
# Exemple de lancement avec un moteur compatible GGUF
./init --model qwen3.5-35b-a3b-q4_k_m.gguf --ctx-size 32768
Ce qui le rend intéressant
C’est l’un des premiers modèles qui prouve qu’on peut combiner un contexte de 1M de tokens et un niveau “pro” sans avoir besoin d’un cluster GPU. Le principe est simple, plus de paramètres pour stocker la connaissance, moins d’activations pour garder la vitesse.