Tag. llama.cpp | ai.brain.fr

Tutoriels (1)

Comprendre llama.cpp et le format GGUF sous le capot

Le moteur C++ derrière l'inférence locale. Comment ça marche et comment optimiser vos modèles au plus près de la RAM.

Chroniques (2)

Pi Coding Agent + Llama.cpp, un assistant de code 100% privé et local

Comment monter un environnement de dev IA sous Docker, sans dépendre d'API tierces ni faire fuiter votre code, via pi et llama.cpp.

Nemotron-3-Nano-30B-A3B : Le nouveau champion 30B pour l'inférence locale

NVIDIA proposent une version optimisée du Nemotron-3-Nano-30B-A3B. Voici comment le faire tourner en local avec llama.cpp, du CPU au GPU.