ⓘ Cet article contient des liens affiliés. Voir disclosure complète.
benchmarks · par Adrien Marchand

Benchmark NVIDIA GB10 Grace Blackwell : 17 LLM locaux testés en 2026 (qwen3 à 82,5 tok/s)

Tests réels de 17 modèles LLM locaux sur NVIDIA GB10 (DGX Spark, 121 Go unified). qwen3:30b-a3b écrase tout à 82,5 tok/s. Données chiffrées, comparatif RAM, verdict MoE vs dense.

TL;DR : Sur un NVIDIA GB10 Grace Blackwell (121 Go unified memory), qwen3:30b-a3b (MoE) crache 82,5 tok/s en chat — le meilleur ratio vitesse/qualité du marché en 2026. Les modèles 70B dense (llama3.3, nemotron, deepseek-r1) tournent tous à 4,7 tok/s : utilisables uniquement en async. Au-delà de 123B, on touche le plafond mémoire. Tableau complet ci-dessous.

Pourquoi ce benchmark

J’ai eu accès pendant quelques jours à un NVIDIA DGX Spark (MSI EdgeXpert MS-C931), une machine ARM64 équipée du GB10 Grace Blackwell Superchip (20 cœurs ARMv9.2, 121 GiB unified LPDDR5x, GPU Blackwell intégré, CUDA 13). C’est l’une des premières plateformes “edge” capables de faire tourner du 70B dense en local sans paginer sur le disque.

J’ai testé 17 modèles via Ollama + llama.cpp (pour ceux qu’Ollama 0.21.2 refusait encore en mai 2026, notamment Qwen 3.5/3.6). Tous les tests utilisent le même prompt technique (200 tokens prédits) pour garantir la comparabilité.

Spoiler : les chiffres confirment ce que la théorie suggérait — les MoE écrasent les denses comparables grâce à la mémoire unifiée, et la RTX 3090 reste meilleure sur dense 7B-32B malgré sa VRAM limitée.

Méthodologie

Classement complet (eval tok/s décroissant)

#ModèleTypeParams total / actifeval tok/sprompt tok/sLoadΔ RAM
🥇 1qwen3:30b-a3bMoE30B / 3B82,544219s45 GB
🥈 2qwen2.5:7bdense7B47,82 37930s7 GB
🥉 3mistral:7bdense7B47,02 1943s9 GB
4gemma2:9bdense9B40,01 70914s9 GB
5mixtral:8x7bMoE46B / 12B30,851823s30 GB
6qwen2.5:14bdense14B24,61 2955s15 GB
7phi4dense14B23,21 2359s12 GB
8gemma2:27bdense27B14,36896s19 GB
9qwen2.5:32bdense32B10,663113s27 GB
10nemotron:70bdense70B4,726027s(cache)
11llama3.3:70bdense70B4,725491s81 GB
12deepseek-r1:70bdense70B4,721830s81 GB
13mistral-large:123bdense123B2,311972s115 GB

Bonus : modèles bloqués par Ollama 0.21.2

Quatre modèles que j’ai tentés mais qui n’ont pas pu charger :

→ Ces 3 derniers tournent par contre via llama.cpp main compilé from source (avec CUDA 13 + arch qwen35moe). Plus de détails dans un prochain article dédié.

Lecture des résultats

1. Le sweet spot vitesse : qwen3:30b-a3b (MoE)

À 82,5 tok/s, qwen3:30b-a3b est 1,7× plus rapide que le meilleur dense 7B et 17× plus rapide que le meilleur 70B. Avantage MoE : seulement 3B paramètres “actifs” sont effectivement calculés à chaque token, mais les 27B restants sont disponibles instantanément en mémoire unifiée pour le routage des experts.

Sur une RTX 3090 24 Go, ce modèle est impossible à charger entièrement en VRAM (45 Go nécessaires) — il faut partager avec la RAM système, ce qui divise les performances par 3-5×.

2. Le plafond 70B : tous à 4,7 tok/s

llama3.3:70b, nemotron:70b et deepseek-r1:70b sont tous au même plancher de 4,7 tok/s. C’est limité par la bande passante de la LPDDR5x (~273 Go/s) vs un GPU dédié type RTX 3090 (936 Go/s).

Mais : sur RTX 3090, ces 70B sont physiquement impossibles à faire tourner car leur poids dépasse les 24 Go VRAM. Le GB10 les rend accessibles, même à 4,7 tok/s — soit ~280 tokens/minute, ce qui reste utilisable pour des analyses async (résumés long, classification batch, raisonnement CoT).

3. Le plafond absolu : 123B dense

Mistral-Large 123B atteint 2,3 tok/s mais consomme 115 Go sur 121 Go disponibles — la marge est trop juste pour un usage interactif (le système swappe au moindre process annexe). En pratique, c’est le mur.

→ La conclusion : un MoE 122B/10B (Qwen3.5-122B-A10B) serait infiniment mieux sur cette machine. ~50 Go en mémoire (3× moins), avec une qualité comparable, et vitesse estimée à 25-30 tok/s. Affaire à suivre dès qu’Ollama supporte l’arch.

4. Le dense 7B-32B : RTX 3090 reste reine

À taille de modèle égale et FP16, une RTX 3090 dépasse le GB10 sur tout ce qui tient en 24 Go de VRAM. Le GB10 est imbattable uniquement quand le modèle ne tient pas en VRAM dédiée. Donc :

Verdict pratique 2026

Cas d’usageModèle recommandé sur GB10tok/s
Chat ultra-rapide, qualité 30Bqwen3:30b-a3b82,5
Compact qualité Opus-liteqwen2.5:14b ou phi4~24
Reasoning long (CoT)deepseek-r1:70b4,7
Tâches “70B général” max qualiténemotron:70b4,7
OCR / visionqwen3-vl-30b-a3b (non testé ici, voir article dédié)42

Pour aller plus loin

Si vous montez votre propre stack self-hosted LLM avec une machine comparable, voici les ressources qui valent vraiment le coup d’œil :

FAQ

Le GB10 Grace Blackwell vaut-il le DGX Spark pour du LLM 70B+ ? Oui, à condition d’accepter ~5 tok/s en génération. Pour de l’async (batch analyses, résumés long-form), c’est parfait. Pour du chat interactif, restez sur du 30B MoE.

Pourquoi qwen3:30b-a3b écrase qwen2.5:32b alors qu’il a moins de paramètres ? Parce qu’il est MoE 30B/3B : seulement 3 milliards de paramètres sont activés par token (un sous-ensemble d’experts). qwen2.5:32b dense calcule 32B de paramètres à chaque token. Sur du hardware bande-passante-limité comme le GB10, c’est 8× plus efficace.

Comment reproduire ce benchmark ? Installez Ollama via le script officiel, ollama pull <model>, puis ollama run <model> --verbose avec le même prompt. Le champ eval rate donne tok/s.

Et les modèles ChatGPT / Claude / Gemini ? Hors scope : ce benchmark concerne uniquement les modèles locaux self-hostés. Les APIs cloud sont une autre catégorie de problème (latence réseau, coût par token, dépendance fournisseur).


Note méthodologie

Tous les tests utilisent le même prompt (200 tokens prédits) :

“Explique en 5 phrases courtes pourquoi le NVIDIA GB10 Grace Blackwell (unified memory 128 Go, FP4 natif, ARMv9.2) excelle sur les modèles MoE et les LLM 70B+, mais peut être dépassé par une RTX 3090 sur des modèles denses 7B-32B. Sois technique et précis.”

Pourquoi ce prompt : il est suffisamment technique pour engager les couches de raisonnement, suffisamment court pour ne pas biaiser le temps de prompt eval, et neutre sur la langue (FR + termes EN). Tous les tests ont été lancés à froid (modèle déchargé entre runs), avec 30s d’attente entre chaque pour laisser la mémoire revenir à un état stable.

Les données brutes (JSON) sont disponibles sur demande pour les chercheurs souhaitant reproduire / étendre le benchmark.


Disclosure affiliation

Cet article contient des liens affiliés. Lorsque vous cliquez sur un lien marqué “lien affilié” et que vous effectuez un achat, je peux recevoir une commission. Cela n’affecte pas le contenu ni le ranking dans le tableau ci-dessus — les chiffres sont les chiffres bruts mesurés. Les commissions servent uniquement à financer le temps de test (electricité, matériel emprunté, abonnements logiciels).

Article rédigé le 28 mai 2026 — données collectées 27 avril 2026.


Article rédigé par Adrien Marchand. Tags : llm-localnvidia-gb10qwen3llama3deepseek-r1moeself-hostingdgx-spark