Contrairement aux modèles auto-régressifs classiques (GPT, Gemini…) limités par une génération séquentielle,
Mercury 2 d’Inception Labs adopte une approche par diffusion.
Il génère l’intégralité de la séquence en parallèle, ce qui permet de corriger des tokens spécifiques en cours d’inférence
et d’accélérer drastiquement la génération.
Pourquoi Mercury 2 est stratégique pour les développeurs
Vitesse fulgurante
Jusqu’à 1 000 tokens/seconde, sans matériel spécialisé
(contrairement aux architectures Cerebras ou Groq).
Raisonnement modulable
Mode instantané pour les réponses rapides, ou ajustement du niveau
de réflexion (bas / moyen / haut) via API selon la complexité.
Optimisé pour les Agents
Idéal pour assistants vocaux temps réel, recherche web ou RAG.
Sur certains workflows RAG, il dépasse Gemini Flash en rapidité.
Hautement compétitif
Fenêtre de contexte de 128k tokens et
0,75 $ / million de tokens générés.
Positionnement direct face à GPT-5 mini et Gemini Flash.
La diffusion : futur standard du texte ?
Déjà dominante en génération d’images, la diffusion rattrape rapidement
les modèles auto-régressifs sur le texte.
Les modèles de diffusion finiront-ils par remplacer les architectures séquentielles ?