NEWS

Découvrez Mercury 2 : Le premier grand modèle de langage de diffusion doté de capacités de réflexion et de raisonnement !

Publié le 27 février 2026 par l'équipe Beemm

Tags: #IA #Innovation #Diffusion #LLM #Mercury

Découvrez Mercury 2 : Le premier grand modèle de langage de diffusion doté de capacités de réflexion et de raisonnement !

Contrairement aux modèles auto-régressifs classiques (GPT, Gemini…) limités par une génération séquentielle, Mercury 2 d’Inception Labs adopte une approche par diffusion.

Il génère l’intégralité de la séquence en parallèle, ce qui permet de corriger des tokens spécifiques en cours d’inférence et d’accélérer drastiquement la génération.

Pourquoi Mercury 2 est stratégique pour les développeurs

Vitesse fulgurante

Jusqu’à 1 000 tokens/seconde, sans matériel spécialisé (contrairement aux architectures Cerebras ou Groq).

Raisonnement modulable

Mode instantané pour les réponses rapides, ou ajustement du niveau de réflexion (bas / moyen / haut) via API selon la complexité.

Optimisé pour les Agents

Idéal pour assistants vocaux temps réel, recherche web ou RAG. Sur certains workflows RAG, il dépasse Gemini Flash en rapidité.

Hautement compétitif

Fenêtre de contexte de 128k tokens et 0,75 $ / million de tokens générés. Positionnement direct face à GPT-5 mini et Gemini Flash.

La diffusion : futur standard du texte ?

Déjà dominante en génération d’images, la diffusion rattrape rapidement les modèles auto-régressifs sur le texte.

Les modèles de diffusion finiront-ils par remplacer les architectures séquentielles ?

Télécharger le PDF — Mercury 2 Diffusion Reasoning