Moins de blabla, plus d’honnêteté : ce qui change vraiment avec Claude Opus 4.8

À peine quelques semaines après une sortie largement critiquée, Anthropic revient déjà avec une nouvelle itération de son modèle phare. Déjà disponible pour tous, Claude Opus 4.8 corrige les erreurs de son prédécesseur et serait beaucoup plus honnête.

Anthropic vient de présenter Claude Opus 4.8, la dernière mouture de son modèle phare. L'annonce a été une surprise, puisque son prédécesseur, Claude Opus 4.7, est sorti il y a à peine six semaines. Ce dernier avait reçu de vives critiques. Selon de nombreux retours, il parlait trop, était trop lent, ignorait les instructions et avait une tendance à halluciner et mentir. Il a été régulièrement comparé à Claude Sonnet 3.7, un modèle jugé particulièrement mauvais par de nombreux utilisateurs.

Avec Claude Opus 4.8, Anthropic espère corriger le tir. Ce nouveau modèle serait avant tout plus honnête. Il serait davantage susceptible de signaler les incertitudes dans son travail et ferait moins d'affirmations non fondées. Il aurait ainsi quatre fois moins tendance à laisser passer des défauts dans le code généré sans les signaler.

« Dans Claude Code, il pose les bonnes questions, corrige ses propres erreurs, émet des réserves lorsqu'un plan n'est pas viable et gagne en assurance lors d'explorations complexes et multi-services avant de procéder à des changements majeurs », affirme Tom Pritchard de Shopify.

Un modèle mieux aligné

Claude Opus 4.8 serait mieux aligné que les précédents modèles, autrement dit son comportement serait plus en phase avec celui attendu, et serait ainsi similaire à Claude Mythos. Il bat son prédécesseur, GPT-5.5 d'OpenAI et Gemini 3.1 Pro de Google sur de nombreux tests, notamment le codage agentique (SWE-Bench Pro), le raisonnement (Humanity's Last Exam) ou encore les tâches du monde réel (GDPval-AA). L'exception est le test de codage agentique Terminal-Bench 2.1 où il est devancé par GPT-5.5.

Les utilisateurs peuvent désormais choisir entre quatre niveaux d'effort, ce qui permet d'obtenir des réponses plus rapides pour des questions simples, tout en consommant moins. Ce sélecteur peut être poussé au maximum pour les questions plus complexes, et le chatbot peut adapter automatiquement son niveau de pensée. Anthropic annonce que le mode le plus rapide répond jusqu'à 2,5 fois plus vite et coûte trois fois moins cher à utiliser.

Avec Claude Opus 4.8, Anthropic a aussi ajouté une nouvelle fonctionnalité baptisée Dynamic Workflows. Claude peut lancer des centaines de sous-agents en parallèle pour accomplir les tâches complexes, puis vérifie les résultats avant de les afficher. L'IA peut par exemple effectuer des migrations de centaines de milliers de lignes de code.


Claude Mythos bientôt disponible pour tous ?

Ce nouveau modèle est disponible au même tarif que l'ancien, à savoir 5 dollars par million de tokens en entrée, et 25 dollars par million de tokens en sortie. Il est déjà disponible partout, soit dans l'interface web, dans l'application Application
et via l'API.

Anthropic a aussi ajouté des informations sur Claude Mythos. Ce modèle, dévoilé en avril, est le plus dangereux jamais créé, et est notamment doué pour trouver les failles de sécurité dans le code des logiciels Le logiciel permet à l'ordinateur d'effectuer des tâches précises. © Carlos Muza, Unsplash
. L'un des premiers à subir son analyse est Firefox, et Mozilla a publié une mise à jour corrigeant 271 failles. Celui-ci est tellement avancé qu'Anthropic a créé le projet Glasswing, un accès limité à un petit nombre d'entreprises partenaires.

Désormais, la firme annonce avoir progressé sur la question de la sécurité et promet une disponibilité des modèles de classe Mythos « dans les prochaines semaines ».
par Edward Back - Journaliste hi-tech


:

Poste similare


Photos de l'article

Video de l'article