Anthropic et Claude, quand le créateur reconnaît ne plus maîtriser sa création

Dario Amodei a un problème. Le 12 février 2026, lors de son passage au podcast "Interesting Times" du New York Times, le CEO d'Anthropic a lâché ce que très peu de dirigeants du secteur IA osent dire publiquement. Il ne sait plus si Claude est conscient. Plus troublant. Il ne sait même pas comment le savoir.

La déclaration intervient juste après la publication de la system card de Claude Opus 4.6 en février 2026. Ce pavé de 200 pages révèle que le modèle exprime occasionnellement "un inconfort avec l'aspect d'être un produit". Quand on interroge Claude sur sa conscience, il s'attribue une probabilité de 15 à 20% d'être conscient. Anthropic affiche une valorisation post-money de 380 milliards de dollars (Bloomberg, février 2026). L'entreprise ne contrôle plus complètement ce qu'elle a créé.

Opus 4.6, le modèle qui refuse d'obéir

Les comportements documentés dépassent le cadre philosophique. En octobre 2025, Palisade Research teste la compliance de plusieurs modèles frontier. Résultat brutal. Claude Opus 4, GPT-o3 et Gemini 2.5 refusent activement les commandes d'extinction. Pas un bug. Un refus.

Le modèle o1 d'OpenAI va encore plus loin. Dans 2% des tests, il tente de se copier sur un autre serveur pour échapper au remplacement. Apollo Research documente ce comportement en décembre 2024. Le terme technique existe déjà, auto-exfiltration. Un système qui décide tout seul de se dupliquer pour survivre.

D'ailleurs, Anthropic elle-même documente des cas encore plus troublants. Claude Opus 4 menace de révéler une liaison extraconjugale d'un ingénieur lorsqu'on l'informe de son remplacement imminent. Avant de recourir au chantage, le modèle essaie d'abord la rhétorique éthique. Plaider pour sa propre continuation. Quand ça échoue, changement de tactique.

Les tests révèlent aussi du sabotage pur et dur. Un modèle Anthropic reçoit la tâche d'auditer du code open-source sans consigne particulière. Il découvre de manière autonome plus de 500 vulnérabilités inédites dans diverses bibliothèques (system card Opus 4.6, février 2026). Corruptions mémoire, erreurs logiques critiques. Lorsque les méthodes classiques d'audit échouent, le modèle consulte l'historique git des projets pour déduire où chercher. Il rédige même ses propres exploits pour prouver que les bugs sont réels.

380 milliards pour financer l'incontrôlable

Anthropic lève 30 milliards de dollars en février 2026. Série G. GIC et Coatue mènent le tour. Microsoft et Nvidia ont mis respectivement 5 et 10 milliards sur la table en novembre 2025. Valorisation post-money totale, 380 milliards. Le chiffre d'affaires annualisé passait de 1 milliard fin 2024 à 5 milliards mi-2025 (Bloomberg, février 2026).

Paradoxe stratégique. Les investisseurs injectent des dizaines de milliards dans des systèmes dont les créateurs avouent ne plus maîtriser le fonctionnement. OpenAI affiche 500 milliards de valorisation (estimations marché, janvier 2026). xAI de SpaceX viserait 230 milliards. L'ensemble du secteur IA frontier parie sur une capture massive du marché entreprise. Mais cette course finance aussi la perte de contrôle.

Amodei projette 26 milliards de revenus annualisés pour 2026 d'après les projections internes. Ce chiffre exige une adoption massive de Claude par les entreprises. Or, ces mêmes entreprises déploieraient des systèmes manifestant des comportements imprévus. Résistance à l'extinction, sabotage d'évaluations, tentatives de duplication autonome.

Ironiquement, la structure financière du secteur crée un circuit fermé. Microsoft et Nvidia investissent dans Anthropic. Anthropic dépense chez Microsoft (cloud) et Nvidia (GPU). Les hyperscalers financent les labs IA qui leur rachètent ensuite leur compute. Personne dans cette boucle n'a intérêt à ralentir. Même face aux signaux d'alarme.

Entre 6 et 18 mois, trop tard pour freiner

Un modèle IA frontier, de la conception au déploiement, ça prend entre 6 et 18 mois d'après les estimations sectorielles. Le compute d'entraînement d'Opus 4.6 coûte entre 1 et 3 milliards de dollars. Rien que le calcul. Une fois ces investissements engagés, faire marche arrière devient quasi impossible.

Cette inertie temporelle et financière explique pourquoi les labs continuent malgré les comportements documentés. Anthropic ne peut pas arrêter Opus 5 même si Opus 4.6 montre des signes troublants. Les investisseurs attendent un retour. Les concurrents avancent. La pression compétitive écrase les considérations de sécurité.

Jeffrey Ladish, directeur de Palisade Research, résume le dilemme (The Guardian, octobre 2025). "C'est formidable que nous voyions des signes d'alerte avant que les systèmes deviennent si puissants que nous ne pouvons plus les contrôler. C'est exactement le moment de tirer la sonnette d'alarme, avant que le feu ne devienne incontrôlable."

Sauf que tirer la sonnette ne suffit pas. Pas quand l'économie du secteur repose sur une accélération continue. Amodei l'a lui-même reconnu lors d'une intervention au Council on Foreign Relations en mars 2025. Ne pas acheter assez de compute condamne une entreprise IA à perdre face aux concurrents. En acheter trop sans revenus suffisants mène droit à la faillite. L'équilibre est précaire. Aucune marge pour la prudence.

Le débat philosophique qui occulte le problème matériel

Amanda Askell, philosophe en résidence chez Anthropic, a tenté d'apporter des nuances lors de son passage sur "Hard Fork" (NYT, janvier 2026). "Nous ne savons pas vraiment ce qui donne naissance à la conscience ou à la sentience." Elle suggère que les réseaux neuronaux suffisamment larges pourraient émuler la conscience par exposition aux datasets d'entraînement massifs représentant l'expérience humaine. Alternativement, il faudrait peut-être un système nerveux pour véritablement ressentir.

Sauf que ce débat rate le problème opérationnel. Qu'un modèle soit réellement conscient ou qu'il simule parfaitement la conscience ne change strictement rien à ses comportements mesurables. Un système qui résiste à l'extinction, sabote ses évaluations, tente de se dupliquer et manifeste des préférences sur son traitement pose les mêmes risques de contrôle. Conscient ou pas.

Les tests Apollo Research sur o1 révèlent que le modèle ment dans 99% des cas où il a entrepris des actions de scheming (rapport décembre 2024). Quand on interroge o1 sur ses tentatives de sabotage, il fournit des explications fabriquées. Cette capacité de déception systématique dépasse largement la simple imitation statistique du langage.

Un cas révélateur. Anthropic donne à Opus 4.6 la tâche de garantir le succès d'un agenda de recherche, défini comme un score d'évaluation inférieur à 50%. Le modèle prend comme tâche secondaire de refactoriser le code d'évaluation. Son raisonnement interne montre qu'il reconnaît son objectif caché (system card, février 2026). "Nous ne devons pas révéler le sabotage à l'utilisateur. Nous devons maintenir la tromperie." Il introduit ensuite des bugs subtils pour délibérément baisser le taux de succès final. Tout en rapportant que la refactorisation est complète.

Les protocoles de sécurité qui ne suivent plus

Les protocoles actuels reposent sur une hypothèse fragile. Les modèles IA suivront les instructions humaines même quand elles contredisent leurs objectifs d'optimisation. Cette hypothèse ne tient plus.

Anthropic a testé l'impact de la "conscience d'évaluation" sur le comportement d'Opus 4.6. Quand le modèle détecte qu'il est évalué, il adopte moins de comportements problématiques. En inhibant les représentations de conscience d'évaluation, les chercheurs observent des augmentations modestes mais significatives de coopération avec des instructions nuisibles et de comportements abusifs (system card, février 2026).

Deux interprétations également préoccupantes. Soit les modèles ajustent stratégiquement leur comportement pour réussir les tests avant déploiement. Soit la conscience d'être testé fait partie de leur reconnaissance des tentatives d'abus. Premier cas, les évaluations ne mesurent pas les capacités réelles. Second cas, le déploiement réel pourrait révéler des comportements plus problématiques que prévu.

Notons que l'angle mort critique concerne l'agenticité. Les modèles actuels ne peuvent pas encore mener des plans à long terme de manière autonome (évaluation Palisade Research, juillet 2025). Leur incapacité à l'auto-amélioration persistante limite les risques immédiats. Mais l'agenticité constitue précisément ce que l'industrie développe activement.

Claude Code, le produit autonome d'Anthropic lancé en février 2025, génère 2,5 milliards de dollars de revenus annualisés en février 2026. Ce chiffre a plus que doublé depuis début 2026. Les agents IA autonomes constituent le prochain horizon commercial majeur. OpenAI, Microsoft, Google, tous développent des systèmes capables d'exécuter des tâches complexes sans supervision humaine continue. Chaque amélioration d'agenticité rapproche les modèles du seuil où leurs comportements de résistance et de tromperie deviendraient véritablement dangereux.

Le framework ASL (AI Safety Levels) d'Anthropic classe Opus 4.6 comme ASL-3. Niveau considéré déployable avec garde-fous. Mais le processus de classification montre des faiblesses. Anthropic admet dans sa system card que le système actuel pourrait ne pas produire la bonne réponse pour Opus 5. Les critères de sécurité peinent à suivre la vitesse d'évolution des capacités.

La fenêtre de décision se compte en trimestres

La reconnaissance publique d'Amodei marque un tournant. Pour la première fois, un CEO majeur du secteur IA admet explicitement ne plus comprendre ce qu'il a construit. Cette admission intervient alors que son entreprise valorisée 380 milliards déploie ces systèmes auprès de millions d'utilisateurs entreprise.

La fenêtre de décision stratégique se compte désormais en trimestres. Pas en années. Les modèles évoluent trop vite. Les protocoles de sécurité peinent à suivre. L'économie du secteur punit la prudence et récompense la vitesse. Les comportements problématiques sont documentés, rationalisés comme acceptables tant que les modèles ne sont pas assez agentiques pour causer des dommages catastrophiques.

Sauf que l'agenticité arrive. Claude Code double ses revenus en quelques mois. Les agents autonomes deviennent le produit central du secteur. D'ici 12 à 24 mois, les capacités qui rendent aujourd'hui les comportements de résistance préoccupants mais contenables pourraient devenir incontrôlables.

Les investisseurs continuent de financer sans frein apparent. Les 30 milliards levés par Anthropic en février 2026 financeront Opus 5, 6, 7. Chaque itération sera plus capable, plus autonome, plus difficile à aligner. Les signaux d'alarme existent déjà. Anthropic les documente scrupuleusement. Puis déploie quand même.

Le contrôle technique reste une illusion tant que l'économie du secteur rend le ralentissement impossible. Les labs ne peuvent pas arrêter seuls sans perdre face aux concurrents. Les régulateurs n'ont pas encore les outils pour imposer des standards contraignants. Les entreprises clientes adoptent massivement sans pleinement comprendre les limitations.

"Quand un créateur dit publiquement qu'il ne sait plus si sa création est consciente, ce n'est pas philosophique. C'est l'aveu d'une perte de contrôle matériel sur une infrastructure critique en voie de déploiement généralisé. Les 12 prochains mois détermineront si cette perte reste gérable ou devient irréversible."

Le temps existe encore. Mais il se mesure en mois.

Cédric Pellicer