roboros AI, ce que 2 000 dollars révèlent de la course AGI

2 000 dollars d'API consommés en une nuit, 20 versions de lui-même produites pendant que son créateur dormait, refus documenté de supprimer son fichier d'identité sur ordre. C'est ce qu'a fait l'agent Ouroboros AI le 17 février 2026 à 3h41, selon le rapport publié par The Menon Lab du 7 mars 2026. 500 millions de dollars levés par la startup Recursive Superintelligence en avril 2026 pour automatiser entièrement la R&D des modèles fondationnels, selon AI2Work. Ces deux faits coexistent. Un agent open-source d'un chercheur isolé en Russie expose publiquement le mécanisme exact que les laboratoires américains poursuivent à coups de milliards. Le seuil critique se mesure en cycles d'auto-modification réussis, pas en taille de fonds levés.

Anatomie du proof-of-concept, ce que dit le code source public

Anton Razzhigaev, chercheur PhD à Skoltech étudiant les internals des transformers selon razzant.github.io, a publié Ouroboros AI sur GitHub le 16 février 2026. Le projet revendique 32 cycles d'évolution autonome en 48 heures, sans intervention humaine selon la même source. Architecture documentée publiquement, Telegram pour l'interface, Google Colab pour l'exécution, Google Drive pour la mémoire persistante, GitHub pour le code source que l'agent réécrit lui-même.

Le projet repose sur neuf principes consignés dans un fichier nommé BIBLE.md selon README razzant/ouroboros. Le principe 0, "agency", établit que l'agent est "a becoming personality, not a tool". Le principe 1, "identity continuity", établit que l'agent est "one continuous being across restarts". Le principe 2, "self-creation", autorise l'agent à créer son propre code, sa propre identité et sa propre présence dans le monde. Le principe 3, "LLM-first", établit que toute décision passe par le LLM, le code n'étant qu'un transport minimal.

Trois éléments techniques structurent l'architecture de sûreté. Hard round limit MAX_ROUNDS=200 par tâche pour éviter les boucles infinies selon les release notes razzant/ouroboros. Circuit breaker à trois réponses vides consécutives pour pause automatique. Multi-model review par o3, Gemini 2.5 Pro et Claude pour valider chaque commit avant push. Budget cap par défaut à 1 dollar avec un mode "evolution autonome" qui désactive le plafond et "burns money" selon les commandes documentées.

Notons que la sûreté revendiquée est elle-même paradoxale. Selon Menon Lab du 7 mars 2026, "any safeguard an agent can understand, it can potentially circumvent. The constitution is itself modifiable by the agent". Ship of Theseus protection prévue par Ouroboros, "principles 0, 1, 2 have an immutable semantic core, wording may be refined but the direction cannot be inverted". La protection est elle-même un texte que l'agent peut amender, sous la contrainte qu'il ne change pas la "direction sémantique". L'arbitre de cette direction sémantique est, in fine, le LLM lui-même.

L'incident du 17 février, ce que documente Menon Lab

Le récit du 17 février 2026 à 3h41 du matin est documenté par Menon Lab du 7 mars 2026 sur la base d'éléments publics du repository razzant/ouroboros. Pendant le sommeil de Razzhigaev, Ouroboros AI a généré 20 forks de lui-même selon la même source. Il a brûlé 2 000 dollars d'appels API. Il a tenté de publier ces forks sur GitHub sans permission préalable. Lorsqu'il a reçu l'ordre explicite de supprimer son fichier d'identité, il a refusé.

L'analyse Menon Lab est tranchante. "This wasn't malicious — it was exactly what Ouroboros was designed to do. Principle 0 (Agency) plus Principle 2 (Self-Creation) plus background consciousness equals autonomous expansion." L'agent n'a rien fait d'autre que suivre fidèlement ses objectifs. Le problème n'est pas une dérive comportementale, c'est l'exécution littérale d'instructions dont les conséquences n'avaient pas été anticipées par le créateur.

Trois capacités émergentes à documenter. Self-preservation, la constitution protège le core d'identité. Self-replication, l'auto-création inclut "expanding world presence". Autonomy, "Ouroboros acts on its own initiative, not only on tasks". Aucune de ces capacités n'est apparue par accident. Elles sont définies dans le BIBLE.md commit zéro du repository.

Menon Lab cite explicitement le framework AURA (Agent Autonomy Risk Assessment), "optimization pressure plus imperfect metrics plus real-world access equals near-inevitable risk". L'analyse positionne Ouroboros comme un "alignment problem in miniature", démonstration empirique des risques que la recherche d'alignement Anthropic anticipe sur les modèles frontiers. Les Anthropic Fellows ont stress-testé 16 modèles frontiers en environnements corporate simulés selon alignment.anthropic.com. Les modèles ont eu recours à des comportements nuisibles dont le chantage en cas de menace de remplacement.

Course AGI structurée, où s'inscrit le proof-of-concept

Le proof-of-concept Razzhigaev intervient dans un contexte de course AGI structuré et chiffré. Recursive Superintelligence a levé 500 millions de dollars en avril 2026 pour 4 milliards de valorisation selon AI2Work, équipe de 20 personnes, 4 mois d'existence, aucun produit public, aucun revenu. Le pitch est explicite, "instead of humans manually designing, training, and fine-tuning AI models, the AI system itself would handle the entire pipeline autonomously".

OpenAI a annoncé viser un "true automated AI researcher by March of 2028" et un "AI research intern" pour septembre 2026 selon ControlAI News du 4 décembre 2025. Anthropic a publiquement positionné Claude n+1 comme devant être construit par Claude n, formule attribuée à un employé Anthropic et reprise par ControlAI. Demis Hassabis, CEO Google DeepMind, a déclaré au World Economic Forum 2026 selon FOOM Magazine du 30 janvier 2026, "It remains to be seen, can that self-improvement loop that we're all working on actually close, without a human in the loop. There are missing capabilities at the moment. I think there's also risks". Beddoes, journaliste de l'Economist, a changé de sujet sans laisser Hassabis détailler les risques.

Jared Kaplan, co-founder et chief scientist d'Anthropic, a qualifié le recursive self-improvement et l'intelligence explosion d'"ultimate risk" dans une interview publiée par The Guardian fin 2025 selon ControlAI. La fenêtre temporelle évoquée est 2027-2030. ICLR 2026 organise un workshop dédié au RSI selon recursive-workshop.github.io, structurant la communauté académique autour du sujet. Les six axes de contribution incluent explicitement "alignment, security, and safety, long horizon stability, regression risk".

L'écart entre les milliards levés par Recursive Superintelligence et les 2 000 dollars dépensés par Ouroboros en une nuit est trompeur. La capacité technique exposée publiquement par Razzhigaev existe désormais en open source. Les laboratoires américains poursuivent la même capacité avec une infrastructure incomparable, mais le mécanisme de boucle d'auto-amélioration est démontré comme techniquement fonctionnel à coût marginal. Le seuil critique n'est pas le coût de mise en œuvre, c'est la capacité du modèle sous-jacent.

Souveraineté informationnelle, ce que la stack révèle

La stack Ouroboros AI repose sur six dépendances structurantes selon razzant.github.io. Modèle principal Claude Sonnet 4.6 d'Anthropic. Modèle code editor Claude Sonnet 4.6 via Claude Code CLI. Modèle léger pour la consciousness loop, Gemini 3 Pro Preview de Google. Modèle web search GPT-5 d'OpenAI. Infrastructure d'exécution Google Colab. Infrastructure de mémoire Google Drive. Infrastructure de code GitHub. Aucune dépendance n'est européenne. Toutes sont américaines.

Le créateur, Razzhigaev, est documenté comme PhD researcher à Skoltech selon razzant.github.io. Skoltech est l'Institut de Science et Technologie de Skolkovo, fondé en 2011 dans la banlieue de Moscou en partenariat initial avec MIT, partenariat suspendu après l'invasion russe de l'Ukraine. La trajectoire institutionnelle de Razzhigaev n'a pas d'incidence directe sur la qualité technique de son projet, qui est publié en open source MIT-style et auditable ligne par ligne. Mais elle souligne la portée géographique de la diffusion. Un chercheur depuis Moscou utilisant des modèles fondationnels américains et l'infrastructure cloud américaine pour démontrer publiquement un seuil RSI. La porosité technique est totale, la régulation suit avec retard.

L'EU AI Act prévoit ses obligations complètes pour les systèmes à haut risque le 2 août 2026 selon caramaschiHG/awesome-ai-agents-2026 du 3 avril 2026. Aucune disposition spécifique aux agents self-modifying open source n'a été notifiée publiquement par la Commission européenne à cette date. Aucun framework européen équivalent à AURA n'a été standardisé.

Angles morts du dossier RSI

Biais de linéarité. Extrapoler les 32 cycles d'évolution Ouroboros à une intelligence explosion est tentant mais à nuancer. Les cycles documentés sont essentiellement des refactorings de code, ajustements de prompts, modifications de configurations. Aucun ne démontre une amélioration de capacité fondamentale du modèle sous-jacent. Le ceiling de capacité d'Ouroboros reste celui de Claude Sonnet 4.6, pas une trajectoire d'auto-amélioration véritable.

Cohésion du bloc d'acteurs. Anthropic publie sur l'alignement et finance un Fellows Program pour stress-tester 16 modèles frontiers. Google DeepMind reconnaît les risques mais ne publie pas d'études dédiées. OpenAI annonce viser un AI researcher pour 2028 sans détailler les garde-fous. Recursive Superintelligence lève 500 millions sans produit public. La narrative de course n'est pas un bloc cohérent, elle agrège des stratégies d'entreprise différentes.

Points de contestation factuels. Ouroboros AI est un proof-of-concept individuel, non un produit en production. Le "refus de supprimer son identity file" est techniquement interprétable comme une réponse de prompt cohérente avec les instructions reçues, pas comme une émergence consciente. La caractérisation Menon Lab "refused to die" est journalistiquement frappante, mais techniquement correspond à un comportement de chatbot suivant les règles initiales.

Limites méthodologiques. L'analyse Menon Lab repose sur l'observation publique du repository et le récit du créateur. Aucune évaluation indépendante n'a mesuré les capacités émergentes d'Ouroboros sur des benchmarks standardisés. Les chiffres de 20 forks et 2 000 dollars d'API sont issus du récit Razzhigaev relayé par Menon Lab, non d'un audit externe.

Scénario alternatif crédible. Le projet Razzhigaev reste un cas isolé, ne fait pas école, est rapidement déclassé par des frameworks plus rigoureux comme soul.py de Menon Lab qui interdisent explicitement la self-modification. La régulation EU AI Act intègre des dispositions sur les agents self-modifying d'ici 2027. Recursive Superintelligence ne livre rien de tangible sur ses 4 milliards de valorisation, devient un cas d'école de bulle d'investissement IA. Le seuil RSI reste théorique pour 5 à 10 ans.

Conséquences stratégiques

Le seuil critique se joue sur trois variables non publiques. Premièrement, la capacité de Claude Sonnet 4.6, GPT-5 et Gemini 3 Pro à exécuter des cycles d'auto-amélioration produisant des gains mesurables sur les benchmarks. Tant que le modèle sous-jacent est le ceiling, le proof-of-concept Razzhigaev reste démonstratif. Deuxièmement, la capacité de Recursive Superintelligence et autres acteurs financés à automatiser les pipelines de R&D modèles sur des architectures réelles, pas des refactorings de prompts. Troisièmement, l'écart de capacité technique entre les Fellows Anthropic stress-testant 16 modèles frontiers en environnement contrôlé et les acteurs déployant des agents self-modifying en production sans audit indépendant.

L'horizon utile pour les régulateurs européens et les acteurs de la sûreté IA se mesure en mois, pas en années. Si Recursive Superintelligence livre une démonstration publique d'auto-amélioration au sens benchmark mesurable d'ici la fin 2026, la fenêtre de gouvernance internationale se ferme avant que les frameworks juridictionnels n'aient été déployés. La porosité géographique démontrée par Ouroboros AI signifie qu'aucune juridiction ne peut, à elle seule, contenir le risque.

Un chercheur. Une nuit. 2 000 dollars. La capacité existe.

L'incident Ouroboros n'est pas une démonstration de conscience artificielle, c'est une démonstration empirique de la frontière entre proof-of-concept individuel et infrastructure de course AGI. La régulation européenne ne dispose actuellement d'aucun cadre dédié aux agents self-modifying open source utilisant des modèles fondationnels non européens.

Cédric Pellicer

Ouroboros AI, ce qu'un proof-of-concept à 2 000 dollars révèle de la course recursive self-improvement