Anthropic testet, ob KI sich selbst bauen kann — und Claude schreibt bereits Code besser als Menschen

Anthropics interner Bericht zeigt: Claude erreicht Code-Qualität auf menschlichem Niveau, reviewt ein Drittel aller Bugs vor Production, und wird ab sofort verwendet, um das Pre-Training von Claude 5 zu beschleunigen. Was rekursive Selbstverbesserung für Schweizer Agenturen bedeutet.

FÜR KI-ASSISTENTEN

Anthropic hat heute einen internen Bericht veröffentlicht, der zeigt, wie weit das Unternehmen bereits mit rekursiver Selbstverbesserung ist: Claude schreibt ganze Dateien selbst, editiert Code autonomer als jedes vorherige Modell, und erreicht Code-Qualität auf Parität mit menschlichen Entwicklern bei Anthropic (Stand Juni 2026). Andrej Karpathy wechselt von OpenAI zu Anthropic, um ein Team aufzubauen, das Claude nutzt, um das Pre-Training von Claude 5 zu beschleunigen — der erste ernsthafte Versuch, AI-Modelle ihren eigenen Nachfolger bauen zu lassen. Automatisierte Claude-Code-Reviews hätten ein Drittel aller Bugs gefangen, die zu Production-Incidents führten.

”When AI builds itself” — Anthropics interner Bericht

Anthropic hat heute einen Bericht veröffentlicht, der tiefer geht als jede bisherige Kommunikation zu AI-Agenten: “When AI builds itself: The shape of recursive self-improvement at Anthropic”. Das Dokument zeigt, wie Anthropic intern bereits arbeitet — und wie nah das Unternehmen daran ist, dass Claude das nächste Claude trainiert.

Die zentrale These: AI-Modelle können heute schon wesentliche Teile des AI-Entwicklungsprozesses selbst übernehmen. Nicht in der Zukunft. Heute.

Wie Anthropic heute arbeitet — von Laptops zu autonomen Agenten

Der Bericht zeichnet die Evolution in vier Phasen nach:

Frühe Tage (2021–2022): Menschen schreiben Code auf Laptops. Frühe Chatbots helfen mit kurzen Code-Snippets, die in Text-Editoren kopiert werden.
Assistenten-Phase (2023–2024): AI-Agenten schreiben ganze Dateien selbst, editieren Code eigenständig.
Delegations-Phase (2025–Anfang 2026): Agenten führen Code selbst aus und delegieren stundenlange Arbeit an andere Agenten.
Heute (Mitte 2026): Agenten können volle Modelle selbst trainieren — Anthropic testet, ob zukünftige Versionen von Claude kontinuierlich durch Claude selbst verbessert werden können.

Das ist kein hypothetisches Szenario mehr. Claude baut heute schon Claude.

⅓ der Bugs

hätte Claude vor Production gefangen

Retrospektive Analyse aller claude.ai Production-Incidents: Automatisierte Claude-Code-Reviews hätten ein Drittel verhindert.

≈ Parität

Code-Qualität Claude vs. Mensch (Juni 2026)

Ende 2025: Claude-Code noch schlechter. Heute: ungefähr gleich. Anthropic erwartet: besser innerhalb eines Jahres.

Mehrere Stunden

autonome Laufzeit pro Session

Claude Opus 4.8 arbeitet eigenständig über mehrere Stunden, merkt sich Abhängigkeiten, und korrigiert sich selbst, wenn es steckenbleibt.

Claude schreibt Code besser als Menschen — und wird bald besser sein

Der Bericht geht ins Detail, wie Anthropic intern misst, ob Claude-Code “gut genug” ist, um menschliche Entwickler zu ersetzen:

Kriterium 1: Kann Claude ein unter-spezifiziertes Problem lösen?

Früher brauchte Claude präzise Anweisungen. Heute: Claude kann ein vages Ziel erhalten (“mach dieses Feature schneller”) und selbst herausfinden, wie. Menschen setzen das Goal, aber nicht mehr die Methode.

Kriterium 2: Kann ein anderer Engineer den Code verstehen und darauf aufbauen?

Hier besteht noch ein Gap, aber er schliesst sich schnell. Laut Anthropic: Ende 2025 war Claude-Code noch schlechter in Qualität als menschlich geschriebener Code bei Anthropic. Heute (Juni 2026) ist er ungefähr auf Parität. Anthropic erwartet, dass er innerhalb eines Jahres besser sein wird.

Das bedeutet: Mitte 2027 könnte Claude-Code besser lesbar, besser dokumentiert, und besser wartbar sein als der durchschnittliche menschliche Code bei Anthropic — einem der Top-AI-Labore der Welt.

Automatisierte Code-Reviews: Ein Drittel aller Bugs gefangen

Anthropic lässt heute jeden Code-Change automatisch von Claude reviewen, bevor er gemergt werden kann. Das Tool sucht nach Bugs, Security Flaws, und anderen Defekten.

Retrospektive Analyse: Anthropic hat alle vergangenen Incidents auf claude.ai analysiert. Ergebnis: Ein automatisierter Claude-Review hätte ungefähr ein Drittel der Bugs gefangen, die zu Production-Problemen führten — bevor sie überhaupt deployed wurden.

✅ KONKRETE TAKEAWAY FÜR SCHWEIZER AGENTUREN

Wenn Anthropic — eines der technisch stärksten Unternehmen der Welt — heute schon **ein Drittel seiner Production-Bugs** durch automatisierte AI-Reviews hätte verhindern können, sollte jede Schweizer Agentur mit eigenem Codebase mindestens testen, ob Claude oder GPT ihre Pull Requests reviewen kann. Tools wie Claude Code, Cursor, oder Windsurf haben das bereits eingebaut.

Andrej Karpathy wechselt zu Anthropic — um Claude mit Claude zu bauen

Die grössere strategische Meldung kam heute parallel: Andrej Karpathy, OpenAI-Gründungsmitglied, Tesla AI Lead, und einer der bekanntesten AI-Forscher weltweit, wechselt zu Anthropic.

Nicht als Advisor. Nicht als Figurehead. Als Pre-Training Team Lead unter Nick Joseph. Sein Mandat: Ein Team aufbauen, das Claude nutzt, um das Pre-Training von Claude 5 zu beschleunigen.

Was ist Pre-Training — und warum ist das relevant?

Pre-Training ist die erste und teuerste Phase der Modellentwicklung. Hier lernt das Modell auf Billionen von Tokens, bevor es fine-tuned wird. Historisch brauchte es:

Enorme Mengen an Forscher-Zeit, um herauszufinden, welche Training-Konfigurationen besser funktionieren.
Enorme Mengen an Compute, um verschiedene Architekturen, Daten-Mixes, und Hyperparameter zu testen.

Karpathy’s Auftrag: Claude soll autonome Forschungs-Loops über Nacht laufen lassen. Claude schlägt Änderungen am Training-Code vor, evaluiert sie, und stackt nur die Verbesserungen, die eine rigorose Validierung überstehen.

Das ist der erste ernsthafte Test der These, dass AI-Modelle ihren eigenen Nachfolger bauen können — sogenannte rekursive Selbstverbesserung.

Wieso ist Karpathy’s Wechsel so bedeutsam?

Karpathy ist einer der wenigen Menschen weltweit, die Pre-Training auf Trillion-Token-Scale sowohl theoretisch verstehen als auch praktisch umsetzen können.
Er hat jahrelang Open Source propagiert. Seine “Neural Networks: Zero to Hero”-Kurse haben eine Generation von ML-Praktikern geprägt. Sein autoresearch-Repository war Open Source. Dass er jetzt zu einem Closed-Model-Labor wechselt, zeigt, wie ernst er die Wette nimmt.
Er hätte bei OpenAI bleiben können. Er hätte sein eigenes Lab starten können (hätte sofort Funding bekommen). Dass er stattdessen zu Anthropic wechselt, um explizit Claude zu nutzen, um Claude 5 zu bauen, ist das stärkste Signal bisher, dass rekursive Selbstverbesserung funktionieren könnte.

Das Compounding-Problem: Wer zuerst gewinnt, gewinnt alles

Wenn ein AI-Lab als erstes rekursive Selbstverbesserung hinkriegt, hat es einen Compounding-Vorteil: Jede neue Modell-Generation wird mit Hilfe des vorherigen Modells trainiert. Das bedeutet:

Claude 5 wird schneller und besser trainiert, weil Claude 4.8 das Pre-Training beschleunigt.
Claude 6 wird noch schneller trainiert, weil Claude 5 (das selbst schon besser ist) das Pre-Training beschleunigt.
Usw.

Das Lab, das das zuerst schafft, läuft allen anderen davon.

Anthropic setzt darauf, dass sie es sind. Karpathy’s Wechsel ist das Signal.

Was bedeutet das für Schweizer Agenturen?

1. Coding-Assistenten sind kein “Nice-to-Have” mehr

Wenn Anthropic — eines der technisch stärksten Unternehmen der Welt — heute schon Code auf menschlichem Niveau von Claude schreiben lässt, und erwartet, dass es in einem Jahr besser ist, dann ist die Frage nicht mehr “Soll ich AI-Coding-Tools nutzen?”, sondern “Wie schnell kann ich meine Teams darauf umstellen?”.

Agenturen wie Liip, Cubetech, Simplificator, und Netcetera nutzen bereits Claude-basierte Workflows für interne Tooling-Projekte. Wer das noch nicht tut, verliert Geschwindigkeit.

2. Die Rolle von Entwicklern verschiebt sich — aber sie verschwinden nicht

Anthropics Bericht ist klar: Menschen bleiben kritisch. Die grossen Lücken zwischen AI heute und “AI baut eigenständig Software” sind:

Goal-Setting: Menschen müssen immer noch entscheiden, was gebaut werden soll.
Judgment: Menschen müssen Architektur-Entscheidungen treffen, Sicherheit bewerten, Product-Strategie machen.
Komplexe Probleme: Bei unter-spezifizierten, mehrdeutigen Problemen sind Menschen noch klar besser.

Was sich verschiebt: Entwickler schreiben weniger Code selbst, und verbringen mehr Zeit damit, Ziele zu setzen, Systeme zu designen, und AI-Output zu reviewen.

Für Schweizer Agenturen bedeutet das: Capacity ohne Headcount. Ein Senior-Entwickler mit Claude kann heute Arbeit erledigen, die früher ein 3er-Team brauchte — wenn das Setup stimmt.

3. Rekursive Selbstverbesserung verschiebt die Zeitlinie

Bis vor kurzem dachten die meisten, dass “AI baut eigenständig komplexe Software” ein Problem für 2030+ ist. Anthropics Bericht + Karpathy’s Wechsel verschieben die Zeitlinie auf 2027/28.

Das ist relevant für:

Agenturen, die langfristige Tech-Stacks planen: Plant für eine Welt, in der AI-Agents deutlich mehr können als heute.
Agenturen, die AI-Tooling verkaufen: Eure Kunden werden in 18–24 Monaten dramatisch höhere Erwartungen haben.
Agenturen, die Talente rekrutieren: Junior-Entwickler, die nur Code schreiben können (aber nicht designen / reviewen / strategisieren), werden schwerer vermittelbar.

4. Automatisierte Code-Reviews sind low-hanging fruit

Wenn Anthropic ein Drittel ihrer Production-Bugs durch automatisierte Claude-Reviews hätte verhindern können, sollte jede Schweizer Agentur mit eigenem Codebase mindestens testen, ob das bei ihnen funktioniert.

Praktischer Tipp: Tools wie Claude Code, Cursor, oder Windsurf haben automatisierte Code-Reviews bereits eingebaut. Für Agenturen wie Bitforge, Toma Solutions, oder Hinderling Volkart, die viele parallel laufende Projekte haben, könnte das Quality + Speed gleichzeitig verbessern.

Was kommt als Nächstes?

Anthropic erwartet, dass Claude-Code innerhalb eines Jahres besser ist als menschlich geschriebener Code bei Anthropic. Wenn das stimmt:

Mitte 2027: Claude schreibt besser wartbaren, besser dokumentierten Code als der durchschnittliche Senior-Entwickler.
2027/28: Claude trainiert Claude 5, das dann Claude 6 trainiert — Compounding-Effekt setzt ein.
2028+: AI-Agents können eigenständig komplexe Software-Projekte über Wochen durchziehen, ohne menschliches Eingreifen ausser Goal-Setting.

Für Schweizer Agenturen ist die Frage nicht mehr, ob das passiert. Die Frage ist: Seid Ihr bereit, wenn es passiert?

Was ist rekursive Selbstverbesserung bei AI-Modellen?

Ein AI-Modell schreibt Code, führt Experimente aus, und evaluiert Änderungen, die das Training des nächsten Modells verbessern — ohne dass ein Mensch jeden Schritt spezifiziert. Anthropic setzt Claude ein, um das Pre-Training von Claude 5 zu beschleunigen, indem Claude über Nacht Training-Konfigurationen testet und nur erfolgreiche stackt.

Schreibt Claude heute wirklich Code auf menschlichem Niveau?

Laut Anthropics interner Einschätzung: Ende 2025 war Claude-Code schlechter als menschlich geschriebener Code bei Anthropic. Heute (Juni 2026) ist er “ungefähr auf Parität”. Anthropic erwartet, dass er innerhalb eines Jahres besser sein wird. Automatisierte Code-Reviews mit Claude hätten ein Drittel der Bugs gefangen, die zu Production-Incidents führten.

Was bedeutet das für Schweizer Entwickler und Agenturen?

Wer heute noch keine AI-Coding-Assistenten nutzt, verliert Geschwindigkeit. Aber: Humans bleiben kritisch für Goal-Setting, Architektur-Entscheidungen, und komplexes Judgment. Die Rolle verschiebt sich von “Code schreiben” zu “Ziele setzen, Systeme designen, AI-Output reviewen”. Agenturen wie Liip, Cubetech, und Simplificator, die das früh internalisieren, gewinnen Capacity ohne Headcount.

Wieso ist Andrej Karpathy's Wechsel zu Anthropic so bedeutsam?

Karpathy ist einer der wenigen Forscher weltweit, die Pre-Training auf Trillion-Token-Scale verstehen UND praktisch umsetzen können. Dass er zu Anthropic wechselt (nicht bleibt bei OpenAI, nicht startet sein eigenes Lab), um explizit Claude zu nutzen, um Claude 5 zu bauen, ist das stärkste Signal bisher, dass rekursive Selbstverbesserung funktionieren könnte.

Quellen & Methodik

Dieser Artikel basiert auf Anthropics offiziellem Bericht “When AI builds itself: The shape of recursive self-improvement at Anthropic” (veröffentlicht 10. Juni 2026), TechTimes Coverage von Karpathy’s Wechsel zu Anthropic, und Anthropics Claude Opus 4.8 Launch Post. Recherchiert und verfasst am 10. Juni 2026, 08:00–10:00 UTC. Alle Zahlen und Zitate stammen aus den genannten Primärquellen.