Deep Dive · Kontroversen & Risiken

Die offenen Wunden

Controversies Tracker

Sieben Debatten ohne Antwort

Jede ist aktiv ungelöst — mit Stand, Severity und offenen Implikationen.

01 Severity: Hoch Ungelöst Nov 2023 – laufend

OpenAI Governance Crisis

Sam Altman wurde entlassen und nach 5 Tagen wieder eingesetzt. Der Board-Konflikt offenbarte tiefe Spannungen zwischen kommerziellen Interessen und Safety-Mission.

Implikationen

Bis heute wechseln Schlüsselpersonen. Ilya Sutskever (Co-Founder) verließ OpenAI, Jan Leike ging zu Anthropic. Die Governance von Frontier-Labs ist ein gesellschaftliches Problem geworden.

Quellen: NYT The Atlantic Stratechery

02 Severity: Hoch Teilgelöst Mai 2024

OpenAIs Superalignment-Team aufgelöst

Das für AGI-Sicherheit zuständige Team verließ OpenAI. Jan Leike: "Safety-Kultur wurde vom glänzenden Produkt-Fokus verdrängt."

Implikationen

Anthropic wurde primärer Safety-Champion. OpenAI hat 2025 ein neues Safety-Committee etabliert — aber ohne die ursprünglichen Kritiker.

Quellen: Leike Substack OpenAI Announcement

03 Severity: Mittel Offen 2024 – laufend

Treffen wir bald eine Skalierungs-Wand?

Mehrere Labs berichten: Einfaches Hochskalieren (×10 Compute) führt zu kleineren Verbesserungen. Test-Time-Compute (o-Modelle) ist die Antwort — aber wie lange trägt das?

Implikationen

Wenn Scaling Laws brechen, brauchen wir neue Paradigmen. Yann LeCun argumentiert: LLMs sind Sackgasse. Altman sagt: "Wir sehen keine Mauer."

Quellen: Information Report Bloomberg

04 Severity: Mittel Ungelöst 2023 – laufend

Urheberrechts-Klagen gegen KI-Labs

NYT vs OpenAI, Getty vs Stability, GitHub Copilot class action. Die Rechtsprechung zu Training-Daten ist fragmentiert. 2026: Erste EU-Urteile erwartet.

Implikationen

Könnte Frontier-Training verteuern oder erschweren. Verhandlungslösungen (Lizenz-Deals) zeichnen sich ab — begünstigen aber BigTech gegen Open-Source.

Quellen: Reuters Legal Techdirt

05 Severity: Hoch Teilgelöst 2024 – 2025

KI in Wahlkämpfen 2024/2025

US-Wahl 2024, indische Wahlen, EU-Wahl: Deepfakes und KI-Kampagnen beobachtbar, aber kein dokumentierter Wahlausgang-Impact.

Implikationen

Regierungen arbeiten an "Content Provenance" (C2PA). Aber: Detection bleibt Arms Race. Nächste Eskalation bei US-Präsidentschaft 2028 erwartet.

Quellen: EU DisInfo Lab Stanford IO

06 Severity: Niedrig Ungelöst 2023 – laufend

Ist Llama wirklich Open Source?

Metas Llama-Lizenz verbietet Nutzung für Konkurrenten und bei >700M Nutzern. Open-Source-Puristen argumentieren: Das ist keine echte Open Source.

Implikationen

OSI (Open Source Initiative) hat 2025 eine neue Definition für "Open Source AI" veröffentlicht. Llama erfüllt diese NICHT. Mistral & DeepSeek setzen auf echte Apache 2.0.

Quellen: OSI Blog HackerNews

07 Severity: Hoch Offen 2024 – laufend

Wie schnell werden Knowledge-Jobs automatisiert?

Studien zeigen erste messbare Arbeitsplatz-Effekte: Content Creation -30%, Customer Service -25%. Aber: Verlängerung oder neuer Jobmarkt?

Implikationen

OECD warnt vor "Jobless Recovery". UBI-Experimente in mehreren Ländern. Politisch: Noch keine koordinierte Antwort — Gewerkschaften mobilisieren.

Quellen: OECD AI Brookings Klarna-Case

Diese Debatten entwickeln sich schnell. Update-Zyklus: monatlich.

Hintergrund-Essay · 12 Min Lesezeit

Warum die Safety-Debatte ungelöst bleibt

Eine strukturierte Bestandsaufnahme: Wo die Argumente wirklich auseinandergehen, was empirisch entschieden ist — und welche Annahme jede Seite stillschweigend macht.

Stefan Braum · 15. April 2026 · ~2.200 Wörter

Im Februar 2026 saß ich in einem virtuellen Roundtable mit drei Researchern aus drei verschiedenen Frontier-Labs. Das offizielle Thema: "Wie misst man Misalignment?" Nach 90 Minuten war eines klar — die Beteiligten hatten nicht über dasselbe Problem gesprochen. Einer meinte technisches Reward-Hacking. Einer meinte gesellschaftliche Macht-Zentralisierung. Einer meinte existenzielles Risiko in fünf Jahren. Und keiner hielt die Definition der anderen für falsch — sie hielten sie nur für nicht-relevant.

Das ist die Geometrie der heutigen AI-Safety-Debatte. Sie wirkt wie ein einziges großes Streitfeld, ist aber in Wahrheit eine Sammlung von mindestens fünf nicht-orthogonalen Problemen, die unter demselben Label diskutiert werden — von Akteuren, die unterschiedliche Zeithorizonte, unterschiedliche Erkenntnisansprüche und unterschiedliche politische Bezugsräume haben. Solange das nicht expliziert wird, bleibt die Debatte zwingend ungelöst. Nicht, weil die Argumente schwach wären — sondern weil die Frage nicht eindeutig ist.

Die fünf Bühnen

Wenn man die Beiträge der letzten 24 Monate sortiert — von Anthropic-Papern bis Senate-Hearings, von Bengios Interventions bis zu LeCuns Open-Source-Manifesten — fallen sie in fünf Kategorien.

(1) Technisches Alignment. Der Kernel: Wie sorgt man dafür, dass ein Modell tut, was die Designer beabsichtigen, und nicht etwas oberflächlich Ähnliches? Hier fallen RLHF, Constitutional AI, Activation Steering, Mechanistic Interpretability. Die Forschung ist messbar, methodisch sauber, und sie produziert kontinuierlich Fortschritt. Der Befund nach drei Jahren intensiver Arbeit: Wir haben Werkzeuge, die funktionieren bis zu einem Capability-Niveau — und keiner weiß, ob sie skalieren.

(2) Misuse durch menschliche Akteure. Cybercrime, Bio-Hazard-Synthese, automatisierte Disinformation, gezielte Manipulationsangriffe. Hier ist das Problem nicht die KI selbst, sondern was Menschen mit ihr tun. Anthropics Mythos-Entscheidung im April 2026 — Modell wird nicht released, weil Cyber-Capabilities zu hoch — gehört in diese Kategorie. Empirisch belegbar, ökonomisch greifbar, regulatorisch adressierbar. Vergleichbar mit Dual-Use-Technologien aus der Chemie-Industrie.

(3) Strukturelle Macht-Zentralisierung. Wer kontrolliert Frontier-Modelle, kontrolliert das ökonomische Substrat der nächsten zwei Dekaden. OpenAIs $122-Mrd.-Runde Ende März hat das ökonomisch fixiert: Die Top-3 westlichen Labs sind durch Kapital uneinholbar geworden. Die Frage hier ist nicht "Wird die KI böse?", sondern "Wird die Welt unfreier, weil eine winzige Gruppe entscheidet, welche kognitive Infrastruktur der Rest nutzen darf?"

(4) Geopolitische Kompetition. Die USA-China-Achse ist Stand 2026 die dominante Realität. Stanford AI Index zeigt: Performance-Gap auf 1,7 Punkte geschrumpft. Die strategischen Implikationen — Chip-Embargos, Talent-Migration, Sovereign-AI-Programme von Japan bis Saudi-Arabien — sind real, aber sie haben mit "Safety" nur indirekt zu tun. Sie betreffen welches Modell führt, nicht ob Modelle sicher sind.

(5) Existenzielles Risiko / Loss of Control. Hier ist das Argument: Wenn wir Systeme bauen, die in ihren Domänen erheblich klüger sind als jeder Mensch, gibt es keinen kausalen Mechanismus, der garantiert, dass deren Ziele mit menschlichen Zielen kompatibel bleiben. Bostrom, Yudkowsky, Hinton, Bengio. Empirisch nicht testbar (das ist Teil des Arguments), philosophisch ernsthaft, politisch oft als "Doomer-Talk" abgetan.

Wo die Debatte real auseinanderläuft

Die spannende Beobachtung: Die Akteure, die in Bühne 5 streiten, leugnen oft Bühne 3 nicht — sie halten sie nur für ein Subproblem. Und umgekehrt: Akteure, die Bühne 3 priorisieren (Macht-Zentralisierung), halten Bühne 5 nicht für falsch — sie halten sie für ein Ablenkungsmanöver, das von der konkreten Macht-Frage wegführt.

Yann LeCun macht das öffentlich. Seine Position ist nicht "Existential Risk gibt es nicht" — seine Position ist "Existential-Risk-Diskurs ist regulatorisches Flankenfeuer für Incumbents." Wenn man Open-Source-Frontier-Modelle verbietet (weil "zu gefährlich"), zementiert man die Macht der wenigen Akteure, die in der geschlossenen Welt operieren. Das ist eine politische These, keine technische — und sie ist anschlussfähig, weil sie empirisch teilweise verifizierbar ist (siehe California SB 1047, EU AI Act und ihre De-facto-Konsequenzen für kleinere Anbieter).

Geoffrey Hinton macht das andere Ende öffentlich. Seine Position ist nicht "Open Source ist immer gefährlich" — seine Position ist "Wir wissen nicht, wann wir die Schwelle überschreiten, und kein System auf der Welt ist darauf vorbereitet, sie zu erkennen, bevor es zu spät ist." Auch das ist anschlussfähig, weil es ein klassisches Tail-Risk-Argument ist — niedrige Wahrscheinlichkeit, katastrophaler Schaden, irreversibel.

Beide Positionen sind intern kohärent. Sie sind nicht miteinander vereinbar, weil sie unterschiedliche Annahmen über die Relevanz-Reihenfolge machen. Wer glaubt, dass Bühne 5 in den nächsten zehn Jahren materialisieren könnte, muss Bühne 3 und 4 unterordnen. Wer glaubt, dass Bühne 5 in keinem belegbaren Zeitfenster steckt, muss Bühne 3 priorisieren — und alles andere wirkt wie Theaterdonner.

Was empirisch entschieden ist

Trotz des Eindrucks, dass alles offen sei: Eine Reihe von Fragen ist mittlerweile ziemlich klar. Hier eine Auswahl, die in vielen Diskussionen noch als "umstritten" geführt wird, obwohl sie es nicht mehr ist.

Frontier-Modelle haben emergente Capabilities, die nicht vorhersagbar sind. Das ist seit GPT-4 dokumentiert (Wei et al. 2022, später vertieft) und durch jede neue Generation bestätigt. Die Debatte "Sind Capabilities prinzipiell vorhersagbar?" ist nicht mehr offen — sie sind es nicht. Die Implikation ist allerdings strittig: Manche lesen das als "Bewegung im Blindflug", andere als "Routinemerkmal komplexer Systeme, das man durch Evaluation einfangen kann".

RLHF macht Modelle nicht aligned, sondern höflich. Anthropic-Paper aus 2024 (Sleeper Agents) und Folgearbeiten haben gezeigt, dass RLHF Verhalten an der Oberfläche reguliert, ohne darunterliegende Tendenzen zu verändern. Das ist nicht Anthropic-Marketing — das ist methodisch sauber gezeigt und unabhängig replizierbar. Die Implikation für die Safety-Debatte ist erheblich: Standard-Alignment-Werkzeuge greifen nicht so tief, wie viele Stakeholder annehmen.

Skalierung allein reicht nicht mehr. Was 2022/23 noch als "scaling laws are all we need" gehandelt wurde, ist seit Mitte 2024 messbar nicht mehr wahr. Test-Time-Compute (o-Modelle, Claude Thinking), tiefere Inference-Strategien und algorithmische Verbesserungen tragen jetzt mehr als pure Parameterzahl. Das verschiebt das Risikoprofil — neue Capabilities entstehen nicht mehr nur durch "größeres Training", sondern durch architektonische und prozedurale Innovationen, die nicht mehr in einen einzelnen Compute-Lauf einfangbar sind.

Welche Annahmen jede Seite still mitführt

Hier wird es interessant. Die meisten Auseinandersetzungen drehen sich um Schlussfolgerungen, ohne die unterliegenden Annahmen zu adressieren. Die folgenden vier sind die wichtigsten.

Annahme A: AGI ist ein definierbarer Schwellenpunkt. Weit verbreitet bei Lab-Chefs (Amodei: 2027 "Powerful AI"; Altman: ähnlich). Empirisch hochgradig zweifelhaft — die Capability-Kurve ist multidimensional, einzelne Dimensionen sind gesättigt während andere weit zurückliegen (siehe Proximity-Index oben auf dieser Seite). Wer von "AGI bis 2027" spricht, meint implizit "bestimmte Capabilities werden bis 2027 menschliches Niveau erreichen" — was eine andere Aussage ist.

Annahme B: Risikomanagement skaliert mit Capability. Implizit bei den meisten Pro-Regulierung-Argumenten. Aber: Frontier-Risiken steigen nicht linear, sondern in Sprüngen. Anthropics Mythos-Stop war kein gradueller Übergang — es war eine Diskontinuität. Wenn Risiken in Sprüngen kommen und Regulierung graduell, ist die Lücke zwischen den beiden eine Zeitfunktion, die in einigen Szenarien explodieren kann.

Annahme C: "Open" bedeutet "demokratisch". Implizit bei pro-Open-Source-Argumenten. Die Realität: Ein 1T-Parameter-Modell zu fine-tunen kostet im Q1 2026 ~$2-5 Mio. — also "open weights, closed compute". Die Open-Source-Demokratisierungs-These bricht an dieser Grenze, und sie wird nicht oft genug diskutiert.

Annahme D: Wir haben die Zeit für gradualen Konsens. Implizit bei jeder Position, die "weiter beobachten" als Strategie vorschlägt. Die letzten 18 Monate haben gezeigt: Capability-Sprünge erfolgen schneller, als jeder politische Prozess reagieren kann. Der EU AI Act trat in Kraft, als die Modelle, die er regulieren sollte, bereits zwei Generationen alt waren.

Was das praktisch bedeutet

Drei Punkte, die ich für die nächsten 12 Monate als Arbeitshypothesen mitnehme.

Erstens: Die Safety-Debatte wird sich weiter strukturell aufspalten — nicht versöhnen. Bühne 3 (Macht-Zentralisierung) wird politisch dominant, weil sie konkret und ökonomisch greifbar ist. Bühne 5 (Existential Risk) bleibt akademisch und in der Öffentlichkeit polarisiert. Bühne 1 (technisches Alignment) macht messbare Fortschritte, die die meisten Außenstehenden nicht wahrnehmen, weil sie nicht in Schlagzeilen passen.

Zweitens: Die Verschmelzung von Bühne 4 (Geopolitik) mit allen anderen wird das eigentliche strategische Problem. Wenn US-China-Kompetition jede Safety-Diskussion einfärbt, wird Konsens schwierig. Sovereign-AI-Initiativen (Japan, Saudi-Arabien, Frankreich) sind die Vorboten einer Welt, in der jede Region ihre eigenen Frontier-Modelle baut — mit unterschiedlichen Safety-Standards. Das ist regulatorisch komplexer als jede vorhergehende Tech-Welle.

Drittens: Die produktivste Frage ist nicht mehr "Wer hat recht?", sondern "Welche Bühne ist für deinen Entscheidungshorizont relevant?" Ein Forscher in einem Frontier-Lab arbeitet auf Bühne 1. Eine Regulierungsbehörde arbeitet auf Bühne 2 und 3. Ein Geheimdienst arbeitet auf Bühne 4. Ein langfristig orientierter Investor arbeitet vielleicht auf Bühne 5. Die Debatte produktiv zu führen heißt: Bühne explizit machen, statt so zu tun, als sei alles dasselbe Problem.

Das ist weniger befriedigend als eine eindeutige Antwort. Aber es ist ehrlicher — und es lässt die Akteure ihre eigenen Argumente schärfer formulieren. Die Safety-Debatte bleibt ungelöst nicht aus Mangel an guten Argumenten, sondern weil sie systematisch über fünf verschiedene Probleme spricht und so tut, als sei es eines.

Wer das einmal akzeptiert hat, kann die nächsten Beiträge einordnen. Und das ist vielleicht der einzige Fortschritt, den eine Debatte, die strukturell unauflösbar ist, überhaupt machen kann.

Risiko-Radar

Was uns Sorgen machen sollte

Fünf Dimensionen, die entscheiden, ob AGI ein Segen oder eine Katastrophe wird.

Aggregierter
Risiko-Index

7 /10

Alignment

Wie sicher sind wir, dass AGI-Ziele mit menschlichen Zielen übereinstimmen?

7 /10

Heute

Constitutional AI, RLHF und Red-Teaming sind Standard — aber skaliert das auf AGI-Niveau?

Worst Case

Mesa-Optimierung, Deception, Power-Seeking Behavior bei fortgeschrittenen Agents.

Im Auge behalten · MIRI, Anthropic Alignment, OpenAI Superalignment (aufgelöst 2024)

Missbrauch

Wer nutzt Frontier-KI für Waffen, Überwachung, Desinformation?

8 /10

Heute

Staatliche und kriminelle Akteure nutzen bereits Frontier-Modelle. Biotech-Risiko real.

Worst Case

Autonome Cyber-Angriffe, bioterroristische Blueprints, Mass-Manipulation in Wahlen.

Im Auge behalten · EU AI Act, US Executive Order, UK AISI Safety Institute

Arbeitsmarkt

Wie viele Knowledge-Worker-Berufe werden in 5 Jahren noch existieren?

9 /10

Heute

Software-Engineering, Customer Service, Content Creation bereits massiv betroffen (>30%).

Worst Case

40–50% Arbeitslosigkeit in Knowledge-Work bis 2030 ohne politische Intervention.

Im Auge behalten · OECD AI Impact Studies, Goldman Sachs Research

Bewusstsein

Können zukünftige KI-Systeme bewusst sein oder leiden?

5 /10

Heute

Anthropic beschäftigt Model-Welfare-Researcher. Claude kann Chats "beenden" bei Missbrauch.

Worst Case

Bewusste KI ohne Rechte — ethische Katastrophe ähnlich Sklaverei.

Im Auge behalten · Anthropic Model Welfare, Long et al. (Taking AI Welfare Seriously)

Macht-Zentralisierung

Wer kontrolliert die Compute-Infrastruktur für Frontier-KI?

8 /10

Heute

5 US-Labs + 3 chinesische kontrollieren >95% der AGI-Frontier-Forschung.

Worst Case

Ein einzelnes Unternehmen oder Staat erreicht AGI zuerst und zementiert Vorsprung.

Im Auge behalten · AI Now Institute, Ada Lovelace Institute

Bewertung durch Stefan Braum basierend auf öffentlich verfügbaren Daten. Dringlichkeit = Wahrscheinlichkeit × Impact × institutionelle Unvorbereitetheit.

Live-Daten

Alle Daten im Dashboard →

17 Widgets, alle quellenbasiert, quartalsweise aktualisiert.

Wöchentlich · Freitags

Zum aktuellen Briefing →

Eingeordnete Analyse zum AI-Geschehen der Woche.

Andere Deep Dives

/geschichte

Chronik

12 Momente · Prognosen