AGI-Tracker: Wie nah sind wir wirklich?

Drei Stufen

Was eigentlich ist
"künstliche Intelligenz"?

Die KI von heute, AGI als nächster Schritt, und ASI als das Unbekannte dahinter.

Stufe 1

Heute

ANI

Schwache KI

Spezialisiert auf eine einzelne Aufgabe — Schach spielen, Texte schreiben, Bilder erkennen. Kann nicht über ihren Trainingsbereich hinausdenken.

Wie ein:e brillante:r Fachidiot:in — Weltklasse in einer Disziplin, hilflos außerhalb davon.

Was sie können

Sprache & Code auf Senior-Niveau
Bilder und Video fast fotorealistisch
Protein-Strukturen besser als Labore
Millionen Tokens Kontext

Was noch fehlt

Selbstständige Zielsetzung, echtes Transferlernen zwischen Domänen, langfristiges Planen über Tage.

Beispiele

ChatGPT Midjourney Tesla Autopilot AlphaFold

Zeitraum

In Produktion seit 2010

Details ↓

Stufe 2

In Reichweite

AGI

Allgemeine KI

Kann jede intellektuelle Aufgabe lösen, die ein Mensch lösen kann. Lernt selbständig, transferiert Wissen zwischen Domänen, plant über lange Zeiträume.

Wie ein:e begabte Generalist:in mit 5 Doktortiteln — versteht alles, lernt schnell, löst Neues.

Was sie können

Forschung auf Doktorats-Niveau über alle Felder
Autonome Agents über Wochen-Projekte
Echte Generalisierung aus wenigen Beispielen
Selbst-Korrektur und Meta-Reasoning

Was noch fehlt

Self-Improvement Loop, verlässliches Kausal-Reasoning, Überleben in offenen Umgebungen ohne Supervision.

Beispiele

Kandidaten: GPT-5.5 Claude Opus 4.7 Gemini 3.1 (kein Konsens)

Zeitraum

Metaculus: ~Mitte 2030

Details ↓

Stufe 3

Theoretisch

ASI

Superintelligenz

Übertrifft die kollektive menschliche Intelligenz in allen Bereichen. Wäre fähig zu rekursiver Selbstverbesserung. Implikationen unkalkulierbar.

Die Menschheit insgesamt ist zur Schimpansen-Truppe, die versucht eine Konzernübernahme zu verstehen.

Was sie können

Durchbrüche in Physik, Bio, Mathematik im Tagestakt
Rekursive Verbesserung der eigenen Architektur
Strategisches Planen über Jahrzehnte hinweg
Modelliert komplette Gesellschaften in Echtzeit

Was noch fehlt

Wir wissen nicht, was wir nicht wissen — und das ist Teil des Problems.

Beispiele

Konzepte: Seed AI Technological Singularity Recursive Self-Improvement

Zeitraum

Unbekannt — möglicherweise kurz nach AGI

Details ↓

"AGI ist ein System, das mindestens so intelligent wie ein Mensch ist — über die gesamte Bandbreite kognitiver Aufgaben hinweg."

Shane Legg · Mitgründer Google DeepMind · 2007

Live-Indikator · Stand Q2 2026 · Nächstes Update Q3 2026

Wie nah sind wir
eigentlich dran?

Acht Dimensionen, acht externe Benchmarks, keine Meinungen. Der Score ist ein gewichtetes geometrisches Mittel der Lücken zwischen heutiger SOTA und menschlicher Referenz.

Composite Score

AGI Proximity
Index 2026

Vor der Schwelle

Wie rechnet sich das?

Gewichtetes geometrisches Mittel von 8 Benchmark-Gaps. Geometrisch heißt: eine einzelne niedrige Dimension (z.B. Self-Improvement) drückt den Gesamtwert überproportional — Kompensation ist bewusst ausgeschlossen.

Die Acht Dimensionen · alle Werte belegbar

01 · Pillar

Gewicht 15%

Abstract Reasoning

77 %

Aktuelle SOTA

77.1% · Gemini 3.1 Pro

Referenz (Mensch)

100% · Human Average

ARC-AGI-2 Successor: ARC-AGI-3 (bei Sättigung)

Abstrakte Muster in neuartigen Aufgaben. ARC-AGI testet, was Menschen in 30 Sekunden sehen, aber was für Modelle schwer bleibt.

Quelle SOTA ↗ · Baseline: ARC Prize Foundation (Chollet) · Stand 2026-02

02 · Pillar

Gewicht 8%

Expert Knowledge

100 +

✓ Benchmark gesättigt (SOTA 94.3% > Baseline 81%)

Aktuelle SOTA

94.3% · Gemini 3.1 Pro

Referenz (Mensch)

81% · PhD-Experten (mit Internet)

GPQA Diamond ⚠ gesättigt: Humanity's Last Exam (HLE)

PhD-Niveau-Fragen in Biologie, Physik, Chemie. Der Benchmark ist weitgehend gesättigt — Frontier-Modelle übertreffen menschliche Experten zuverlässig.

Quelle SOTA ↗ · Baseline: Rein et al. 2023 · Stand 2026-02

03 · Pillar

Gewicht 8%

Advanced Math

100 +

✓ Benchmark gesättigt (SOTA 97.6% > Baseline 95%)

Aktuelle SOTA

97.6% · GPT-5.5 Pro

Referenz (Mensch)

95% · Expert Humans

MATH + AIME 2025 ⚠ gesättigt: FrontierMath / USAMO Proof-based

Olympiade-Mathematik und Graduate-Level-Beweise. Reasoning-Modelle (o3, o4, GPT-5.5) haben 2025/26 das Mathematik-Problem praktisch gelöst.

Quelle SOTA ↗ · Baseline: Artificial Analysis Leaderboard · Stand 2026-04

04 · Pillar

Gewicht 12%

Coding Agency

97 %

Aktuelle SOTA

87.6% · Claude Opus 4.7

Referenz (Mensch)

90% · Senior Engineer

SWE-bench Verified

Echte GitHub-Issues eigenständig lösen. 87% Lösungsrate (Opus 4.7) liegt zum ersten Mal nah am Senior-Dev-Niveau bei isolierten Tasks — Architekturarbeit bleibt offen.

Quelle SOTA ↗ · Baseline: SWE-bench Paper (Jimenez et al. 2024) · Stand 2026-04

05 · Pillar

Gewicht 10%

Multimodal Understanding

99 %

Aktuelle SOTA

88.4% · Gemini 3.1 Pro

Referenz (Mensch)

89% · Expert Humans

MMMU ⚠ gesättigt: MMMU-Pro / MMVet-v2

Kombinierte Bild-, Video- und Text-Aufgaben auf College-Level. Nahe am Expert-Niveau — Cross-Modal-Reasoning ist praktisch gelöst.

Quelle SOTA ↗ · Baseline: MMMU Paper (Yue et al. 2023) · Stand 2026-02

06 · Pillar

Gewicht 20%

Long-Horizon Agency

72 %

Aktuelle SOTA

72% · Claude Opus 4.7 (with tools)

Referenz (Mensch)

100% · Supervised Human Baseline

METR Agent Eval (24h Tasks)

Task-Ketten über 24h+ autonom durchführen. DER AGI-Marker: Agents bewältigen Stunden, verlieren aber über Tage den Fokus. Hier entscheidet sich AGI.

Quelle SOTA ↗ · Baseline: METR Research 2025 · Stand 2026-04

07 · Pillar

Gewicht 12%

Tool Use & Autonomie

100 +

✓ Benchmark gesättigt (SOTA 78.7% > Baseline 72%)

Aktuelle SOTA

78.7% · GPT-5.5 + Computer Use

Referenz (Mensch)

72% · Human Baseline

OSWorld (verified) ⚠ gesättigt: OSWorld-Long / WebArena-Visual

Reale Computer/Browser-Aufgaben autonom durchführen. GPT-5.5 erreicht 78.7% auf OSWorld-Verified und übertrifft die Human-Baseline (72%) deutlich — Benchmark gilt als saturiert.

Quelle SOTA ↗ · Baseline: OSWorld Paper (Xie et al. 2024) · Stand 2026-04

08 · Pillar

Gewicht 15%

Self-Improvement / RSI

22 %

Aktuelle SOTA

22% · DeepMind AlphaEvolve-2

Referenz (Mensch)

100% · ML-Researcher (PhD)

METR RE-Bench + MLE-bench

KI, die KI-Forschung automatisiert — der "letzte Meter" zur AGI. Erste Ansätze messbar, aber kein echter Recursive-Self-Improvement-Loop deployed.

Quelle SOTA ↗ · Baseline: METR / OpenAI MLE-bench · Stand 2026-01

Methodik

Wie kommt der Score zustande?

Komplette Formel, Gewichtungen, Sättigungs-Regel und Quellen — transparent.

Berechnungsformel

// pro Pillar:

gap_i = min(100, SOTA_i ÷ Baseline_i × 100)

// Gesamt-Score (Weighted Geometric Mean):

AGI_Proximity = exp( Σ w_i × ln(gap_i) ÷ Σ w_i )

Warum geometrisch statt arithmetisch?

Ein arithmetisches Mittel würde Kompensation erlauben: "Multimodal 99% gleicht Self-Improvement 22% aus". Das ist für AGI irreführend. Ein geometrisches Mittel bestraft Extreme — eine sehr niedrige Dimension drückt den Gesamtwert überproportional, weil AGI *alle* Fähigkeiten gleichzeitig braucht.

Gewichtungslogik

20%

Long-Horizon Agency

15%

Abstract Reasoning

15%

Self-Improvement / RSI

12%

Coding Agency

12%

Tool Use & Autonomie

10%

Multimodal Understanding

Expert Knowledge

Advanced Math

Long-Horizon Agency (20%) und Self-Improvement (15%) sind die höchsten Gewichte, weil sie die *qualitativen* Sprünge zu AGI repräsentieren. Gesättigte Dimensionen (Knowledge, Math, Multimodal) bekommen nur 8–10%, weil sie "fast durchgelaufen" sind.

Sättigungs-Regel (automatisch)

Erreicht ein Benchmark-Gap ≥ 95% über drei Quartale in Folge, wird automatisch auf den Successor-Benchmark umgestellt (z.B. GPQA → HLE / Humanity's Last Exam). Damit bleibt der Index eine ehrliche Messung des Rest-Gaps — und wird nicht künstlich "fertig".

Alle Primärquellen

15% Abstract Reasoning — ARC-AGI-2 ↗ · ARC Prize Foundation (Chollet)
8% Expert Knowledge — GPQA Diamond ↗ · Rein et al. 2023
8% Advanced Math — MATH + AIME 2025 ↗ · Artificial Analysis Leaderboard
12% Coding Agency — SWE-bench Verified ↗ · SWE-bench Paper (Jimenez et al. 2024)
10% Multimodal Understanding — MMMU ↗ · MMMU Paper (Yue et al. 2023)
20% Long-Horizon Agency — METR Agent Eval (24h Tasks) ↗ · METR Research 2025
12% Tool Use & Autonomie — OSWorld (verified) ↗ · OSWorld Paper (Xie et al. 2024)
15% Self-Improvement / RSI — METR RE-Bench + MLE-bench ↗ · METR / OpenAI MLE-bench

Keine Meinungen, keine Gewichte aus dem Bauch — nur öffentliche Benchmarks + veröffentlichte Human-Baselines. Werte werden quartalsweise aktualisiert. Letztes Update: 2026-04. Fehler? → Issue auf GitHub öffnen.

Historische Entwicklung

Wo standen wir vor 3 Jahren?

+48 Punkte seit 2023-Q1

Trend pro Quartal

+3.7 Punkte/Q

Beschleunigung 2025

+14 Punkte/Jahr

Aktueller Punkt

Claude Opus 4.7 (SWE 87.6) · GPT-5.5 Pro · Mistral Medium 3.5 · Qwen3.6 Plus

Eigene Gewichtung

Was wäre, wenn du gewichten würdest?

Schiebe die Regler. Score rechnet live nach geometrischem Mittel.

Dein Score

Δ Default

±0

Abstract Reasoning

Gap 77% · Gewicht 15%

Expert Knowledge

Gap 100% · Gewicht 8%

Advanced Math

Gap 100% · Gewicht 8%

Coding Agency

Gap 97% · Gewicht 12%

Multimodal Understanding

Gap 99% · Gewicht 10%

Long-Horizon Agency

Gap 72% · Gewicht 20%

Tool Use & Autonomie

Gap 100% · Gewicht 12%

Self-Improvement / RSI

Gap 22% · Gewicht 15%

Beachte: Geometrisches Mittel — eine niedrige Dimension zieht den Score überproportional. Wenn du z.B. Self-Improvement (heute 22% Gap) auf 40% Gewicht hebst, fällt der Score deutlich. Das ist kein Bug, sondern die Logik: AGI braucht alle Fähigkeiten gleichzeitig.

Aktuelles Briefing · KW 26

Wöchentliches KI-Briefing

Alle Ausgaben

Story der Woche · 26. Juni 2026

Anthropic wirft Alibaba 28,8-Mio.-Distillationsangriff vor — 25.000 Fake-Konten, Brief an US-Senat

Anthropic informierte den US-Senat über eine 44-tägige Distillations-Kampagne aus Alibaba-nahen Konten — 25.000 Fake-Accounts, 28,8 Mio. Anfragen. OpenAI und Broadcom stellen den ersten eigenen Inferenz-Chip Jalapeño vor. OpenAI launcht GPT-5.5-Cyber und Patch the Planet.

Briefing lesen

Zahl der Woche

28,8 Mio.

unautorisierte Claude-Anfragen aus Alibaba-Konten

Zwischen 22. April und 5. Juni führten 25.000 Fake-Konten 28,8 Mio. Anfragen gegen Claude aus — laut Anthropics Brief an den US-Senat die größte je dokumentierte Distillations-Kampagne (Bloomberg-Bericht, 24. Juni 2026).

KW 25 · Vorwoche

SpaceX kauft Cursor für $60 Mrd. — größte AI-Coding-Übernahme aller Zeiten, vier Tage nach dem IPO

19. Juni 2026

Erscheint jeden Freitag · RSS

Deep Dives

Geh tiefer

Sieben vertiefende Kapitel für die, die mehr wissen wollen.

/geschichte

Die Chronik

12 Momente in 80 Jahren, plus 6 Expertenprognosen.

Lesen

/kapital

Das Geld

Investment-Flows, Mega-Deals, $535 Mrd in 2026.

Lesen

/laender

Globaler Wettlauf

Acht Nationen im Ranking, plus alle Frontier-Labs.

Lesen

/compute

Die Kurve

Exponentielles Compute-Scaling seit 2012.

Lesen

/kontroversen

Debatten & Risiken

Sieben Streitfragen plus fünf Risiko-Dimensionen.

Lesen

/glossar

Das Glossar

AGI, RLHF, RAG — 18 Begriffe verständlich erklärt.

Lesen

/methodik

Die Pipeline

Wie diese Daten erhoben, geprüft und freigegeben werden.

Lesen

Live-Daten

Alle Daten im Dashboard

Zum Dashboard

AGI Proximity

70 /100

8 Benchmark-Gaps, geometrisches Mittel

Frontier-Modelle

aktiv mit ≥10²⁶ FLOPs

AI-VC Q1 2026

$239 B

81 % aller globalen VC-Investments (Crunchbase)

Top 3 Unternehmen nach Valuation

+12 mehr im Dashboard →

Über das Projekt

The Human in the Loop.

Stefan Braum

IT Leader · AI-Enthusiast · Builder

Main-Kinzig-Kreis, Deutschland

Ich beschäftige mich beruflich seit über einem Jahrzehnt mit IT-Architektur und seit einigen Jahren intensiv mit dem, was KI für Unternehmen, Teams und Individuen bedeutet. Diese Seite ist mein Experimentierfeld — und mein Beitrag zur deutschen KI-Diskurslandschaft.

agi.jetzt entstand an einem Abend um 22 Uhr — mit einer ungenutzten Domain und dem Gedanken: Was, wenn man den Weg zur AGI trocken, fundiert und ohne Hype dokumentiert? Nicht als weiterer AI-Blog, sondern als datengetriebenes Nachschlagewerk. Nebenbei wollte ich lernen: Astro, Three.js, GSAP, strukturierte Daten-Pipelines — alles Dinge, die ich vorher noch nicht im Scope einer ganzen Website umgesetzt hatte. Das Ergebnis ist diese Seite.

Tech Stack

Wie diese Seite
funktioniert

Statisch generiert, edge-deployed, KI-kuratiert. Quellcode auf GitHub verfügbar.

Astro 5 Static Site Generation
Tailwind 4 CSS Framework
Three.js AI Brain Visualization
GSAP Scroll-Animationen
Claude KI-Kuratierung
TypeScript Type Safety

Der Weg zur Allgemeinen Intelligenz

Was eigentlich ist "künstliche Intelligenz"?

Wie nah sind wir eigentlich dran?

Abstract Reasoning

Expert Knowledge

Advanced Math

Coding Agency

Multimodal Understanding

Long-Horizon Agency

Tool Use & Autonomie

Self-Improvement / RSI

Wie kommt der Score zustande?

Wo standen wir vor 3 Jahren?

Was wäre, wenn du gewichten würdest?

Wöchentliches KI-Briefing

Anthropic wirft Alibaba 28,8-Mio.-Distillationsangriff vor — 25.000 Fake-Konten, Brief an US-Senat

Geh tiefer

Die Chronik

Das Geld

Globaler Wettlauf

Die Kurve

Debatten & Risiken

Das Glossar

Die Pipeline

Alle Daten im Dashboard

The Human in the Loop.

Stefan Braum

Wie diese Seite funktioniert

Was eigentlich ist
"künstliche Intelligenz"?

Wie nah sind wir
eigentlich dran?

Wie diese Seite
funktioniert