Live · Stand 15.04.2026

Der Weg zur Allgemeinen Intelligenz

Live-Tracking der wichtigsten Technologierevolution unserer Zeit.

⌛ Metaculus-Prognose · Bis zur ersten AGI

Jahre
·
Tage
·
Std
Live Feed
research Claude Mythos: Anthropic hält Modell als zu gefährlich zurück · politik UK AISI: Claude Mythos löst 32-Step Cyber-Attack in einem Zug · politik New Yorker: OpenAI brach Superalignment-Versprechen · open_source DeepSeek R2: 92.7% AIME auf Consumer-GPU · industrie OpenAI schließt $122B-Runde ab — Bewertung $852B · research ARC-AGI-3 gestartet: Frontier-Modelle scheitern unter 1% · research Claude Mythos: Anthropic hält Modell als zu gefährlich zurück · politik UK AISI: Claude Mythos löst 32-Step Cyber-Attack in einem Zug · politik New Yorker: OpenAI brach Superalignment-Versprechen · open_source DeepSeek R2: 92.7% AIME auf Consumer-GPU · industrie OpenAI schließt $122B-Runde ab — Bewertung $852B · research ARC-AGI-3 gestartet: Frontier-Modelle scheitern unter 1% ·
Drei Stufen

Was eigentlich ist
"künstliche Intelligenz"?

Die KI von heute, AGI als nächster Schritt, und ASI als das Unbekannte dahinter.

Stufe 1
Heute
ANI
Schwache KI

Spezialisiert auf eine einzelne Aufgabe — Schach spielen, Texte schreiben, Bilder erkennen. Kann nicht über ihren Trainingsbereich hinausdenken.

Wie ein:e brillante:r Fachidiot:in — Weltklasse in einer Disziplin, hilflos außerhalb davon.
Was sie können
  • Sprache & Code auf Senior-Niveau
  • Bilder und Video fast fotorealistisch
  • Protein-Strukturen besser als Labore
  • Millionen Tokens Kontext
Was noch fehlt

Selbstständige Zielsetzung, echtes Transferlernen zwischen Domänen, langfristiges Planen über Tage.

Beispiele
ChatGPT Midjourney Tesla Autopilot AlphaFold
Zeitraum
In Produktion seit 2010
Details ↓
Stufe 2
In Reichweite
AGI
Allgemeine KI

Kann jede intellektuelle Aufgabe lösen, die ein Mensch lösen kann. Lernt selbständig, transferiert Wissen zwischen Domänen, plant über lange Zeiträume.

Wie ein:e begabte Generalist:in mit 5 Doktortiteln — versteht alles, lernt schnell, löst Neues.
Was sie können
  • Forschung auf Doktorats-Niveau über alle Felder
  • Autonome Agents über Wochen-Projekte
  • Echte Generalisierung aus wenigen Beispielen
  • Selbst-Korrektur und Meta-Reasoning
Was noch fehlt

Self-Improvement Loop, verlässliches Kausal-Reasoning, Überleben in offenen Umgebungen ohne Supervision.

Beispiele
Kandidaten: GPT-5 Claude Opus 4.6 Gemini 3.1 (kein Konsens)
Zeitraum
Metaculus: ~Mitte 2030
Details ↓
Stufe 3
Theoretisch
ASI
Superintelligenz

Übertrifft die kollektive menschliche Intelligenz in allen Bereichen. Wäre fähig zu rekursiver Selbstverbesserung. Implikationen unkalkulierbar.

Die Menschheit insgesamt ist zur Schimpansen-Truppe, die versucht eine Konzernübernahme zu verstehen.
Was sie können
  • Durchbrüche in Physik, Bio, Mathematik im Tagestakt
  • Rekursive Verbesserung der eigenen Architektur
  • Strategisches Planen über Jahrzehnte hinweg
  • Modelliert komplette Gesellschaften in Echtzeit
Was noch fehlt

Wir wissen nicht, was wir nicht wissen — und das ist Teil des Problems.

Beispiele
Konzepte: Seed AI Technological Singularity Recursive Self-Improvement
Zeitraum
Unbekannt — möglicherweise kurz nach AGI
Details ↓
"AGI ist ein System, das mindestens so intelligent wie ein Mensch ist — über die gesamte Bandbreite kognitiver Aufgaben hinweg."
Shane Legg · Mitgründer Google DeepMind · 2007
Live-Indikator · Stand Q1 2026 · Nächstes Update Q2 2026

Wie nah sind wir
eigentlich dran?

Acht Dimensionen, acht externe Benchmarks, keine Meinungen. Der Score ist ein gewichtetes geometrisches Mittel der Lücken zwischen heutiger SOTA und menschlicher Referenz.

Composite Score
AGI Proximity
Index 2026
66
%
Vor der Schwelle
Wie rechnet sich das?

Gewichtetes geometrisches Mittel von 8 Benchmark-Gaps. Geometrisch heißt: eine einzelne niedrige Dimension (z.B. Self-Improvement) drückt den Gesamtwert überproportional — Kompensation ist bewusst ausgeschlossen.

Die Acht Dimensionen · alle Werte belegbar
01 · Pillar
Gewicht 15%

Abstract Reasoning

77 %
Aktuelle SOTA
77.1% · Gemini 3.1 Pro
Referenz (Mensch)
100% · Human Average
ARC-AGI-2 Successor: ARC-AGI-3 (bei Sättigung)

Abstrakte Muster in neuartigen Aufgaben. ARC-AGI testet, was Menschen in 30 Sekunden sehen, aber was für Modelle schwer bleibt.

Quelle SOTA ↗ · Baseline: ARC Prize Foundation (Chollet) · Stand 2026-02
02 · Pillar
Gewicht 8%

Expert Knowledge

100 +
✓ Benchmark gesättigt (SOTA 94.3% > Baseline 81%)
Aktuelle SOTA
94.3% · Gemini 3.1 Pro
Referenz (Mensch)
81% · PhD-Experten (mit Internet)
GPQA Diamond ⚠ gesättigt: Humanity's Last Exam (HLE)

PhD-Niveau-Fragen in Biologie, Physik, Chemie. Der Benchmark ist weitgehend gesättigt — Frontier-Modelle übertreffen menschliche Experten zuverlässig.

Quelle SOTA ↗ · Baseline: Rein et al. 2023 · Stand 2026-02
03 · Pillar
Gewicht 8%

Advanced Math

100 +
✓ Benchmark gesättigt (SOTA 97.2% > Baseline 95%)
Aktuelle SOTA
97.2% · GPT-5.4 Pro
Referenz (Mensch)
95% · Expert Humans
MATH + AIME 2025 ⚠ gesättigt: FrontierMath / USAMO Proof-based

Olympiade-Mathematik und Graduate-Level-Beweise. Reasoning-Modelle (o3, o4, GPT-5.4) haben 2025/26 das Mathematik-Problem praktisch gelöst.

Quelle SOTA ↗ · Baseline: Artificial Analysis Leaderboard · Stand 2026-03
04 · Pillar
Gewicht 12%

Coding Agency

90 %
Aktuelle SOTA
80.8% · Claude Opus 4.6
Referenz (Mensch)
90% · Senior Engineer

Echte GitHub-Issues eigenständig lösen. 80% Lösungsrate entspricht Senior-Dev-Niveau bei isolierten Tasks — aber keine Architekturarbeit.

Quelle SOTA ↗ · Baseline: SWE-bench Paper (Jimenez et al. 2024) · Stand 2026-02
05 · Pillar
Gewicht 10%

Multimodal Understanding

99 %
Aktuelle SOTA
88.4% · Gemini 3.1 Pro
Referenz (Mensch)
89% · Expert Humans
MMMU ⚠ gesättigt: MMMU-Pro / MMVet-v2

Kombinierte Bild-, Video- und Text-Aufgaben auf College-Level. Nahe am Expert-Niveau — Cross-Modal-Reasoning ist praktisch gelöst.

Quelle SOTA ↗ · Baseline: MMMU Paper (Yue et al. 2023) · Stand 2026-02
06 · Pillar
Gewicht 20%

Long-Horizon Agency

70 %
Aktuelle SOTA
70% · Claude Opus 4.6 (with tools)
Referenz (Mensch)
100% · Supervised Human Baseline

Task-Ketten über 24h+ autonom durchführen. DER AGI-Marker: Agents bewältigen Stunden, verlieren aber über Tage den Fokus. Hier entscheidet sich AGI.

Quelle SOTA ↗ · Baseline: METR Research 2025 · Stand 2026-02
07 · Pillar
Gewicht 12%

Tool Use & Autonomie

58 %
Aktuelle SOTA
42% · GPT-5.4 Pro + Computer Use
Referenz (Mensch)
72% · Human Baseline

Reale Computer/Browser-Aufgaben autonom durchführen. Noch weit unter Mensch-Niveau — klickt Buttons, aber verliert oft Kontext.

Quelle SOTA ↗ · Baseline: OSWorld Paper (Xie et al. 2024) · Stand 2026-03
08 · Pillar
Gewicht 15%

Self-Improvement / RSI

22 %
Aktuelle SOTA
22% · DeepMind AlphaEvolve-2
Referenz (Mensch)
100% · ML-Researcher (PhD)

KI, die KI-Forschung automatisiert — der "letzte Meter" zur AGI. Erste Ansätze messbar, aber kein echter Recursive-Self-Improvement-Loop deployed.

Quelle SOTA ↗ · Baseline: METR / OpenAI MLE-bench · Stand 2026-01
Methodik

Wie kommt der Score zustande?

Komplette Formel, Gewichtungen, Sättigungs-Regel und Quellen — transparent.

Berechnungsformel
// pro Pillar:
gapi = min(100, SOTAi ÷ Baselinei × 100)
// Gesamt-Score (Weighted Geometric Mean):
AGI_Proximity = exp( Σ wi × ln(gapi) ÷ Σ wi )
Warum geometrisch statt arithmetisch?

Ein arithmetisches Mittel würde Kompensation erlauben: "Multimodal 99% gleicht Self-Improvement 22% aus". Das ist für AGI irreführend. Ein geometrisches Mittel bestraft Extreme — eine sehr niedrige Dimension drückt den Gesamtwert überproportional, weil AGI *alle* Fähigkeiten gleichzeitig braucht.

Gewichtungslogik
20%
Long-Horizon Agency
15%
Abstract Reasoning
15%
Self-Improvement / RSI
12%
Coding Agency
12%
Tool Use & Autonomie
10%
Multimodal Understanding
8%
Expert Knowledge
8%
Advanced Math

Long-Horizon Agency (20%) und Self-Improvement (15%) sind die höchsten Gewichte, weil sie die *qualitativen* Sprünge zu AGI repräsentieren. Gesättigte Dimensionen (Knowledge, Math, Multimodal) bekommen nur 8–10%, weil sie "fast durchgelaufen" sind.

Sättigungs-Regel (automatisch)

Erreicht ein Benchmark-Gap ≥ 95% über drei Quartale in Folge, wird automatisch auf den Successor-Benchmark umgestellt (z.B. GPQA → HLE / Humanity's Last Exam). Damit bleibt der Index eine ehrliche Messung des Rest-Gaps — und wird nicht künstlich "fertig".

Alle Primärquellen

Keine Meinungen, keine Gewichte aus dem Bauch — nur öffentliche Benchmarks + veröffentlichte Human-Baselines. Werte werden quartalsweise aktualisiert. Letztes Update: 2026-03. Fehler? → Issue auf GitHub öffnen.

Historische Entwicklung

Wo standen wir vor 3 Jahren?

+42 Punkte seit 2023-Q1
2023-Q1 2024-Q1 2025-Q1 2026-Q1 66% 24%
Trend pro Quartal
+3.5 Punkte/Q
Beschleunigung 2025
+12 Punkte/Jahr
Aktueller Punkt
GPT-5.4 Pro · Claude Opus 4.6 · Gemini 3.1 Pro
Eigene Gewichtung

Was wäre, wenn du gewichten würdest?

Schiebe die Regler. Score rechnet live nach geometrischem Mittel.

Dein Score
66
Δ Default
±0
Abstract Reasoning
Gap 77% · Gewicht 15%
Expert Knowledge
Gap 100% · Gewicht 8%
Advanced Math
Gap 100% · Gewicht 8%
Coding Agency
Gap 90% · Gewicht 12%
Multimodal Understanding
Gap 99% · Gewicht 10%
Long-Horizon Agency
Gap 70% · Gewicht 20%
Tool Use & Autonomie
Gap 58% · Gewicht 12%
Self-Improvement / RSI
Gap 22% · Gewicht 15%

Beachte: Geometrisches Mittel — eine niedrige Dimension zieht den Score überproportional. Wenn du z.B. Self-Improvement (heute 22% Gap) auf 40% Gewicht hebst, fällt der Score deutlich. Das ist kein Bug, sondern die Logik: AGI braucht alle Fähigkeiten gleichzeitig.

✓ Link kopiert
Live-Daten

Alle Daten im Dashboard

Zum Dashboard
AGI Proximity
66 /100

8 Benchmark-Gaps, geometrisches Mittel

Frontier-Modelle
12

aktiv mit ≥10²⁶ FLOPs

Total Funding 2025
$163.6 B

Investments laut Crunchbase + Dealroom

Top 3 Unternehmen nach Valuation
+12 mehr im Dashboard →
OpenAI
$852B
Frontier Lab
Anthropic
$380B
Frontier Lab
xAI
$230B
Frontier Lab
Über das Projekt

The Human in the Loop.

SB

Stefan Braum

IT Leader · AI-Enthusiast · Builder

Main-Kinzig-Kreis, Deutschland

Ich beschäftige mich beruflich seit über einem Jahrzehnt mit IT-Architektur und seit einigen Jahren intensiv mit dem, was KI für Unternehmen, Teams und Individuen bedeutet. Diese Seite ist mein Experimentierfeld — und mein Beitrag zur deutschen KI-Diskurslandschaft.

agi.jetzt entstand an einem Abend um 22 Uhr — mit einer ungenutzten Domain und dem Gedanken: Was, wenn man den Weg zur AGI trocken, fundiert und ohne Hype dokumentiert? Nicht als weiterer AI-Blog, sondern als datengetriebenes Nachschlagewerk. Nebenbei wollte ich lernen: Astro, Three.js, GSAP, strukturierte Daten-Pipelines — alles Dinge, die ich vorher noch nicht im Scope einer ganzen Website umgesetzt hatte. Das Ergebnis ist diese Seite.

Tech Stack

Wie diese Seite
funktioniert

Statisch generiert, edge-deployed, KI-kuratiert. Quellcode auf GitHub verfügbar.

  • Astro 5 Static Site Generation
  • Tailwind 4 CSS Framework
  • Three.js AI Brain Visualization
  • GSAP Scroll-Animationen
  • Claude KI-Kuratierung
  • TypeScript Type Safety
ESC
Navigieren Öffnen
⌘K