Deep Dive · Methodik & Prozess

Die Pipeline

Jede Zahl auf dieser Seite hat einen Weg von der Primärquelle bis ins Dashboard — und dieser Weg ist dokumentiert. Keine scraping-Black-Boxes, keine „Irgendeine KI hat das gesagt". Sechs Schritte, alle reproduzierbar, alle nachvollziehbar.

Pipeline

Scheduled Task

Claude Code Agent läuft nach Cron-Rhythmus (weekly / monthly / quarterly)

Claude Research

WebSearch über Primärquellen, Cross-Referenzen, Faktenabgleich

data.json

Strukturierte Ausgabe ins Repo-File (Git-versioniert, reproduzierbar)

Review Queue

Changes landen als Commit-Vorschlag, Diff sichtbar, Quellen-Prüfung

Human Approval

Stefan prüft manuell, gleicht gegen Primärquelle ab, merged oder verwirft

Deploy

release.sh → GitHub Orphan-Branch → Coolify baut statisch, deployed edge

01 — Datenerhebung

Wie die Zahlen entstehen

Die Grundeinheit ist der Scheduled Task — ein Claude-Code-Agent, der zu festen Rhythmen läuft: wöchentlich für News und Briefings, monatlich für Benchmarks und Investitionen, quartalsweise für tiefgreifende Stats wie den AGI Proximity Index. Jeder Task hat einen klaren Auftrag und einen definierten Quellen-Pool.

Der Agent nutzt WebSearch und arbeitet gegen die Primärquellen aus dem Register weiter unten — nicht gegen aggregierte Drittseiten, soweit möglich. Bei widersprüchlichen Angaben (etwa WAU vs. MAU für Consumer-Apps) wird das im Output explizit markiert und nicht harmonisiert. Die Ausgabe ist strikt strukturiert: eine oder mehrere .json-Dateien im Repo, die vom Build-Prozess direkt gerendert werden.

Das heißt: Zwischen der Primärquelle und der Darstellung im Dashboard liegen maximal zwei Schritte (Agent-Lookup + JSON-Schreibung). Keine Datenbank, keine ETL-Pipeline, keine Caches. Das macht die Kette überschaubar — und jeder Schritt ist im Git-Commit nachvollziehbar.

02 — Qualitätssicherung

Vier Checks bevor es im Dashboard landet

1
Quellen-Match. Jeder Wert muss auf eine URL aus dem Register unten (oder auf eine gleichwertige Primärquelle) zeigen. Sekundärquellen werden als solche markiert.
2
Zeit-Stempel. Jeder Datensatz hat ein stand-Feld. Das Dashboard zeigt einen farbigen Dot (fresh / current / aging / stale), damit veraltete Widgets sofort erkennbar sind.
3
Plausibilitäts-Check. Bei Zahlensprüngen >30% Q/Q oder bei Werten, die neue Größenordnungen erreichen (z.B. Frontier-Model-Parameter), vergleicht der Agent explizit gegen 2 zusätzliche unabhängige Quellen.
4
Methodik-Transparenz. Wo Daten heterogen kommuniziert werden (WAU vs. MAU, Gemini App vs. AI Overviews, ChatGPT Free vs. Plus), werden die Metriken nicht ineinander umgerechnet, sondern getrennt gelabelt — inklusive Kontextbox für relevante Alternative (z.B. AI Overviews 2 Mrd.).

03 — Freigabe

Kein Auto-Publish

Alle Änderungen landen zunächst auf dem internen Gitea-Server als regulärer Commit. Das Public-Repo auf GitHub und damit das Live-Deployment wird nie automatisch aktualisiert — zwischen „Agent hat Daten geschrieben" und „Dashboard zeigt neue Zahlen" steht immer ein manuelles release.sh-Kommando.

Warum so umständlich? Weil AI-basierte Recherche bei aller Sorgfalt Fehler produzieren kann, die nur ein Mensch mit Projektkontext erkennt. Ein offensichtliches Beispiel: Wenn ein Agent liest „OpenAI hat 900 Mio. Nutzer" und dabei nicht klar macht, ob das WAU oder MAU ist, merkt das ein Reviewer sofort — ein automatisierter Pipeline-Schritt nicht. Die Freigabe ist also kein Verzögerer, sondern das Qualitäts-Gate.

Jeder Commit enthält eine klare Message (typischerweise feat: oder fix:), die Git-History ist öffentlich auf GitHub einsehbar. Wer eine konkrete Zahl hinterfragen will, kann per git blame sehen, wann und in welchem Commit sie gesetzt wurde.

04 — Quellen-Register

Wo die Zahlen herkommen

Fünf Themenblöcke mit je 3–5 Primärquellen. Der angegebene Rhythmus ist die Frequenz, in der der Scheduled Task die jeweilige Quelle abfragt — nicht notwendigerweise die Frequenz, in der die Quelle selbst updated.

Benchmarks & Capabilities

Markt, Kapital, Adoption

Dealroom ↗ Monatlich
Crunchbase ↗ Monatlich
Similarweb ↗ Monatlich
Apptopia / Sensor Tower ↗ Monatlich
Public Earnings Calls (Alphabet, MSFT) ↗ Quarterly

Forschung, Papers, Labs

Safety & Incidents

AI Incidents Database (AIID) ↗ Monatlich
Center for AI Safety (CAIS) ↗ Wöchentlich
UK AISI Reports ↗ Quarterly

Regulation & Policy

EU AI Act Tracker ↗ Monatlich
US Executive Orders (Federal Register) ↗ Wöchentlich
China MIIT AI Governance ↗ Monatlich

Wer einen Fehler findet, eine Quelle ergänzen möchte oder eine Methodikfrage hat: GitHub-Issue öffnen oder direkt an [email protected]. Transparenz ist nur so viel wert wie die Korrekturen, die sie ermöglicht.

Live-Daten

Alle Daten im Dashboard →

17 Widgets, alle quellenbasiert, quartalsweise aktualisiert.

Wöchentlich · Freitags

Zum aktuellen Briefing →

Eingeordnete Analyse zum AI-Geschehen der Woche.

Andere Deep Dives

/geschichte

Chronik

12 Momente · Prognosen