OpenAI liefert 'Spud' — und es ist GPT-5.5, nicht GPT-6
OpenAI veröffentlicht GPT-5.5 mit 88,7 % auf SWE-bench, Anthropic sichert sich 5 Gigawatt AWS-Compute für 100 Milliarden Dollar, und eine Discord-Gruppe verschafft sich Zugang zum gesperrten Mythos-Modell.
Das Wichtigste in 30 Sekunden
- GPT-5.5 “Spud” ist live — OpenAIs neues Frontier-Modell erreicht 88,7 % auf SWE-bench und verspricht 60 % weniger Halluzinationen, ist aber nicht die erwartete GPT-6.
- Anthropic bindet sich für $100 Mrd. an AWS — Amazon investiert 5 Milliarden Dollar sofort und sichert Anthropic bis zu 5 Gigawatt Trainium-Rechenkapazität.
- Mythos in falschen Händen — Eine Discord-Gruppe verschaffte sich über Drittanbieter-Zugänge Zugang zu Anthropics gesperrtem Cybersecurity-Modell.
- Google Cloud Next: neue Chips, neue Agenten — TPU 8t und 8i fordern Nvidia heraus, Deep Research Max setzt mit 93,3 % auf DeepSearchQA einen neuen Maßstab.
GPT-5.5 “Spud”: OpenAIs neues Frontier-Modell — aber nicht GPT-6
Vergangene Woche hieß es hier: OpenAI deutet auf GPT-6, Codename “Spud”. Am Mittwoch kam die Auflösung — und sie war eine Überraschung. GPT-5.5 ist da, Codename Spud, aber es ist nicht der erwartete Generationssprung. Stattdessen liefert OpenAI ein weiteres iteratives Upgrade, nur sechs Wochen nach GPT-5.4 — allerdings erstmals auf einer vollständig neu trainierten Basis seit GPT-4.5.
Die Zahlen: 88,7 % auf SWE-bench, 92,4 % auf MMLU und 82,7 % auf Terminal-Bench 2.0 — dem Benchmark für komplexe CLI-Workflows, State of the Art. Drei Varianten starten gleichzeitig: Standard, Thinking (erweitertes Reasoning) und Pro (höchste Genauigkeit). API-Preis: $5 pro Million Input-Tokens, $30 pro Million Output-Tokens, Kontextfenster von 1 Million Tokens. Verfügbar für Plus-, Pro-, Business- und Enterprise-Nutzer in ChatGPT und Codex.
OpenAI wechselt damit faktisch vom Quartals- auf einen Monatstakt bei Frontier-Releases. Das ist kein Zufall: Anthropic hat mit Opus 4.7 und dem nicht veröffentlichten Claude Mythos Preview die Benchmark-Führung in mehreren Kategorien übernommen. GPT-5.5 kontert — auf Terminal-Bench 2.0 knapp vor Mythos Preview. Ein Signal, dass OpenAI die Cybersecurity-Kompetenz nicht kampflos abgibt.
Allerdings: OpenAIs Claim von “60 % weniger Halluzinationen” ist eine eigene Messung. Auf SWE-bench Pro — der härteren Variante mit echten Multi-File-GitHub-Issues — liegt Claude Opus 4.7 weiterhin vorn (64,3 % vs. 58,6 %). Auch Moonshot AIs Kimi K2.6 erreicht auf SWE-bench Pro 58,6 % — bei offenem Modellzugang. Kein einzelnes Modell dominiert mehr alle Disziplinen gleichzeitig.
Und GPT-6? Bleibt offen. Das Pre-Training wurde am 24. März im Stargate-Rechenzentrum in Abilene, Texas abgeschlossen. Wahrscheinlichster Release: Mai bis Juni 2026. Was Greg Brockman mit “Not incremental” meinte, bezog sich offenbar nicht auf Spud — sondern auf das, was danach kommt.
Kurz notiert
Anthropic und Amazon: $100 Mrd. für Compute. Amazon investiert sofort 5 Milliarden Dollar in Anthropic, mit Option auf insgesamt bis zu 25 Milliarden. Im Gegenzug verpflichtet sich Anthropic zu über 100 Milliarden Dollar Cloud-Ausgaben bei AWS in den nächsten zehn Jahren — inklusive bis zu 5 Gigawatt Trainium-Kapazität. Amazons Gesamtinvestition in Anthropic steigt auf bis zu 33 Milliarden Dollar.
Mythos: Gesperrtes Modell, offene Hintertür. Eine Handvoll Nutzer in einem privaten Discord-Chat verschaffte sich Zugang zu Claude Mythos Preview — dem Modell, das Anthropic zwei Wochen zuvor als zu gefährlich für ein öffentliches Release eingestuft hatte. Der Weg: geteilte Contractor-Accounts und erratene URL-Konventionen in einer Drittanbieter-Umgebung. Laut Bloomberg nutzen die Betreffenden Mythos seitdem regelmäßig — aber nicht für Cybersecurity-Zwecke.
Google Cloud Next: Neue Chips, autonome Agenten. Google stellte die achte TPU-Generation vor: TPU 8t fürs Training liefert 121 Exaflops pro Superpod (9.600 Chips), TPU 8i für Inferenz bringt 80 % mehr Leistung pro Dollar — beide mit 2× Performance pro Watt gegenüber der Vorgängergeneration. Parallel startete Deep Research Max auf Gemini 3.1 Pro: autonome Forschungsagenten mit 93,3 % auf DeepSearchQA (Dezember: 66,1 %) und 54,6 % auf Humanity’s Last Exam.
Meta zeichnet Tastaturanschläge auf. Ab sofort erfasst Meta Mausbewegungen, Klicks, Tastatureingaben und Screenshots von US-Mitarbeitern, um Computer-Use-Agenten zu trainieren. Das Programm heißt intern “Model Capability Initiative” und wurde per Memo im Kanal der Meta Superintelligence Labs kommuniziert. CTO Andrew Bosworth: “There is no way to opt out on your work laptop.”
Moonshot AI: Kimi K2.6 lässt Agenten tagelang laufen. Das Open-Weight-Modell (eine Billion Parameter, MoE-Architektur, 32 Mrd. aktiv pro Token) koordiniert bis zu 300 Sub-Agenten über 4.000 Schritte und lief in internen Tests bis zu 5 Tage autonom. Auf SWE-bench Pro: 58,6 % — gleichauf mit GPT-5.5, bei offenem Zugang auf Hugging Face.
Zahl der Woche
$100 Mrd. — so viel hat Anthropic zugesagt, in den nächsten zehn Jahren bei Amazon Web Services auszugeben. Es ist das größte einzelne Infrastruktur-Commitment eines KI-Unternehmens. Dafür sichert sich Anthropic bis zu 5 Gigawatt an Trainium-Kapazität — inklusive zukünftiger Chipgenerationen von Trainium2 bis Trainium4. Knapp 1 Gigawatt soll noch 2026 online gehen. Die Botschaft ist klar: Frontier-KI ist ein Infrastrukturgeschäft — und wer die Rechenkapazität kontrolliert, kontrolliert das Tempo.
Leseempfehlung
„AI tokens may be starting to rival labor costs” (Semafor, 22. April 2026). Carta-CEO Henry Ward und Morningstar-CEO Kunal Kapoor erklären, warum KI-Token-Kosten für Startups zur materiellen Bilanzposition werden — vergleichbar mit Personalkosten. Wer verstehen will, warum diese Woche $100-Milliarden-Deals und Monatstakt-Releases gleichzeitig passieren, findet hier die ökonomische Klammer. semafor.com ↗
Dieses Briefing erscheint jeden Freitag auf agi.jetzt — schau regelmäßig vorbei. Alle Daten live im Dashboard →