TPU vs. GPU – Architektur, Ökonomie und Zukunftsperspektiven 2026

TPU vs. GPU: Architektur, Ökonomie und Zukunftsperspektiven

1. TPU vs. GPU – Das Silizium-Fundament der künstlichen Intelligenz

Die moderne Ära der künstlichen Intelligenz (KI), die oft als die vierte industrielle Revolution bezeichnet wird, fußt nicht primär auf algorithmischen Durchbrüchen allein, sondern auf der exponentiellen Verfügbarkeit spezialisierter Rechenleistung. In diesem globalen Rüstungswettlauf um die Vorherrschaft in der generativen KI hat sich die Auseinandersetzung auf die physikalische Schicht verlagert: die Halbleiter. Zwei architektonische Philosophien dominieren dieses Feld: die Graphics Processing Unit (GPU), die von NVIDIA nahezu monopolistisch als de-facto-Standard für KI-Training etabliert wurde, und die Tensor Processing Unit (TPU), eine von Google entwickelte anwendungsspezifische integrierte Schaltung (ASIC), die als Speerspitze einer vertikal integrierten Infrastruktur-Strategie dient.

Inhalt

Dieses Dossier bietet eine erschöpfende Analyse dieser beiden Technologien. Es untersucht nicht nur die technischen Spezifikationen, sondern dekonstruiert die historischen Pfadabhängigkeiten, die zu den heutigen Architekturen führten. Es beleuchtet die ökonomischen Diskrepanzen zwischen dem Kauf von Handelsware (Merchant Silicon) und der Entwicklung eigener Chips (Custom Silicon) und wagt einen fundierten Ausblick auf die Hardware-Roadmaps der Jahre 2025 bis 2027.

Die Relevanz dieser Analyse ergibt sich aus der aktuellen Marktverschiebung. Während das letzte Jahrzehnt vom massiven Training großer Modelle (LLMs) geprägt war, treten wir nun in das “Zeitalter der Inferenz” ein.1 In dieser Phase verschieben sich die Anforderungen von reiner Fließkomma-Durchsatzleistung (FLOPS) hin zu Latenzminimierung, Energieeffizienz und massiver Speicherbandbreite für den Betrieb von “Agentic AI”-Systemen. Die Einführung von Googles TPU v7 (Ironwood) und NVIDIAs Blackwell-Architektur markiert den Beginn einer neuen Phase der Spezialisierung, in der die Grenzen zwischen Netzwerk, Speicher und Recheneinheit zunehmend verschwimmen.

2. Fundamentale Architektur-Divergenz von TPU vs. GPU: Generalisten vs. Spezialisten

Um die strategischen Implikationen der Wahl zwischen TPU und GPU zu verstehen, ist eine tiefgehende Betrachtung der architektonischen Grundentscheidungen unerlässlich. Beide Prozessortypen zielen darauf ab, die Operationen der linearen Algebra – insbesondere die Matrix-Matrix-Multiplikation (GEMM) – zu beschleunigen, wählen jedoch fundamental unterschiedliche Ansätze zur Bewältigung der Datenlogistik und Energieeffizienz.

2.1 Die GPU-Architektur: Parallelität durch SIMD und die Last der Flexibilität

Die Graphics Processing Unit (GPU) entstammt historisch der Aufgabe, Millionen von Pixeln auf einem Bildschirm parallel zu berechnen und darzustellen. Diese Anforderung führte zur Entwicklung einer Architektur, die auf dem Prinzip Single Instruction, Multiple Data (SIMD) basiert.3 Moderne GPUs, wie die NVIDIA H100 oder die Blackwell B200, bestehen aus tausenden kleiner, hocheffizienter Rechenkerne (Streaming Multiprocessors, SMs), die darauf ausgelegt sind, denselben Befehlssatz gleichzeitig auf unterschiedliche Datenströme anzuwenden.5

Ein entscheidendes Merkmal der GPU ist ihre inherente Flexibilität. Um ein breites Spektrum an Anwendungen zu unterstützen – von der physikalischen Simulation in der Wissenschaft über das Rendering in Videospielen bis hin zum Training neuronaler Netze –, besitzen GPUs komplexe Speicherhierarchien, ausgefeilte Caches und Steuerlogiken. Jeder Thread in einer GPU benötigt Zugriff auf Register und muss Befehle dekodieren. Diese Vielseitigkeit ist NVIDIAs größter Trumpf, da sie sicherstellt, dass GPUs auch bei sich schnell ändernden KI-Algorithmen relevant bleiben. Sie ist jedoch auch ihre Achillesferse in Bezug auf die reine Effizienz.

Das Problem des von-Neumann-Flaschenhalses

Klassische CPUs und auch GPUs leiden unter dem sogenannten von-Neumann-Flaschenhals. Für jede Berechnung müssen Daten aus dem Speicher in Register geladen, verarbeitet und das Ergebnis zurückgeschrieben werden. Da der Speicherzugriff energetisch um Größenordnungen teurer ist als die eigentliche Rechenoperation (Addition oder Multiplikation), wird ein erheblicher Teil der Energie nicht für das Rechnen (“Crunchen”), sondern für das Bewegen von Daten verbraucht.6 NVIDIA adressiert dies durch massive Speicherbandbreiten (bis zu 8 TB/s bei Blackwell) und große L2-Caches, kann das fundamentale Problem der Architektur jedoch nicht vollständig eliminieren.

Tensor Cores als Hybrid-Lösung

Mit der Volta-Architektur (V100) führte NVIDIA sogenannte Tensor Cores ein. Diese spezialisierten Einheiten innerhalb der GPU führen Matrix-Operationen (z.B. 4×4 Matrizen) in einem einzigen Taktzyklus aus, anstatt sie in skalare oder Vektor-Operationen zu zerlegen.7 Dies war ein entscheidender Schritt in Richtung ASIC-ähnlicher Effizienz innerhalb einer generalistischen GPU-Umgebung. Dennoch bleibt die GPU ein Prozessor, der Anweisungen holen und dekodieren muss, was einen Overhead erzeugt, den reine ASICs vermeiden können.

2.2 Die TPU-Architektur: Systolische Arrays und der Datenfluss

Im Gegensatz zur GPU ist die Tensor Processing Unit (TPU) ein Domain Specific Architecture (DSA). Sie wurde von Google nicht als Allzweck-Chip, sondern als ASIC exklusiv für die Beschleunigung der Tensor-Operationen in neuronalen Netzen (insbesondere für TensorFlow und später JAX) entworfen.3 Das Herzstück der TPU und ihr radikalstes Unterscheidungsmerkmal ist das Systolische Array (Systolic Array).3

Funktionsweise des Systolischen Arrays

Das Konzept des systolischen Arrays imitiert biologische Prozesse, spezifisch den Blutfluss im menschlichen Herzen (“Systole”), wo das Blut rhythmisch durch den Körper gepumpt wird. In der Matrix Multiplication Unit (MXU) einer TPU fließen Daten in einem festen Takt durch ein massives Gitter von Arithmetic Logic Units (ALUs).

Der entscheidende Vorteil liegt in der Datenwiederverwendung. In einer Matrixmultiplikation werden Eingabewerte (Aktivierungen) und Gewichte mehrfach benötigt. In einem systolischen Array wird ein Wert aus dem Speicher geladen und dann von einer ALU zur nächsten “durchgereicht”. Eine einzelne Leseoperation aus dem Speicher kann somit tausende von Rechenoperationen speisen, ohne dass Zwischenergebnisse in Register oder Caches zurückgeschrieben werden müssen.6

Die Implikationen dieses Designs sind weitreichend:

  1. Maximale Dichte: Da die einzelnen Recheneinheiten im Array keine eigene Befehlsdekodierung oder komplexe Steuerlogik benötigen, können mehr ALUs auf derselben Siliziumfläche untergebracht werden. Dies führt zu einer höheren theoretischen Rechenleistung pro Quadratmillimeter (TOPs/mm²) im Vergleich zu GPUs.9
  2. Energieeffizienz: Durch die Eliminierung redundanter Speicherzugriffe erreichen TPUs eine signifikant höhere Leistung pro Watt. Google gab bei der Einführung der TPU v1 an, dass sie eine 83-fach bessere Performance-per-Watt-Ratio gegenüber zeitgenössischen CPUs aufwies.6
  3. Deterministisches Verhalten: Da Daten in einem festen Rhythmus durch das Array fließen, ist die Latenz einer Berechnung hochgradig vorhersagbar. Dies vereinfacht das Design von großen verteilten Systemen, kann aber bei unregelmäßigen Datenstrukturen (Sparsity) zu Ineffizienzen führen, wenn das Array mit “Nullen” gefüllt werden muss, um den Takt zu halten.9

2.3 Präzisionsformate: Der Wettlauf zum Nullpunkt

Ein wesentlicher Treiber der Leistungssteigerung in beiden Lagern ist die Reduktion der numerischen Präzision. Während frühe KI-Modelle auf FP32 (32-Bit Floating Point) trainiert wurden, nutzen moderne Architekturen aggressiv niedrigere Präzisionen, um Speicherbandbreite zu sparen und den Rechendurchsatz zu erhöhen.

  • Bfloat16 (Brain Floating Point): Dieses Format wurde von Google maßgeblich für TPUs entwickelt und ist heute ein Industriestandard. BF16 behält den Exponenten von FP32 (8 Bits) bei, reduziert aber die Mantisse auf 7 Bits. Dies ermöglicht den gleichen dynamischen Bereich wie FP32, was das Training stabilisiert, ohne die Speicheranforderungen von 32-Bit-Zahlen.10 TPUs waren die ersten Chips, die nativ auf BF16 optimiert wurden, was Google einen frühen Vorteil beim Training großer Modelle verschaffte.
  • FP8 und FP4: Mit der Blackwell-Architektur führt NVIDIA nativen FP4-Support für Inferenz ein. Durch die Nutzung von 4-Bit-Gleitkommazahlen kann die Modellgröße im Speicher halbiert und der theoretische Durchsatz verdoppelt werden, sofern die Genauigkeit des Modells durch fortschrittliche Quantisierungstechniken erhalten bleibt.12 Auch Google optimiert seine Trillium (v6e) und Ironwood (v7) Chips aggressiv für niedrige Präzisionen wie Int8 und FP8, insbesondere um Inferenzkosten zu senken.14

3. Die historische Evolution der Rechenbeschleuniger

Die Entwicklung von TPUs und GPUs ist keine isolierte technische Geschichte, sondern ein Spiegelbild der sich wandelnden Anforderungen der KI-Forschung – von einfachen Bildklassifikatoren (CNNs) hin zu gigantischen Large Language Models (LLMs) und multimodalen Systemen.

3.1 Die NVIDIA-Timeline: Vom Gaming-Chip zum Weltcomputer

NVIDIAs Transformation vom Grafikkartenhersteller zum wertvollsten Unternehmen der Welt basiert auf einer konsequenten Wette auf GPGPU (General Purpose computation on Graphics Processing Units).

  • Tesla (2006) bis Pascal (2016): Mit der Einführung von CUDA im Jahr 2006 legte NVIDIA das Software-Fundament. Die Pascal-Architektur (P100) war der erste Schritt in Richtung dedizierter KI-Beschleunigung durch die Einführung von HBM2-Speicher und NVLink, was die Kommunikation zwischen GPUs drastisch beschleunigte.16
  • Volta (V100 – 2017): Dies war der Wendepunkt. Volta führte erstmals Tensor Cores ein, die spezifisch für Deep Learning Matrixmultiplikationen ausgelegt waren. Dies markierte den Beginn der hybriden Architektur, die allgemeine CUDA-Cores mit spezialisierten KI-Einheiten mischt.
  • Ampere (A100 – 2020): Der A100 wurde zum Arbeitspferd der KI-Industrie. Er führte TF32 ein (ein Format, das die Einfachheit von FP32 mit der Geschwindigkeit von FP16 verbindet) und unterstützte erstmals strukturelle Sparsity (das Ignorieren von Nullen in Matrizen) in Hardware.16
  • Hopper (H100 – 2022): Mit dem Aufstieg der Transformer-Modelle führte NVIDIA die “Transformer Engine” ein. Diese Logik analysiert die Schichten eines neuronalen Netzes zur Laufzeit und schaltet dynamisch zwischen FP8 und FP16 um, um die Geschwindigkeit zu maximieren, ohne die Genauigkeit zu gefährden. Der H100 etablierte HBM3-Speicher als Standard.17
  • Blackwell (B200 – 2024): Der aktuelle Stand der Technik. Blackwell bricht mit dem monolithischen Chip-Design und setzt auf ein Multi-Chip-Modul (MCM), bei dem zwei Dies über einen 10 TB/s Interconnect verbunden sind und als ein logischer Chip agieren. Mit 208 Milliarden Transistoren und nativer FP4-Unterstützung zielt Blackwell auf das Training und die Inferenz von Modellen mit Billionen von Parametern ab.12

3.2 Die Google TPU-Timeline: Iteration im Verborgenen

Google erkannte früh, dass CPUs nicht mit dem Rechenbedarf der KI skalieren würden. Die Entwicklung der TPU begann 2013 intern, lange bevor der Markt das Potenzial erkannte.

  • TPU v1 (2015): Ein reiner Inferenz-Chip, der intern für Google Search, Translate und AlphaGo eingesetzt wurde. Er war nicht programmierbar wie eine GPU, sondern ein festverdrahteter Beschleuniger, der bereits damals 30-80x effizienter pro Watt war als GPUs.6
  • TPU v2 & v3 (2017/2018): Mit v2 wurde die TPU trainierbar. Google führte HBM-Speicher ein und ermöglichte Fließkomma-Berechnungen (statt nur Integer bei v1). TPU v3 steigerte die Leistung durch Flüssigkeitskühlung direkt auf dem Chip, was höhere Taktraten erlaubte.21
  • TPU v4 (2021): Ein massiver technologischer Sprung. Google führte Optical Circuit Switches (OCS) ein. Dies erlaubte es, die Netzwerktopologie des Supercomputers dynamisch zur Laufzeit zu rekonfigurieren (z.B. in einen 3D-Torus). OCS nutzt Spiegel, um Lichtsignale ohne optisch-elektrische Wandlung umzuleiten, was die Latenz und den Energieverbrauch des Interconnects drastisch senkte.7 Dies ermöglichte den Bau von Pods mit 4.096 Chips.
  • TPU v5e & v5p (2023): Google diversifizierte seine Linie. Die v5e (Efficiency) zielte auf maximale Kosteneffizienz für Inferenz und das Training mittelgroßer Modelle ab. Die v5p (Performance) war ein “Brute Force”-Chip für das Training gigantischer LLMs (wie Gemini), mit massiver Speicherbandbreite und der Fähigkeit, Pods auf 8.960 Chips zu skalieren.14
  • Trillium (TPU v6e – 2024): Die sechste Generation, positioniert als Nachfolger der v5e, bietet eine 4,7-fache Leistungssteigerung pro Chip. Sie ist integraler Bestandteil von Googles “AI Hypercomputer” und setzt weiterhin auf einen 2D-Torus für die Vernetzung, optimiert für Energieeffizienz.14
  • Ironwood (TPU v7 – 2025): Der neueste, speziell auf Inferenz ausgerichtete Chip. Ironwood reagiert auf den Speicherhunger moderner Modelle mit 192 GB HBM und einer Architektur, die auf minimalste Latenz bei der Textgenerierung ausgelegt ist.1

4. Google TPU: Eine Architektur für die Hyper-Skalierung

Googles Ansatz bei der TPU unterscheidet sich fundamental von NVIDIAs Strategie. Während NVIDIA Chips verkauft, die in beliebige Server gesteckt werden können, baut Google Systeme. Die TPU ist untrennbar mit der Infrastruktur des Google-Rechenzentrums verbunden.

4.1 Networking und Interconnects: ICI und OCS

Das Geheimnis der Skalierbarkeit von TPUs liegt nicht im einzelnen Chip, sondern in deren Vernetzung. TPUs verfügen über dedizierte Hochgeschwindigkeitsverbindungen, den Inter-Chip Interconnect (ICI). Im Gegensatz zu Standard-Netzwerken (Ethernet/InfiniBand) verbinden ICI-Links Chips direkt miteinander, ohne den Umweg über Host-CPUs oder externe Switches.

In der TPU v4 und v5p Ära perfektionierte Google den Einsatz von Optical Circuit Switches (OCS). Diese Technologie erlaubt es, die Topologie des Netzwerks dynamisch anzupassen. Ein Cluster kann als 3D-Torus konfiguriert werden, um die Kommunikation zwischen Nachbarn zu maximieren, oder in “twisted torus”-Konfigurationen, um den Durchmesser des Netzwerks zu verringern und die Latenz zwischen weit entfernten Chips zu minimieren.7

Bei der neueren Trillium (v6e) und Ironwood (v7) Generation scheint Google teilweise zu einer einfacheren, aber extrem bandbreitenstarken 2D-Torus-Topologie zurückzukehren oder diese zu modifizieren, um die Komplexität zu reduzieren und die Effizienz für Inferenz-Workloads zu steigern, bei denen die Latenz zwischen Speicher und Recheneinheit kritischer ist als die All-to-All-Kommunikation über tausende Chips hinweg.7

4.2 SparseCore: Der versteckte Beschleuniger

Ein oft übersehenes Merkmal der TPU-Architektur ist der SparseCore. Während LLMs (wie GPT) oft “dense” (dicht) sind, basieren Empfehlungssysteme (Recommender Systems) – die Cash-Cows von Google (Ads, YouTube, Search) – auf riesigen Embedding-Tabellen, auf die spärlich (sparse) zugegriffen wird.

Herkömmliche GPUs und auch die Matrix-Einheiten (MXUs) der TPU sind ineffizient bei der Verarbeitung dieser zufälligen Speicherzugriffe. Der SparseCore ist ein spezialisierter Datenfluss-Prozessor direkt auf dem TPU-Die, der diese Embedding-Lookups beschleunigt. In der TPU v5p und v7 (Ironwood) wurde die Anzahl und Leistung dieser SparseCores massiv erhöht, was Google einen signifikanten Vorteil bei der Verarbeitung von Modellen mit extrem großen Vokabularen oder Nutzer-Embeddings verschafft.5

5. NVIDIA GPU: Der Generalist als Marktführer

NVIDIAs Dominanz beruht auf der Fähigkeit, rohe Rechenleistung mit extremer Flexibilität zu paaren. Die GPU ist nicht nur ein KI-Chip, sondern ein massiv paralleler Supercomputer.

5.1 NVLink und NVSwitch: Die Antwort auf Skalierung

Um das Problem der Kommunikation zwischen GPUs zu lösen, entwickelte NVIDIA NVLink. In der Blackwell-Generation bietet NVLink eine bidirektionale Bandbreite von 1,8 TB/s pro GPU – das ist mehr als das 14-fache der Bandbreite von PCIe Gen5.25

Das GB200 NVL72 System ist die ultimative Manifestation dieser Technologie. Es verbindet 72 Blackwell-GPUs in einem einzigen Rack über eine Kupfer-Backplane (NVLink Switch System), sodass diese 72 GPUs logisch wie eine einzige, gigantische GPU agieren. Dies ermöglicht es, Modelle mit Billionen von Parametern im Speicher dieses einen Racks zu halten und extrem schnell zu trainieren oder Inferenz zu betreiben, ohne die Latenz von Netzwerk-Switches (InfiniBand/Ethernet) in Kauf nehmen zu müssen.25

5.2 Multi-Instance GPU (MIG) und Virtualisierung

Ein weiterer Vorteil der GPU-Architektur im Cloud-Kontext ist die Multi-Instance GPU (MIG) Technologie. Sie erlaubt es, eine physische GPU (wie eine H100) in bis zu sieben isolierte Instanzen zu unterteilen, jede mit eigenem Speicher, Cache und Rechenkernen. Dies ist entscheidend für Cloud-Anbieter, um kleinere Workloads effizient zu bedienen, ohne eine ganze High-End-GPU für eine kleine Aufgabe zu blockieren. TPUs bieten durch ihre Architektur (ein Chip, ein Kern) weniger Flexibilität in dieser feingranularen Virtualisierung auf Chip-Ebene, obwohl Google durch Software-Virtualisierung in Kubernetes (GKE) gegensteuert.27

6. Software-Ökosysteme: Der Grabenkrieg um die Entwickler

Die Hardware ist nur so gut wie die Software, die sie steuert. Hier liegt NVIDIAs tiefster Burggraben (“Moat”) und Googles größte Herausforderung.

6.1 Der CUDA-Lock-in

CUDA (Compute Unified Device Architecture) ist seit fast zwei Jahrzehnten der Standard für parallele Programmierung. Ein riesiges Ökosystem an Bibliotheken (cuDNN, TensorRT) und Frameworks (PyTorch, TensorFlow) ist primär auf CUDA optimiert. Entwickler können “bis auf das Metall” optimieren und Kernel schreiben, die die Hardware perfekt ausnutzen.28 Dieser Lock-in ist enorm: Der Wechsel weg von NVIDIA bedeutet oft, etablierte, hochoptimierte Codebasen aufgeben oder mühsam portieren zu müssen.

6.2 JAX und XLA: Googles Compiler-Wette

Google setzt diesem manuellen Optimierungsansatz eine Compiler-Strategie entgegen. XLA (Accelerated Linear Algebra) ist ein Compiler, der KI-Modelle (geschrieben in TensorFlow, JAX oder PyTorch) analysiert und automatisch optimierten Maschinencode für TPUs generiert.

Das Framework JAX gewinnt hierbei massiv an Bedeutung. JAX erlaubt es Forschern, mathematische Funktionen in Python (NumPy-ähnlich) zu schreiben, die dann Just-in-Time (JIT) kompiliert werden. JAX eignet sich hervorragend für die TPU-Architektur, da es funktionale Programmierung und automatische Parallelisierung (SPMD – Single Program, Multi Data) fördert.30

Herausforderungen der Migration:

Lange Zeit galt: “PyTorch läuft am besten auf NVIDIA, TensorFlow/JAX auf TPU.” Da die Forschungswelt (z.B. Meta, OpenAI, HuggingFace) sich stark auf PyTorch standardisiert hat, war dies ein Hindernis für die TPU-Adoption. Google adressiert dies aggressiv mit PyTorch/XLA, einer Brückentechnologie, die PyTorch-Befehle in XLA-Operationen übersetzt.

Ein Durchbruch im Jahr 2025 war die Einführung von vLLM auf TPU. vLLM, eine populäre Open-Source-Bibliothek für LLM-Inferenz, wurde portiert, um nativ auf TPUs zu laufen. Dies erforderte die Lösung komplexer Probleme wie der Implementierung von “PagedAttention” in der statischen Welt der TPUs und der Überbrückung des MPMD (Multiple Program, Multiple Data) Modells von vLLM mit dem SPMD-Modell der TPU.31 Dies senkt die Hürde für Unternehmen drastisch, ihre bestehenden PyTorch-Modelle ohne Code-Änderungen auf die kosteneffizientere TPU-Infrastruktur zu verlagern.

7. Performance-Analyse und Benchmarks

Der Vergleich der Leistungsfähigkeit von TPUs und GPUs ist komplex, da er stark von der Anwendung (Training vs. Inferenz), der Modellgröße, der Batch-Größe und der verwendeten Präzision abhängt.

7.1 Technische Spezifikationen im Vergleich (2025 Flaggschiffe)

Die folgende Tabelle stellt die Spezifikationen der aktuellsten Generationen gegenüber. Es ist zu beachten, dass “Ironwood” und “Blackwell” die technologische Spitze im Jahr 2025 darstellen.

MerkmalGoogle TPU v5pGoogle Trillium (v6e)Google Ironwood (v7)NVIDIA H100 (SXM)NVIDIA Blackwell (B200)
ArchitekturDomain Specific (Systolic)Domain Specific (Systolic)Domain Specific (Inference Focus)Hopper (GPU)Blackwell (MCM GPU)
FertigungTSMC 4NTSMC 4NP
HBM Kapazität95 GB32 GB192 GB80 GB192 GB
HBM Bandbreite2.76 TB/s1.6 TB/s7.2 – 7.4 TB/s3.35 TB/s8.0 TB/s
Peak Compute (BF16)459 TFLOPS918 TFLOPS1,979 TFLOPS
Peak Compute (FP8/Int8)918 TFLOPS (Int8)1,836 TFLOPS (Int8)4,614 TFLOPS (FP8)3,958 TFLOPS9,000 PFLOPS (Dense FP8)
InterconnectICI (3D Torus)ICI (2D Torus)ICI (Enhanced)NVLink (900 GB/s)NVLink (1.8 TB/s)
Max. Pod-Größe8,960 Chips256 Chips (Skalierbar via DCN)9,216 Chips256 (SuperPOD)72 (NVL72 Rack)

Analyse der Spezifikationen:

  • Trillium (v6e): Mit nur 32 GB HBM scheint Trillium im Vergleich unterdimensioniert. Dies ist eine bewusste Entscheidung. Trillium ist der Nachfolger der effizienzorientierten v5e und zielt auf Workloads ab, die über viele Chips parallelisiert werden (“Shard-Parallelism”), anstatt riesige Modelle auf einem einzelnen Chip zu halten. Die Verdopplung der HBM-Bandbreite gegenüber v5e ist hier entscheidend.23
  • Ironwood (v7): Mit 192 GB HBM zieht Google mit NVIDIAs Spitzenmodell B200 gleich. Dies zeigt den Fokus auf Inferenz großer Modelle, bei denen der gesamte Modellzustand (KV-Cache) im schnellen Speicher gehalten werden muss, um Latenzen zu vermeiden.32

7.2 Benchmark-Ergebnisse (MLPerf)

Training:

In den MLPerf Training 4.1 Ergebnissen zeigte sich ein differenziertes Bild. Googles Trillium zeigte im GPT-3 Training (175B Parameter) in einer 2.048-Chip-Konfiguration nur eine etwa 8%ige Leistungssteigerung gegenüber der älteren v5p.33 Dies mag auf den ersten Blick enttäuschend wirken, angesichts der “4,7x schneller”-Claims. Die Erklärung liegt in der Skalierung und dem Fokus: Trillium ist auf Effizienz (Performance/TCO) optimiert. Google betont eine 1,8-fache Verbesserung der Leistung-pro-Dollar gegenüber v5p.15

NVIDIA Blackwell dominierte hingegen bei der reinen Geschwindigkeit. Ein System mit nur 8 Blackwell-GPUs übertraf im Llama 2 Fine-Tuning ein System mit 8 H100-GPUs um den Faktor 2,2.33

Inferenz:

Im MLPerf Inference v5.0 zeigte NVIDIAs GB200 NVL72 seine Muskeln. Es erreichte Durchsatzraten von 800 Tokens/Sekunde für das riesige Llama 3.1 405B Modell.36 Dies demonstriert die Macht des NVLink-Backbones, das 72 GPUs zu einem logischen Monster vereint.

Google hat für Ironwood (v7) noch keine MLPerf-Zahlen veröffentlicht, aber interne Daten deuten darauf hin, dass die Architektur speziell darauf ausgelegt ist, bei großen Batch-Größen und langen Kontexten mit NVIDIAs Latenzzeiten zu konkurrieren, indem sie die Speicherbandbreite massiv nutzt.2

8. Ökonomische Analyse: TCO und Marktstrategie

Die technische Leistung ist nur die halbe Wahrheit. Für Unternehmen ist die Total Cost of Ownership (TCO) entscheidend. Hier spielt Google seinen größten strategischen Vorteil aus.

8.1 Die “Nvidia-Steuer” vs. Vertikale Integration

NVIDIA agiert als Händler (Merchant Silicon) mit extrem hohen Margen. Analysten schätzen die Bruttomarge bei Data-Center-GPUs auf über 70-80%.37 Ein Kunde, der eine H100 kauft oder mietet, zahlt nicht nur für das Silizium, sondern finanziert NVIDIAs Forschung und Gewinnmarge mit.

Google hingegen ist sein eigener bester Kunde. Die TPUs werden nicht verkauft, sondern im eigenen Rechenzentrum verbaut. Google zahlt “nur” die Entwicklungs- und Fertigungskosten (bei TSMC). Die Marge entfällt.

  • Kostenvorteil: Schätzungen gehen davon aus, dass Google seine KI-Workloads (Gemini Training und Serving) um 20-30% günstiger betreiben kann als Konkurrenten, die auf NVIDIA-Hardware angewiesen sind. Manche Quellen sprechen sogar von bis zu 4x besserer Leistung pro Dollar bei Trillium im Vergleich zu H100 für spezifische Inferenz-Workloads.39
  • Preisgestaltung: In der Cloud bietet Google Trillium TPUs zu Kampfpreisen an. Eine v6e-Instanz kann im Stundenpreis deutlich unter einer vergleichbaren H100-Miete liegen (z.B. ~$2.90/Chip On-Demand vs. ~$3.00-$4.00 für H100), bei oft höherer Effizienz für JAX-Workloads.41

8.2 Build vs. Buy Entscheidung für Startups

Für Startups stellt sich die Frage: GPU oder TPU?

  • GPU: Bietet maximale Flexibilität, Zugriff auf das gesamte Open-Source-Ökosystem (HuggingFace, GitHub) ohne Anpassungen und die Möglichkeit, Workloads leicht zwischen Clouds (AWS, Azure, CoreWeave) zu verschieben. Die Kosten sind höher, aber die Entwicklungsgeschwindigkeit (Time-to-Market) ist oft schneller, da keine “Portierung” nötig ist.
  • TPU: Bietet massive Kostenvorteile bei Skalierung. Sobald ein Modell stabil ist und in die Produktion geht (Inferenz), kann der Wechsel auf TPU die Cloud-Rechnung halbieren. Der anfängliche Invest in die Anpassung an JAX oder PyTorch/XLA schreckt jedoch viele ab. Mit Tools wie vLLM sinkt diese Hürde jedoch im Jahr 2025 signifikant.28

9. Die Wettbewerbslandschaft jenseits des Duopols

Obwohl Google und NVIDIA die Schlagzeilen beherrschen, ist der Markt nicht statisch. Andere Akteure versuchen, das Duopol aufzubrechen.

9.1 AMD MI300 und MI350

AMD ist der einzig ernstzunehmende Konkurrent im GPU-Bereich. Die MI300X attackierte die H100 erfolgreich über die Speichergröße (192 GB) und Bandbreite. Die angekündigte MI350 (CDNA 4 Architektur, 3nm Fertigung) zielt direkt auf NVIDIAs Blackwell B200 ab und verspricht bis zu 288 GB HBM3e Speicher.44 AMDs Strategie ist es, eine “offene” Alternative zu CUDA mit der ROCm-Plattform zu bieten, leidet aber weiterhin unter einem weniger reifen Software-Stack.

9.2 Intel Gaudi

Intel positioniert seine Gaudi 3 Beschleuniger als kosteneffiziente Alternative zur H100. Gaudi setzt auf Ethernet als direkten Interconnect (ähnlich wie TPU ICI, aber mit Standard-Protokollen). Intel verspricht bessere Preis-Leistung, hat aber Mühe, signifikante Marktanteile im High-End-Training zu gewinnen, da die Entwicklerbasis fehlt.46

10. Strategischer Ausblick und Prognose (2025-2027)

Wie wird sich die Hardware-Landschaft in den kommenden Jahren entwickeln?

10.1 NVIDIAs Roadmap: Rubin und darüber hinaus

NVIDIA wird das Gaspedal nicht lockern. Nach Blackwell steht für 2026 die Rubin-Architektur (R100) auf dem Plan. Gerüchte und Roadmaps deuten darauf hin, dass Rubin erstmals HBM4 Speicher nutzen wird, der direkt auf dem Logik-Die gestapelt werden könnte, um die Bandbreite nochmals drastisch zu erhöhen. Dazu kommt eine neue CPU-Architektur (“Vera”), um die Grace-CPU abzulösen.48 NVIDIA wird versuchen, den Markt durch noch engere Integration von Netzwerk (InfiniBand/Ethernet Switches) und Compute im Rack-Maßstab zu dominieren.

10.2 Googles Antwort: Post-Ironwood und Agentic AI

Google wird die TPU-Linie weiter spezialisieren. Nach Ironwood (v7), das die Inferenz-Latenz minimiert, ist mit einer TPU v8 zu rechnen, die sich noch stärker auf “Agentic AI” konzentriert. Da Agenten in einer Schleife aus “Denken” (Reasoning), Werkzeugnutzung und Antwortgenerierung arbeiten, wird die Latenz des “ersten Tokens” kritisch. Wir können erwarten, dass Google Speicher und Logik noch enger verwebt (Processing-in-Memory Ansätze könnten erforscht werden) und die optischen Interconnects (OCS) weiter ausbaut, um Latenzen im Nanosekunden-Bereich über ganze Rechenzentren hinweg zu ermöglichen.2

10.3 Konvergenz und Hybrid-Systeme

Die strikte Trennung “GPU für Training, TPU für Inferenz” wird aufweichen. Wir werden hybride Workflows sehen. Ein Modell könnte auf NVIDIA-GPUs trainiert werden (wegen der Flexibilität), aber auf Google TPUs “serviert” werden (wegen der Kosten). Technologien wie vLLM und OpenXLA werden diese Interoperabilität erleichtern. Zudem werden Cloud-Anbieter zunehmend heterogene Cluster anbieten, in denen CPUs (wie Googles Axion), TPUs und GPUs im selben Netzwerk hängen und sich Aufgaben teilen.1

Fazit

Der Vergleich zwischen TPU und GPU ist im Jahr 2025 kein einfacher Leistungsvergleich mehr. Es ist ein Wettbewerb der Philosophien.

NVIDIA (GPU) steht für maximale Flexibilität, rohe Spitzenleistung und ein offenes (wenn auch teures) Ökosystem für alle, die bereit sind, den Preis für “State-of-the-Art” zu zahlen.

Google (TPU) steht für industrielle Effizienz, vertikale Integration und die Optimierung der “Total Cost of Ownership” für massive Skalierung.

Mit Ironwood und Blackwell erreichen beide Architekturen physikalische Limits, die nur durch Innovationen im System-Design (Flüssigkeitskühlung, Optik, HBM4) überwunden werden können. Für den Endanwender bedeutet dieser Wettbewerb vor allem eines: Die Kosten für Intelligenz werden weiter fallen, während die Fähigkeiten der Systeme exponentiell wachsen.

Referenzen

  1. Ironwood TPUs and new Axion-based VMs for your AI workloads | Google Cloud Blog, Zugriff am November 25, 2025, https://cloud.google.com/blog/products/compute/ironwood-tpus-and-new-axion-based-vms-for-your-ai-workloads
  2. Ironwood: The first Google TPU for the age of inference, Zugriff am November 25, 2025, https://blog.google/products/google-cloud/ironwood-tpu-age-of-inference/
  3. Inside Google’s TPU: Architecture, Performance, and GPU Comparisons – skymod.tech, Zugriff am November 25, 2025, https://skymod.tech/inside-googles-tpu-and-gpu-comparisons/
  4. Axon: A novel systolic array architecture for improved run time and energy efficient GeMM and Conv operation with on-chip im2col – arXiv, Zugriff am November 25, 2025, https://arxiv.org/html/2501.06043v1
  5. TPU architecture – Google Cloud Documentation, Zugriff am November 25, 2025, https://docs.cloud.google.com/tpu/docs/system-architecture-tpu-vm
  6. An in-depth look at Google’s first Tensor Processing Unit (TPU) | Google Cloud Blog, Zugriff am November 25, 2025, https://cloud.google.com/blog/products/ai-machine-learning/an-in-depth-look-at-googles-first-tensor-processing-unit-tpu
  7. How to Think About TPUs | How To Scale Your Model – GitHub Pages, Zugriff am November 25, 2025, https://jax-ml.github.io/scaling-book/tpus/
  8. TPU vs GPU: Choosing the Right Hardware for Your AI Projects | DigitalOcean, Zugriff am November 25, 2025, https://www.digitalocean.com/resources/articles/tpu-vs-gpu
  9. DNN Accelerator Architecture – SIMD or Systolic? – SIGARCH, Zugriff am November 25, 2025, https://www.sigarch.org/dnn-accelerator-architecture-simd-or-systolic/
  10. Floating-Point 8: An Introduction to Efficient, Lower-Precision AI Training – NVIDIA Developer, Zugriff am November 25, 2025, https://developer.nvidia.com/blog/floating-point-8-an-introduction-to-efficient-lower-precision-ai-training/
  11. [D] Mixed Precision Training: Difference between BF16 and FP16 : r/MachineLearning, Zugriff am November 25, 2025, https://www.reddit.com/r/MachineLearning/comments/vndtn8/d_mixed_precision_training_difference_between/
  12. The Engine Behind AI Factories | NVIDIA Blackwell Architecture, Zugriff am November 25, 2025, https://www.nvidia.com/en-us/data-center/technologies/blackwell-architecture/
  13. NVFP4 Trains with Precision of 16-Bit and Speed and Efficiency of 4-Bit – NVIDIA Developer, Zugriff am November 25, 2025, https://developer.nvidia.com/blog/nvfp4-trains-with-precision-of-16-bit-and-speed-and-efficiency-of-4-bit/
  14. TPU v6e – Google Cloud Documentation, Zugriff am November 25, 2025, https://docs.cloud.google.com/tpu/docs/v6e
  15. Trillium MLPerf 4.1 training benchmarks | Google Cloud Blog, Zugriff am November 25, 2025, https://cloud.google.com/blog/products/compute/trillium-mlperf-41-training-benchmarks
  16. Evolution of NVIDIA Data Center GPUs: From Pascal to Grace Blackwell – Server Simply, Zugriff am November 25, 2025, https://www.serversimply.com/blog/evolution-of-nvidia-data-center-gpus
  17. NVIDIA Tensor Core GPUs Comparison – NVIDIA B200 vs B100 vs H200 vs H100 vs A100 [ Updated ] – Bizon-tech, Zugriff am November 25, 2025, https://bizon-tech.com/blog/nvidia-b200-b100-h200-h100-a100-comparison
  18. NVIDIA H100 vs H200 vs B200: Complete GPU Comparison Guide 2025 – Introl, Zugriff am November 25, 2025, https://introl.com/blog/h100-vs-h200-vs-b200-choosing-the-right-nvidia-gpus-for-your-ai-workload
  19. NVIDIA Technologies and GPU Architectures | NVIDIA, Zugriff am November 25, 2025, https://www.nvidia.com/en-us/technologies/
  20. TPU transformation: A look back at 10 years of our AI-specialized chips | Google Cloud Blog, Zugriff am November 25, 2025, https://cloud.google.com/transform/ai-specialized-chips-tpu-history-gen-ai
  21. Tensor Processing Unit – Wikipedia, Zugriff am November 25, 2025, https://en.wikipedia.org/wiki/Tensor_Processing_Unit
  22. [2304.01433] TPU v4: An Optically Reconfigurable Supercomputer for Machine Learning with Hardware Support for Embeddings – arXiv, Zugriff am November 25, 2025, https://arxiv.org/abs/2304.01433
  23. Introducing Trillium, sixth-generation TPUs | Google Cloud Blog, Zugriff am November 25, 2025, https://cloud.google.com/blog/products/compute/introducing-trillium-6th-gen-tpus
  24. TPU v4 – Google Cloud Documentation, Zugriff am November 25, 2025, https://docs.cloud.google.com/tpu/docs/v4
  25. NVIDIA GB200 NVL72 Delivers Trillion-Parameter LLM Training and Real-Time Inference, Zugriff am November 25, 2025, https://developer.nvidia.com/blog/nvidia-gb200-nvl72-delivers-trillion-parameter-llm-training-and-real-time-inference/
  26. Supermicro NVIDIA GB200 NVL72 Datasheet, Zugriff am November 25, 2025, https://www.supermicro.com/datasheet/datasheet_SuperCluster_GB200_NVL72.pdf
  27. Comparing Blackwell vs Hopper | B200 & B100 vs H200 & H100 | Exxact Blog, Zugriff am November 25, 2025, https://www.exxactcorp.com/blog/hpc/comparing-nvidia-tensor-core-gpus
  28. JAX on GPUs: Implementation Strategies for Enterprise Machine Learning – Lambda, Zugriff am November 25, 2025, https://lambda.ai/blog/pytorch-to-jax-on-lambda-for-enterprise-ml
  29. CUDA is the incumbent, but is it any good? (Democratizing AI Compute, Part 4) – Modular, Zugriff am November 25, 2025, https://www.modular.com/blog/democratizing-ai-compute-part-4-cuda-is-the-incumbent-but-is-it-any-good
  30. Building production AI on Google Cloud TPUs with JAX, Zugriff am November 25, 2025, https://developers.googleblog.com/building-production-ai-on-google-cloud-tpus-with-jax/
  31. vLLM TPU: A New Unified Backend Supporting PyTorch and JAX on TPU | vLLM Blog, Zugriff am November 25, 2025, https://blog.vllm.ai/2025/10/16/vllm-tpu.html
  32. Google’s Ironwood TPUs represent a bigger threat than Nvidia would have you believe, Zugriff am November 25, 2025, https://www.theregister.com/2025/11/06/googles_ironwood_tpus_ai/
  33. Nvidia and Google Train to Win – XPU.pub, Zugriff am November 25, 2025, https://xpu.pub/2024/11/14/mlperf-training-4-1/
  34. Trillium MLPerf 4.1 training benchmarks | Google Cloud Blog, Zugriff am November 25, 2025, https://cloud.google.com/blog/products/compute/trillium-mlperf-41-training-benchmarks/
  35. Comparing NVIDIA’s B200 and H100: What’s the difference? – Civo.com, Zugriff am November 25, 2025, https://www.civo.com/blog/comparing-nvidia-b200-and-h100
  36. CoreWeave Delivers Breakthrough AI Performance with NVIDIA GB200 and H200 GPUs in MLPerf Inference v5.0, Zugriff am November 25, 2025, https://www.coreweave.com/blog/coreweave-delivers-breakthrough-ai-performance-with-nvidia-gb200-and-h200-gpus-in-mlperf-inference-v5-0
  37. The Cost of AI Compute: Google’s TPU Advantage vs. OpenAI’s Nvidia Tax | Nasdaq, Zugriff am November 25, 2025, https://www.nasdaq.com/articles/cost-ai-compute-googles-tpu-advantage-vs-openais-nvidia-tax
  38. Is this the only true moat in AI? Google TPU vs GPU (everyone else). While it’s a major one, I can think of others that can advantage one or another : r/singularity – Reddit, Zugriff am November 25, 2025, https://www.reddit.com/r/singularity/comments/1jv9k21/is_this_the_only_true_moat_in_ai_google_tpu_vs/
  39. Google TPU v6e vs GPU: 4x Better AI Performance Per Dollar Guide – Introl, Zugriff am November 25, 2025, https://introl.com/blog/google-tpu-v6e-vs-gpu-4x-better-ai-performance-per-dollar-guide
  40. GPU and TPU Comparative Analysis Report | by ByteBridge – Medium, Zugriff am November 25, 2025, https://bytebridge.medium.com/gpu-and-tpu-comparative-analysis-report-a5268e4f0d2a
  41. Google Trillium TPU (v6e) introduction : r/NVDA_Stock – Reddit, Zugriff am November 25, 2025, https://www.reddit.com/r/NVDA_Stock/comments/1go4m9v/google_trillium_tpu_v6e_introduction/
  42. H100 Rental Prices: A Cloud Cost Comparison (Nov 2025) | IntuitionLabs, Zugriff am November 25, 2025, https://intuitionlabs.ai/articles/h100-rental-prices-cloud-comparison
  43. Inside the Ironwood TPU codesigned AI stack | Google Cloud Blog, Zugriff am November 25, 2025, https://cloud.google.com/blog/products/compute/inside-the-ironwood-tpu-codesigned-ai-stack
  44. AMD MI350 vs. NVIDIA Blackwell: A Comparative Analysis of Next-Generation Chips – Zoomax Low Vision Aids, Zugriff am November 25, 2025, https://zoomax.com/low-vision-information/amd-mi350-vs-nvidia-blackwell-a-comparative-analysis-of-next-generation-chips/
  45. AMD Instinct MI350 Launched: 2.2x Faster Than Blackwell B200 : r/AMD_Stock – Reddit, Zugriff am November 25, 2025, https://www.reddit.com/r/AMD_Stock/comments/1l9s2gn/amd_instinct_mi350_launched_22x_faster_than/
  46. Lots Of Questions On Google’s “Trillium” TPU v6, A Few Answers – The Next Platform, Zugriff am November 25, 2025, https://www.nextplatform.com/2024/06/10/lots-of-questions-on-googles-trillium-tpu-v6-a-few-answers/
  47. Intel revealed their new Gaudi 3 AI chip. They claim that it will be 50% faster than NVIDIA’s H100 to train. – Reddit, Zugriff am November 25, 2025, https://www.reddit.com/r/LocalLLaMA/comments/1c2y3ru/intel_revealed_their_new_gaudi_3_ai_chip_they/
  48. Nvidia announces Rubin GPUs in 2026, Rubin Ultra in 2027, Feynman also added to roadmap | Tom’s Hardware, Zugriff am November 25, 2025, https://www.tomshardware.com/pc-components/gpus/nvidia-announces-rubin-gpus-in-2026-rubin-ultra-in-2027-feynam-after
  49. Nvidia Draws GPU System Roadmap Out To 2028 – The Next Platform, Zugriff am November 25, 2025, https://www.nextplatform.com/2025/03/19/nvidia-draws-gpu-system-roadmap-out-to-2028/
  50. Google unleashes Ironwood TPUs, new Axion instances as AI inference demand surges, Zugriff am November 25, 2025, https://siliconangle.com/2025/11/06/google-unleashes-ironwood-tpus-new-axion-instances-ai-inference-demand-surges/
  51. NVIDIA Blackwell, AMD MI, and New AI Chip Architectures: Who Leads in 2025?, Zugriff am November 25, 2025, https://www.aichips.com/nvidia-blackwell-amd-mi-and-new-ai-chip-architectures-who-leads-in-2025/
KI-gestützt. Menschlich veredelt.

Martin Käßler ist ein erfahrener Tech-Experte im Bereich AI, Technologie, Energie & Space mit über 15 Jahren Branchenerfahrung. Seine Artikel verbinden fundiertes Fachwissen mit modernster KI-gestützter Recherche- und Produktion. Jeder Beitrag wird von ihm persönlich kuratiert, faktengeprüft und redaktionell verfeinert, um höchste inhaltliche Qualität und maximalen Mehrwert zu garantieren.

Auch bei sorgfältigster Prüfung sehen vier Augen mehr als zwei. Wenn Ihnen ein Patzer aufgefallen ist, der uns entgangen ist, lassen Sie es uns bitte wissen: Unser Postfach ist martinkaessler, gefolgt von einem @ und dem Namen dieser Webseite (also meine-domain) mit der Endung .com. Oder besuchen Sie Ihn gerne einfach & direkt auf LinkedIn.

Ihre nächste Inspirationsquelle wartet – lesen, staunen, wachsen

Der große KI Kalender 2026 – Alle relevanten Events im Überblick
KI Kalender 2026

Der große KI Kalender 2026 – Alle relevanten Events im Überblick

AI, AI-generiert
November 26, 2025
Die größten Teleskope der Welt: Kathedralen des Lichts
Die größten Teleskope der Welt

Die größten Teleskope der Welt: Kathedralen des Lichts

AI-generiert, Space
November 26, 2025
Wie dekoriere ich nachhaltig für Weihnachten? Tipps für 2025
Wie dekoriere ich nachhaltig für Weihnachten?

Wie dekoriere ich nachhaltig für Weihnachten? Tipps für 2025

AI-generiert, How-to
November 24, 2025
Hidden Champions Deutschland: Wo stehen wir 2026?
Hidden Champions Deutschland: Wo stehen wir 2026?

Hidden Champions Deutschland: Wo stehen wir 2026?

AI-generiert, Kapital
November 24, 2025
Unsere Server sind ausgelastet. Versuche es später noch einmal. – Wann ist die geringste Serverlast für KI Anfragen aus Europa?
Unsere Server sind ausgelastet. Versuche es später noch einmal. - Die geringste Serverlast für KI Anfragen aus Europa.

Unsere Server sind ausgelastet. Versuche es später noch einmal. – Wann ist die geringste Serverlast für KI Anfragen aus Europa?

AI, AI-generiert
November 24, 2025
KI Texterkennung: So schlägt sich Google Gemini in der Praxis
KI Texterkennung: So schlägt sich Google Gemini im Praxistest

KI Texterkennung: So schlägt sich Google Gemini in der Praxis

AI, How-to
November 23, 2025
Die Besteuerung von Arbeit und Kapital 2026: Eine Jahrhundertanalyse der fiskalischen Asymmetrie
Besteuerung Arbeit und Kapital

Die Besteuerung von Arbeit und Kapital 2026: Eine Jahrhundertanalyse der fiskalischen Asymmetrie

AI-generiert, Gesellschaft, Kapital
November 23, 2025
Teleskop mieten statt kaufen: Was bringen Remote Astroteleskop Dienstleister? 
Teleskop mieten statt kaufen: Eine Alternative zu hohen Investitionen für das eigene Astro-Setup?

Teleskop mieten statt kaufen: Was bringen Remote Astroteleskop Dienstleister? 

AI-generiert, Space
November 21, 2025