
Maia 200 KI-Beschleuniger – Technische Analyse, Marktstrategie und die Zukunft der Inferenz-Ökonomie
Zusammenfassung: Ein Paradigmenwechsel in der KI-Infrastruktur
Der 26. Januar 2026 markiert mit der offiziellen Vorstellung des Azure Maia 200 einen Wendepunkt in der Strategie von Microsoft und der globalen Halbleiterindustrie.1 Als zweite Generation der hauseigenen “Custom Silicon”-Initiative wurde dieser KI-Beschleuniger spezifisch entwickelt, um die ökonomischen und physikalischen Grenzen der sogenannten Inferenz-Phase – der produktiven Nutzung trainierter KI-Modelle – zu durchbrechen. Gefertigt im fortschrittlichsten 3-Nanometer-Verfahren (N3) von TSMC und ausgestattet mit über 140 Milliarden Transistoren, stellt der Maia 200 nicht nur einen technologischen Meilenstein dar, sondern ist Microsofts aggressive Antwort auf die Dominanz von Nvidia und die konkurrierenden Architekturen von Google (TPU) und Amazon (Trainium).3
Dieses Dossier bietet eine erschöpfende Analyse des Maia 200. Es beleuchtet die technischen Spezifikationen, die radikale Abkehr von traditionellen Speicherarchitekturen, die Einführung nativer 4-Bit-Quantisierung (FP4) und die massiven Auswirkungen auf die Kostenstruktur von Cloud-Diensten. Während der Vorgänger, Maia 100, primär als experimentelle Lernplattform diente, ist der Maia 200 ein Produkt für den Masseneinsatz, das bereits aktiv Workloads für GPT-5.2 und Microsoft 365 Copilot übernimmt.5 Mit einer beanspruchten Leistungssteigerung von 30 % im Verhältnis zu den Kosten (“Performance per Dollar”) gegenüber bestehenden Systemen zielt Microsoft darauf ab, die “Inferenz-Kostenmauer” zu durchbrechen, die die Skalierung generativer KI bisher bremste.1
1. Strategischer Kontext: Die Inferenz-Krise und der Weg zur “Silicon Sovereignty”
Um die Existenzberechtigung und die kritische Bedeutung des Maia 200 zu verstehen, muss man die fundamentalen ökonomischen Verschiebungen im KI-Sektor betrachten, die sich zwischen 2023 und 2026 vollzogen haben. Die erste Phase des KI-Booms war durch das Training geprägt – den gigantischen Rechenaufwand, um Modelle wie GPT-4 initial zu erschaffen. Diese Phase favorisierte General-Purpose-GPUs (Graphics Processing Units) wie Nvidias H100, die extrem flexibel und programmierbar waren.
Doch ab 2025 verschob sich das Volumen massiv hin zur Inferenz. Inferenz ist der Prozess, bei dem ein fertiges Modell auf eine Nutzeranfrage reagiert. Jede Zusammenfassung in Word, jeder Code-Vorschlag in GitHub Copilot und jede Suchanfrage in Bing löst einen Inferenz-Vorgang aus. Im Gegensatz zum Training, das ein einmaliges Investitionsereignis (CapEx) darstellt, ist Inferenz ein permanenter operativer Kostenblock (OpEx), der linear mit der Nutzerzahl skaliert.7
1.1 Das ökonomische Dilemma der Skalierung
Analysen der Inferenz-Ökonomie zeigen, dass die Kosten für den Betrieb eines Modells über dessen Lebenszyklus hinweg die Trainingskosten um den Faktor 10 bis 15 übersteigen können.8 Wenn Microsoft hunderte Millionen Office-Nutzer mit KI-Funktionen ausstatten will, wird die Abhängigkeit von Drittanbieter-Hardware (Nvidia) zur existenziellen Bedrohung für die Gewinnmarge. Nvidia-GPUs enthalten eine signifikante “Marge”, die an den Hersteller abfließt, und sind als Allzweck-Chips konzipiert, die Hardware-Ballast (wie Grafik-Engines oder FP64-Einheiten für wissenschaftliche Simulationen) mitschleppen, der für KI-Inferenz unnötig ist.9
Der Maia 200 ist ein ASIC (Application-Specific Integrated Circuit). Er wurde für genau eine Aufgabe entworfen: Die Ausführung von Transformer-basierten Sprachmodellen. Durch das Weglassen unnötiger Komponenten kann Microsoft die Transistor-Budgets vollständig in relevante Recheneinheiten (Tensor Cores) und Speicher investieren. Dies ist der Kern der “Silicon Sovereignty” (Silizium-Souveränität): Die Kontrolle über den gesamten Stack – vom Transistor bis zur Applikation – erlaubt Effizienzgewinne, die mit Standard-Hardware unerreichbar sind.3
1.2 Die Wettbewerbslandschaft der Hyperscaler
Microsoft ist nicht der erste Cloud-Gigant, der diesen Weg geht, war aber unter Zugzwang.
- Google entwickelt seit 2015 seine TPU (Tensor Processing Unit) und ist mittlerweile bei der 7. Generation (TPU v7 “Ironwood”) angelangt.11 Dies gab Google lange Zeit einen massiven internen Kostenvorteil.
- Amazon Web Services (AWS) führte den Trainium und Inferentia Chip ein und präsentierte Ende 2025 den Trainium 3.12
- Microsoft musste nachziehen, um nicht dauerhaft höhere Infrastrukturkosten als Google und Amazon zu haben. Mit dem Maia 200 behauptet Microsoft nun, diesen Rückstand nicht nur aufgeholt, sondern in spezifischen Metriken (FP4/FP8 Performance) in einen Vorsprung verwandelt zu haben.5
2. Technische Architektur des Maia 200: Ein tiefer Einblick
Der Maia 200 ist ein technologisches Schwergewicht, das die Grenzen dessen ausreizt, was in der modernen Halbleiterfertigung möglich ist. Die Architektur wurde radikal auf die Bedürfnisse von Large Language Models (LLMs) zugeschnitten, wobei zwei Engpässe im Fokus standen: Speicherbandbreite und Datentransport.
2.1 Fertigung und physikalische Dimensionen
Der Chip wird im 3-Nanometer-Prozess (N3) von TSMC gefertigt.2 Dieser Prozessschritt ist entscheidend, da er eine deutlich höhere Transistordichte und Energieeffizienz gegenüber dem 5nm-Prozess des Vorgängers (Maia 100) ermöglicht.
- Transistordichte: Mit über 140 Milliarden Transistoren auf einem einzigen Package übertrifft der Maia 200 viele Konkurrenzprodukte an Komplexität.4 Zum Vergleich: Der Vorgänger Maia 100 hatte 105 Milliarden Transistoren.14 Diese enorme Anzahl an Schaltelementen wird primär für zwei Dinge genutzt: riesige On-Chip-Speicher (SRAM) und spezialisierte Rechenkerne für niedrige Präzision.
- Die-Größe: Obwohl die genaue Fläche des Maia 200 Dies nicht explizit genannt wird, lässt die Transistorzahl und der Vorgänger (820 mm² beim Maia 100) auf einen Chip schließen, der an die Grenzen der Reticle-Limits (der maximalen Belichtungsfläche in der Fertigung) stößt.14
2.2 Das Speicher-Subsystem: Überwindung der “Memory Wall”
Für Laien ist es oft überraschend, dass bei moderner KI nicht die Rechengeschwindigkeit (Rechnen) das Problem ist, sondern der Datentransport. Große Sprachmodelle wie GPT-5.2 sind viele Terabyte groß. Wenn der Chip auf eine Anfrage antwortet, muss er gigantische Mengen an Parametern (Gewichten) aus dem Speicher laden. Ist der Speicher zu langsam, langweilen sich die Rechenkerne. Dieses Phänomen nennt man “Memory Wall”.15
Microsoft hat den Maia 200 daher extrem “speicherlastig” konzipiert, um dieses Problem physikalisch zu lösen:
2.2.1 HBM3e (High Bandwidth Memory)
Der Maia 200 integriert 216 GB HBM3e-Speicher.5
- Kontext: HBM (High Bandwidth Memory) ist eine Speichertechnologie, bei der Speicherchips vertikal gestapelt und extrem nah an den Prozessor gelötet werden.
- Kapazität: 216 GB ist ein massiver Wert. Nvidias H100 hatte standardmäßig 80 GB, der H200 141 GB. Selbst Amazons neuer Trainium 3 kommt “nur” auf 144 GB.12
- Implikation: Mehr Speicher pro Chip bedeutet, dass auch sehr große Modelle komplett auf einem einzigen Chip oder einem sehr kleinen Cluster laufen können. Das reduziert die Notwendigkeit, Daten zwischen Chips hin und her zu schicken, was die Antwortzeit (Latenz) drastisch senkt.
2.2.2 Bandbreite
Noch wichtiger als die Kapazität ist die Geschwindigkeit. Der Maia 200 erreicht eine Speicherbandbreite von 7 Terabyte pro Sekunde (TB/s).16
- Vergleich: Um dies für Laien greifbar zu machen: 7 TB/s bedeutet, dass der Chip den Inhalt von etwa 7.000 hochauflösenden Spielfilmen pro Sekunde lesen kann. Oder technisch ausgedrückt: Der Chip kann seinen gesamten riesigen 216-GB-Speicher in ca. 0,03 Sekunden komplett einmal durchlesen. Diese Geschwindigkeit ist essenziell, um die Rechenkerne bei der Generierung von Text (Tokens) kontinuierlich mit Daten zu füttern.
2.2.3 On-Chip SRAM und “Data Movement Engines”
Zusätzlich zum HBM verfügt der Chip über 272 MB SRAM (Static RAM) direkt auf dem Prozessor.16 Microsoft nutzt hier ein innovatives Design mit “Tile-level SRAM” (TSRAM), bei dem der Speicher physisch direkt neben den Recheneinheiten platziert ist.17 Ergänzt wird dies durch spezialisierte Direct Memory Access (DMA) Engines, die den Datentransport im Hintergrund managen, sodass die Rechenkerne nicht mit Logistik belastet werden.15
2.3 Quantisierung: Die Revolution der 4-Bit-Mathematik (FP4)
Das vielleicht aggressivste technische Merkmal des Maia 200 ist seine native Optimierung für FP4 (4-Bit Floating Point).2
2.3.1 Erklärung für Laien: Was ist Quantisierung?
Computer verarbeiten Zahlen normalerweise mit einer Genauigkeit von 32 Bit (FP32) oder 16 Bit (FP16). Stellen Sie sich das wie die Nachkommastellen bei Geldbeträgen vor:
- FP32 (32-Bit): Extrem präzise (z.B. 3,14159265…). Nötig für das Training, damit das Modell feinste Nuancen lernt.
- FP4 (4-Bit): Extrem grob (z.B. “ca. 3”). Die Forschung hat gezeigt, dass fertig trainierte KI-Modelle erstaunlich robust sind. Man kann ihre interne Mathematik von 16-Bit auf 4-Bit “herunterbrechen” (Quantisierung), ohne dass die Antworten merklich schlechter werden – vorausgesetzt, man macht es intelligent.18 Der Vorteil ist gigantisch: Eine 4-Bit-Zahl braucht nur ein Viertel des Platzes einer 16-Bit-Zahl. Das bedeutet, man kann viermal so viele Daten im Speicher halten und viermal so schnell rechnen.
2.3.2 Native Unterstützung im Maia 200
Während viele Chips 4-Bit-Daten per Software simulieren müssen (was langsam ist), hat der Maia 200 native FP4 Tensor Cores. Die Hardware ist physikalisch darauf verdrahtet, 4-Bit-Berechnungen durchzuführen.
- Performance: Dies ermöglicht dem Maia 200 eine theoretische Rechenleistung von über 10 PetaFLOPS (10 Billiarden Rechenoperationen pro Sekunde) in FP4.2
- Differenzierung: Microsoft gibt an, dass diese FP4-Leistung dreimal höher ist als beim Konkurrenten Amazon Trainium 3.5 Dies ist der Hauptgrund für die massive Effizienzsteigerung bei der Inferenz.
3. Infrastruktur und Kühlung: Der “Sidekick” und die Physik
Die Integration eines solchen Hochleistungs-Chips in ein Rechenzentrum ist eine monumentale physikalische Herausforderung. Mit einer Thermal Design Power (TDP) von 750 Watt pro Chip 4 erzeugt ein Server-Rack mit mehreren Maia-Chips eine Hitze, die vergleichbar mit einem industriellen Schmelzofen ist. Herkömmliche Luftkühlung (Ventilatoren) reicht hier physikalisch nicht mehr aus, um die Wärme schnell genug abzutransportieren.
3.1 Die “Sidekick”-Lösung: Flüssigkühlung für Luft-Rechenzentren
Microsoft stand vor dem Problem, dass viele seiner bestehenden Rechenzentren für Luftkühlung gebaut wurden und keine Wasseranschlüsse an den Server-Reihen haben. Um den Maia 200 dennoch schnell ausrollen zu können, entwickelte Microsoft den sogenannten “Sidekick” weiter – eine Technologie, die bereits beim Maia 100 eingeführt wurde.20
Der Sidekick ist ein Liquid-to-Air Heat Exchanger (HXU), der wie ein großer “Rucksack” oder Beistellschrank neben dem eigentlichen Server-Rack steht.20
- Funktionsprinzip: Im Server selbst zirkuliert eine Kühlflüssigkeit direkt über die Maia-Chips (“Direct-to-Chip Cold Plates”). Diese Flüssigkeit nimmt die extreme Hitze der 750W-Chips auf.
- Kreislauf: Die heiße Flüssigkeit wird in den Sidekick gepumpt. Dort läuft sie durch einen massiven Radiator (ähnlich wie im Auto, nur viel größer).
- Wärmetausch: Ventilatoren im Sidekick blasen Luft durch den Radiator, kühlen die Flüssigkeit ab und geben die Wärme an die Raumluft ab, die dann von der normalen Klimaanlage des Gebäudes abgesaugt wird.20
3.2 Strategische Bedeutung des Sidekicks
Diese Lösung wirkt auf den ersten Blick wie ein Umweg, ist aber strategisch brillant. Sie erlaubt es Microsoft, den Maia 200 in bestehende Rechenzentren (Retrofit) einzubauen, ohne das Gebäude monatelang für die Installation von Wasserleitungen stillzulegen. Dies beschleunigt die Markteinführung (“Time-to-Market”) drastisch.3 Langfristig plant Microsoft jedoch neue Rechenzentren, die komplett auf Flüssigkühlung ausgelegt sind.
4. Vergleichende Wettbewerbsanalyse: Maia 200 vs. Die Titanen
Der Markt für KI-Beschleuniger ist 2026 hart umkämpft. Microsofts Ansprüche sind hoch: Der Maia 200 soll die “performanteste First-Party-Silicon-Lösung aller Hyperscaler” sein.16 Um diese Behauptung zu prüfen, müssen wir den Chip gegen seine direkten Rivalen antreten lassen: Amazons Trainium 3, Googles TPU v7 und den Marktplatzhirsch Nvidia (Blackwell).
4.1 Maia 200 vs. Amazon AWS Trainium 3
Amazon ist Microsofts härtester Konkurrent im Cloud-Geschäft. Der Trainium 3 (Trn3), vorgestellt Ende 2025, ist ebenfalls ein 3nm-Chip.12
| Feature | Microsoft Maia 200 | Amazon Trainium 3 (Trn3) | Analyse des Vorteils |
| Speicher | 216 GB HBM3e 16 | 144 GB HBM3e 12 | Microsoft +50%. Dies ist ein massiver Vorteil für große Modelle. Weniger “Sharding” (Verteilung) nötig. |
| Bandbreite | 7 TB/s 16 | 4,9 TB/s 12 | Microsoft +42%. Daten erreichen die Rechenkerne deutlich schneller. |
| FP4 Performance | > 10 PetaFLOPS 4 | ~3,3 PetaFLOPS (impliziert) | Microsoft behauptet 3x höhere FP4-Leistung.5 Wenn zutreffend, ist Maia bei extremer Quantisierung weit überlegen. |
| Netzwerk | Ethernet-basiert (2.8 TB/s) | NeuronLink (proprietär) | Microsoft setzt auf Standard-Ethernet für einfachere Skalierung, AWS auf spezialisierte Links. |
Fazit: Auf dem Papier schlägt der Maia 200 den Trainium 3 in den für Inferenz kritischen Metriken (Speicher & niedrige Präzision) deutlich. Trainium 3 mag Vorteile im Training haben, aber Microsofts Fokus auf Inferenz zahlt sich hier aus.
4.2 Maia 200 vs. Google TPU v7 (“Ironwood”)
Google hat den längsten Vorsprung bei eigenen Chips (seit 2015). Der TPU v7 ist ein extrem reifes Produkt, optimiert für Googles JAX/TensorFlow-Stack.11
- FP8 Performance: Microsoft gibt an, dass der Maia 200 eine ca. 10 % höhere FP8-Performance liefert als der TPU v7.16 Dies ist bemerkenswert, da Google traditionell die Krone bei der reinen Recheneffizienz hielt.
- Architektur: TPUs nutzen sogenannte “Systolic Arrays”, eine sehr effiziente Art der Matrixmultiplikation. Dass Microsoft mit einer flexibleren Architektur hier gleichzieht oder überholt, zeugt von massiven Investitionen in das Chip-Design.
- Kontext: Der Vorsprung ist hier kleiner als bei Amazon. Es ist ein Kopf-an-Kopf-Rennen, aber allein die Tatsache, dass Microsoft (als “Neuling” im Chip-Design) Google (den Veteranen) überholt, ist ein Signal an den Markt.
4.3 Maia 200 vs. Nvidia (Blackwell B200)
Nvidia bleibt der Goldstandard, insbesondere für Training. Der Maia 200 versucht nicht, den B200 in allem zu schlagen, sondern ihn in der Kosteneffizienz der Inferenz zu unterbieten.
- Spezialisierung vs. Generalisierung: Der B200 ist ein Wunderwerk der Technik, das alles kann (FP64, Grafik, Training). Der Maia 200 kann fast nur Inferenz. Durch diesen “Tunnelblick” kann Maia 200 Rechenleistung pro Watt und Dollar liefern, die für Nvidia schwer zu matchen ist, da Nvidia Chips verkaufen muss, die für alle Kunden funktionieren.21
- Speicher-Parität: Mit 216 GB Speicher übertrifft der Maia 200 sogar die Standard-Version des Nvidia B200 (192 GB).21 Dies ist ein direkter Angriff auf Nvidias Verkaufsargument “Memory Supremacy”.
- Die CUDA-Barriere: Nvidias größter Schutzgraben ist die Software CUDA. Da Maia 200 aber nicht frei verkauft wird, sondern nur innerhalb der Azure-Cloud als Service angeboten wird, ist CUDA weniger relevant. Der Kunde sieht nur die API (z.B. OpenAI API), nicht den Chip darunter. Für Entwickler, die direkt auf dem Chip arbeiten wollen, bietet Microsoft PyTorch und Triton an.5
5. Software-Ökosystem: Die “Macht des Compilers”
Hardware ist ohne Software nutzloses Silizium. Die Geschichte der KI-Chips ist voll von gescheiterten Startups, die tolle Chips, aber schlechte Software hatten (Graphcore, Habana, etc.). Microsoft weiß das und hat parallel zum Chip massiv in den Software-Stack investiert.
5.1 Das Maia SDK und Triton
Zentrales Element ist das Maia SDK, das Microsoft als Preview veröffentlicht hat.15 Anstatt zu versuchen, eine eigene proprietäre Sprache durchzudrücken (ein Fehler, den viele machten), setzt Microsoft voll auf OpenAI’s Triton.
- Was ist Triton? Triton ist eine Open-Source-Programmiersprache, die es erlaubt, hochperformanten Code zu schreiben, der auf Nvidias GPUs, AMDs ROCm und nun auch Microsofts Maia läuft. Es fungiert als “Universadolmetscher”.23
- PyTorch Integration: Das SDK integriert sich nahtlos in PyTorch, das Framework, das fast alle KI-Forscher nutzen. Das Ziel: Ein Entwickler nimmt sein Modell, ändert eine Zeile Code, und es läuft auf Maia.5
5.2 Co-Design mit OpenAI
Ein nicht zu unterschätzender Vorteil ist die Symbiose mit OpenAI. Der Maia 200 wurde nicht im Vakuum entwickelt. Die Ingenieure von OpenAI, die an GPT-5.2 arbeiteten, saßen mit den Chip-Designern von Microsoft am Tisch.2
- Optimierung: Der Chip ist physikalisch auf die Zugriffsmuster der neuesten Transformer-Modelle optimiert. Das betrifft die Größe der Caches, die Art der Vernetzung und die Speicher-Bursts.
- Synthetische Daten: Microsofts “Superintelligence Team” nutzt den Maia 200 massiv für die Erzeugung synthetischer Daten.5 Dies ist ein Prozess, bei dem ein KI-Modell Daten generiert, um ein anderes (neueres) Modell zu trainieren. Hierfür wird extrem günstige Inferenz benötigt – genau das, was Maia 200 liefert.
6. Ökonomische Implikationen: Der 30%-Faktor
Die wichtigste Zahl in Microsofts Ankündigung ist nicht die Teraflops-Zahl, sondern die Währung: “30% bessere Performance pro Dollar”.1
6.1 Auswirkungen auf die Cloud-Preise
In der Welt der Hyperscaler, wo Milliarden für Strom und Hardware ausgegeben werden, ist eine Effizienzsteigerung von 30 % gigantisch.
- Für Microsoft: Es senkt die internen Kosten für den Betrieb von GitHub Copilot, Bing Chat und Microsoft 365 Copilot drastisch. Das erhöht die Bruttomarge dieser Produkte.
- Für Kunden: Microsoft kann diese Einsparungen nutzen, um die Preise für die Azure OpenAI API zu senken oder bei gleichem Preis schnellere Antworten zu liefern. Dies setzt AWS und Google unter massiven Preisdruck.
6.2 Der Angriff auf die “Nvidia-Steuer”
Indem Microsoft zeigt, dass es eine viable Alternative zu Nvidia besitzt, verbessert sich seine Verhandlungsposition. Selbst wenn Microsoft weiterhin Nvidia-GPUs kauft (für das Training), kann es nun glaubhaft drohen, Inferenz-Workloads auf Maia zu verlagern. Analysten sehen dies als Beginn einer Diversifizierung, die die Gewinnmargen von Nvidia langfristig unter Druck setzen könnte.25
7. Fazit und Ausblick
Der Microsoft Azure Maia 200 ist ein technisches Meisterwerk und ein strategischer Befreiungsschlag. Durch die Fokussierung auf 3nm-Technologie, massive Speicherkapazitäten (216 GB HBM3e) und radikale 4-Bit-Quantisierung (FP4) hat Microsoft einen Chip geschaffen, der die Inferenz-Ökonomie neu definiert.
Während Nvidia weiterhin der unangefochtene König des Trainings und der universellen KI-Berechnung bleibt, zeigt der Maia 200, dass im Bereich der Inferenz – dem zukünftigen Massenmarkt – spezialisierte ASICs überlegen sind. Mit einer Überlegenheit von 300 % in der FP4-Performance gegenüber Amazons Trainium 3 und einem messbaren Vorsprung vor Googles etablierter TPU-Reihe hat sich Microsoft vom Hardware-Konsumenten zum Hardware-Innovator gewandelt.
Für die KI-Industrie bedeutet dies: Die Kosten für “Intelligenz auf Abruf” werden sinken. Die “Inferenz-Mauer” wird brüchig. Und für den Endnutzer bedeutet es, dass KI-Assistenten schneller, allgegenwärtiger und fähiger werden – angetrieben von einem 750-Watt-Siliziumherz, das tief in den gekühlten Hallen von Iowa und Arizona schlägt.
Tabellarischer Anhang: Technische Daten im Detail
Um die technischen Differenzen zu verdeutlichen, folgt eine detaillierte Gegenüberstellung der relevanten Spezifikationen.
| Spezifikation | Microsoft Maia 200 | Microsoft Maia 100 (Vorgänger) | Amazon Trainium 3 (Trn3) | Google TPU v7 (Ironwood) |
| Prozess | TSMC 3nm 2 | TSMC 5nm 14 | 3nm 12 | N/A (wahrsch. 3/4nm) |
| Transistoren | > 140 Milliarden 4 | 105 Milliarden 14 | N/A | N/A |
| HBM Speicher | 216 GB HBM3e 16 | 64 GB HBM2e 14 | 144 GB HBM3e 12 | N/A |
| Speicherbandbreite | 7 TB/s 16 | 1.8 TB/s 14 | 4.9 TB/s 12 | N/A |
| On-Chip SRAM | 272 MB 16 | ~500 MB 27 | N/A | N/A |
| FP4 Performance | > 10 PFLOPS 2 | N/A | ~3.3 PFLOPS (impliziert) | N/A |
| FP8 Performance | > 5 PFLOPS 2 | N/A | 2.52 PFLOPS 12 | ~4.6 PFLOPS 11 |
| Netzwerk (Interconnect) | 2.8 TB/s Ethernet 16 | 4.8 Tbps 14 | NeuronLink | OCS / ICI |
| TDP (Stromverbrauch) | ~750 Watt 4 | 500-700 Watt 14 | N/A | N/A |
| Kühlung | Liquid-to-Air “Sidekick” | Liquid-to-Air “Sidekick” | Luft/Flüssig | Flüssig |
Anmerkung: Die Werte basieren auf den zum Zeitpunkt der Erstellung verfügbaren Daten aus den Recherche-Snippets. Werte für Konkurrenzprodukte sind teilweise aus Vergleichstabellen von Microsoft abgeleitet oder aus deren Launch-Daten.
Referenzen
- Maia 200 – Microsoft Source, Zugriff am Januar 27, 2026, https://news.microsoft.com/maia-200/
- Microsoft introduces Maia 200: New inference accelerator enhances AI performance in Azure, Zugriff am Januar 27, 2026, https://news.microsoft.com/source/emea/2026/01/microsoft-introduces-maia-200-new-inference-accelerator-enhances-ai-performance-in-azure/
- Microsoft Unveils Maia 200 AI Chip, Accelerating Big Tech Shift from NVIDIA, Zugriff am Januar 27, 2026, https://www.chosun.com/english/industry-en/2026/01/28/WI4HMZJPTNB5HEF2KMHJPGZCDI/
- Microsoft Azure Maia 200 AI Accelerator Unveiled Using TSMC 3nm Process for Inference, Zugriff am Januar 27, 2026, https://www.technetbooks.com/2026/01/microsoft-azure-maia-200-ai-accelerator.html
- Maia 200: The AI accelerator built for inference – The Official Microsoft Blog, Zugriff am Januar 27, 2026, https://blogs.microsoft.com/blog/2026/01/26/maia-200-the-ai-accelerator-built-for-inference/
- The “reasoning” race inside Microsoft’s Maia 200 strategy, Zugriff am Januar 27, 2026, https://techinformed.com/the-reasoning-race-inside-microsofts-maia-200-strategy/
- The New Economics of AI: Balancing Training Costs and Inference Spend – Finout, Zugriff am Januar 27, 2026, https://www.finout.io/blog/the-new-economics-of-ai-balancing-training-costs-and-inference-spend
- Training vs. Inference: The $300B AI Shift Everyone is Missing – Tony Grayson, Zugriff am Januar 27, 2026, https://www.tonygraysonvet.com/post/ai-training-vs-inference
- Microsoft presents MAIA.. The Superintelligence Team has… | by Mohammed Brückner | Jan, 2026, Zugriff am Januar 27, 2026, https://mohammedbrueckner.medium.com/microsoft-presents-maia-f8db779b9ee9
- With a systems approach to chips, Microsoft aims to tailor everything ‘from silicon to service’ to meet AI demand – Source, Zugriff am Januar 27, 2026, https://news.microsoft.com/source/features/ai/in-house-chips-silicon-to-service-to-meet-ai-demand/
- Tensor Processing Unit – Wikipedia, Zugriff am Januar 27, 2026, https://en.wikipedia.org/wiki/Tensor_Processing_Unit
- Announcing Amazon EC2 Trn3 UltraServers for faster, lower-cost generative AI training, Zugriff am Januar 27, 2026, https://aws.amazon.com/about-aws/whats-new/2025/12/amazon-ec2-trn3-ultraservers/
- Microsoft introduces newest in-house AI chip — Maia 200 is faster than other bespoke Nvidia competitors, built on TSMC 3nm with 216GB of HBM3e | Tom’s Hardware, Zugriff am Januar 27, 2026, https://www.tomshardware.com/pc-components/cpus/microsoft-introduces-newest-in-house-ai-chip-maia-200-is-faster-than-other-bespoke-nvidia-competitors-built-on-tsmc-3nm-with-216gb-of-hbm3e
- Microsoft Maia 100 – Glenn K. Lockwood, Zugriff am Januar 27, 2026, https://www.glennklockwood.com/garden/processors/Maia-100
- Microsoft launches its second generation AI inference chip, Maia 200 | Network World, Zugriff am Januar 27, 2026, https://www.networkworld.com/article/4122439/microsoft-launches-its-second-generation-ai-inference-chip-maia-200.html
- Microsoft announces Maia 200, its 2nd-gen AI accelerator for cost …, Zugriff am Januar 27, 2026, https://www.neowin.net/news/microsoft-announces-maia-200-its-2nd-gen-ai-accelerator-for-cost-efficient-inference/
- Microsoft Raises the AI Inference Bar with Maia 200, Zugriff am Januar 27, 2026, https://www.hpcwire.com/2026/01/26/microsoft-raises-the-ai-inference-bar-with-maia-200/
- Zugriff am Januar 27, 2026, https://lambda.ai/blog/lambda-1cc-fp4-nvidia-hgx-b200#:~:text=FP4%20precision%20represents%20numerical%20values,memory%20footprints%20and%20computational%20overhead.
- Microscaling FP4 Quantization – Emergent Mind, Zugriff am Januar 27, 2026, https://www.emergentmind.com/topics/microscaling-fp4-quantization
- liquid cooling heat exchanger units – Microsoft Datacenters, Zugriff am Januar 27, 2026, https://datacenters.microsoft.com/wp-content/uploads/2025/04/Liquid_Cooling_Infographic_FINAL-3.pdf
- Microsoft looks to drive down AI infra costs with Maia 200 – The Register, Zugriff am Januar 27, 2026, https://www.theregister.com/2026/01/26/microsoft_maia_200/
- Maia 200: Microsoft’s 3nm inference accelerator boosts token throughput and cost efficiency, Zugriff am Januar 27, 2026, https://windowsforum.com/threads/maia-200-microsofts-3nm-inference-accelerator-boosts-token-throughput-and-cost-efficiency.399041/
- Deep dive into the Maia 200 architecture | Microsoft Community Hub, Zugriff am Januar 27, 2026, https://techcommunity.microsoft.com/blog/azureinfrastructureblog/deep-dive-into-the-maia-200-architecture/4489312
- Microsoft unveils “Maia 200”: The custom silicon built to break Nvidia’s grip. – Reddit, Zugriff am Januar 27, 2026, https://www.reddit.com/r/planhub/comments/1qnm8wp/microsoft_unveils_maia_200_the_custom_silicon/
- Custom Silicon Titans: Meta and Microsoft Challenge NVIDIA’s Dominance, Zugriff am Januar 27, 2026, https://markets.financialcontent.com/stocks/article/tokenring-2026-1-26-custom-silicon-titans-meta-and-microsoft-challenge-nvidias-dominance
- Does This New Chip Threaten Nvidia? | The Motley Fool, Zugriff am Januar 27, 2026, https://www.fool.com/investing/2026/01/26/does-this-new-chip-threaten-nvidia/
- Inside Maia 100 – Hot Chips 2024 -, Zugriff am Januar 27, 2026, https://hc2024.hotchips.org/assets/program/conference/day2/81_HC2024.Microsoft.Xu.Ramakrishnan.final.v2.pdf
KI-gestützt. Menschlich veredelt.
Martin Käßler ist ein erfahrener Tech-Experte im Bereich AI, Technologie, Energie & Space mit über 15 Jahren Branchenerfahrung. Seine Artikel verbinden fundiertes Fachwissen mit modernster KI-gestützter Recherche- und Produktion. Jeder Beitrag wird von ihm persönlich kuratiert, faktengeprüft und redaktionell verfeinert, um höchste inhaltliche Qualität und maximalen Mehrwert zu garantieren.
Auch bei sorgfältigster Prüfung sehen vier Augen mehr als zwei. Wenn Ihnen ein Patzer aufgefallen ist, der uns entgangen ist, lassen Sie es uns bitte wissen: Unser Postfach ist martinkaessler, gefolgt von einem @ und dem Namen einer bekannten Suchmaschine (also googlemail) mit der Endung .com. Oder besuchen Sie Ihn gerne einfach & direkt auf LinkedIn.




