KI-Rechenzentren werden gerade leise, aber grundlegend umgebaut. Modelle werden größer, Strombudgets härter, und die Frage ist nicht mehr nur: Wie viel reine Rechenleistung steht im Rack? Sondern: Wie viel nutzbare Intelligenz bekomme ich pro Watt. 
Genau hier setzt die vertiefte Partnerschaft zwischen Arm Neoverse und NVIDIA mit NVLink Fusion an. Die beiden wollen ganze Schränke voller CPUs, GPUs und Spezialbeschleuniger wie ein einziges, eng verzahntes KI-System aussehen lassen – statt wie einen Haufen lose verkabelter Bausteine.
Arm Neoverse hat sich in den letzten Jahren leise zum Standardbaustein für effiziente Cloud-Compute gemausert. Hyperscaler wie AWS, Google, Microsoft, Oracle und Meta setzen längst auf eigene oder angepasste Arm-Server, weil sie eine bessere Performance-pro-Watt-Bilanz liefern als viele klassische x86-Designs. Milliarden Neoverse-Kerne sind bereits im Einsatz, und Arm traut sich zu, bis Mitte des Jahrzehnts einen satten Anteil am Hyperscaler-Markt zu halten. Kurz: Wer große KI-Lasten mit halbwegs vernünftiger Stromrechnung betreiben will, kommt an Arm kaum noch vorbei.
Von Grace Hopper zu NVLink Fusion im ganzen Rack
NVIDIA wiederum hat mit der Grace-Hopper-Plattform gezeigt, wie eng CPU und GPU zusammenrücken können, wenn man sie nicht mehr über eine überlastete PCIe-Leitung quetscht. NVLink sorgte dort für eine kohärente, extrem breitbandige Verbindung, bei der CPU und GPU sich Speicher und Daten deutlich direkter teilen. Das Ergebnis: weniger Leerlauf, weniger Warten auf Daten, mehr echte Rechenarbeit pro Sekunde.
NVLink Fusion ist die nächste Evolutionsstufe dieser Idee, aber hochskaliert auf Racks statt nur auf einzelne Boards. Ziel ist, Arm-Neoverse-CPUs, NVIDIA-GPUs und andere Beschleuniger über einen gemeinsamen, kohärenten Stoff zu verbinden, der sich wie eine große, logische Maschine verhält. Anstatt: CPU hier, GPU-Cluster dort, dazwischen Engpässe – soll das gesamte System wie ein durchgängiges Hochgeschwindigkeitsnetz wirken. Das ist vor allem für KI-Workloads spannend, bei denen massiv parallel gerechnet wird und jede Millisekunde Speicherzugriff zählt.
Das Besondere: NVLink Fusion ist nicht nur für NVIDIAs eigene Plattformen reserviert. Wer sein eigenes Arm-SoC entwickelt oder Neoverse-IP lizenziert, kann das Design so auslegen, dass es direkt in die NVLink-Welt passt. Damit öffnet sich ein Weg, kundenspezifische Arm-CPUs mit NVIDIA-GPUs oder auch gemischten Beschleuniger-Setups zu kombinieren, ohne jedes Mal ein proprietäres Interconnect-Abenteuer starten zu müssen.
AMBA CHI C2C – der wenig glamouröse, aber entscheidende Baustein
Technisch basiert das Ganze auf AMBA CHI C2C, einem von Arm entwickelten Protokoll für kohärente Chip-to-Chip-Verbindungen. Es regelt, wie mehrere Chips sich einen gemeinsamen Adressraum und Caches teilen, ohne dass ständig Kopien hin- und hergeschoben werden müssen. NVLink Fusion wurde gezielt so gebaut, dass es mit der neuesten CHI-C2C-Version zusammenspielt. Arm rüstet die Neoverse-Plattform entsprechend aus, sodass Neoverse-basierte SoCs über diesen Weg nahtlos mit Beschleunigern sprechen können.
Für Systemdesigner heißt das: weniger Speziallösungen, weniger Glue-Logic, weniger Risiko, sich in einer exotischen Eigenkonstruktion zu verrennen. Stattdessen gibt es ein klar beschriebenes Fundament, auf dem sich ganze KI-Serverfamilien bauen lassen – mit deutlich höherer Speicherbandbreite und niedrigeren Latenzen als klassische PCIe-only-Designs. Der Nebeneffekt: Produkte kommen schneller auf den Markt, weil nicht jeder Hersteller die Coherency-Frage zum dritten Mal neu erfinden muss.
Intelligenz pro Watt statt nur FLOPS pro Rack
Arm und NVIDIA sprechen gerne von Intelligenz pro Watt, und das ist mehr als nur eine hübsche Formulierung für Präsentationen. Rechenzentren stoßen vielerorts an harte Energiegrenzen: Trafolimits, Kühlung, CO₂-Budgets. Ein weiterer Satz besonders hungriger GPUs reicht eben nicht mehr, wenn die Infrastruktur schon am Anschlag läuft. Gefragt sind Architekturen, die aus jedem Watt deutlich mehr nützliche Arbeit herauspressen.
Hier spielt die Arm-DNA mit ihrer Effizienz eine zentrale Rolle. Neoverse-Kerne übernehmen Orchestrierung, Scheduling und Vorverarbeitung, während GPU- und KI-Beschleuniger die schweren Matrizen stemmen. Wenn diese Komponenten über NVLink Fusion und CHI C2C kohärent gekoppelt sind, werden unnötige Kopien, teure Speicherhops und idle Zeiten minimiert. Die teuren Beschleuniger verbringen mehr Zeit mit Rechnen und weniger mit Warten – und genau das ist in der Praxis oft der Unterschied zwischen einem schönen Benchmark-Wert und einem wirklich wirtschaftlichen System.
Zwischen Hype, Misstrauen und der Fabel vom Skorpion
Natürlich ist nicht jede Reaktion auf die engere Arm-NVIDIA-Allianz euphorisch. In Foren und Kommentarspalten taucht schnell die Fabel vom Frosch und dem Skorpion auf: Egal wie freundlich der Deal wirkt, am Ende sticht der Skorpion, weil es seiner Natur entspricht. Übertragen heißt das: Einige Beobachter fürchten, dass aus der heute als offen vermarkteten Interconnect-Strategie schleichend ein lock-in in Richtung eines einzigen Herstellers wird.
Hinzu kommt, dass der aktuelle Arm-Chef aus dem NVIDIA-Lager stammt und Arm zuletzt mit härteren Lizenzbedingungen von sich reden machte. Kritiker sehen darin einen roten Faden: Die gescheiterte Übernahme sei zwar formal abgewendet, faktisch habe NVIDIA aber dennoch starken Einfluss gewonnen. Wenn der leistungsfähigste und einfachste Weg für Arm-Server dauerhaft über NVLink und NVIDIA-Hardware führt, könnte es für kleinere oder alternative Beschleuniger-Hersteller eng werden.
Andere halten dagegen und argumentieren pragmatisch: Die KI-Welle sei so gewaltig, dass ohne große Allianzen gar nichts mehr gehe. Wenn es einen halbwegs standardisierten Weg gibt, Arm-CPUs, GPU-Farmen und spezialisierte Chips zu kombinieren, profitiere am Ende die ganze Branche. Und man dürfe nicht vergessen: Egal, was ein großer Player macht, ein Teil der Community wird es immer als Verrat am offenen Ökosystem lesen.
Ein nüchterner Blick auf eine heiße Partnerschaft
Unterm Strich ist NVLink Fusion auf Neoverse weniger ein romantisches Bündnis als eine nüchterne Antwort auf sehr reale Skalierungsprobleme. Hyperscaler wollen flexibel mischen können: eigene Arm-CPUs, NVIDIA-GPUs, vielleicht noch selbst entwickelte KI-ASICs – alles in einem Rack, alles möglichst kohärent verbunden. Die Kombination aus Neoverse, CHI C2C und NVLink Fusion liefert dafür ein Baukastensystem, das viele dieser Wünsche adressiert.
In der nahen Zukunft werden Systeme auf Grace-Blackwell-Basis wohl als Schaufenster dienen, was diese Technik im Zusammenspiel leisten kann. Spannend wird aber vor allem, wie viele Drittanbieter sich tatsächlich auf diesen Interconnect-Zug setzen – und ob Arm es schafft, den Spagat aus enger Zusammenarbeit mit NVIDIA und echter Wahlfreiheit für das Ökosystem glaubhaft hinzubekommen.
Eines ist jedenfalls klar: Die Zeit der simplen, monolithischen Serverarchitektur ist im KI-Zeitalter vorbei. Racks werden zu komplexen, aber immer stärker integrierten Organismen. Und die Achse Arm Neoverse plus NVIDIA NVLink Fusion hat beste Chancen, zu einem der zentralen Nervensysteme dieser neuen Maschinen zu werden – sehr zur Freude manchen Rechenzentrumsbetreibers und zum Unbehagen derjenigen, die Machtkonzentration in der Halbleiterwelt mit wachsender Skepsis beobachten.