Startseite » Nicht kategorisiert » Clearwater Forest (Xeon 6+): Intels dichte E-Core-Plattform im Detail

Clearwater Forest (Xeon 6+): Intels dichte E-Core-Plattform im Detail

von ytools
4 kommentare 2 ansichten

Intel Clearwater Forest steht sinnbildlich für einen großen Kurswechsel im Rechenzentrum: weg von wenigen, hochgezüchteten Monolith-Kernen – hin zu enormer Kerndichte, konsequenter Effizienz und radikal neuer Verpackungstechnik. Unter dem Seriennamen Xeon 6+ bringt Intel seine zweite reine E-Core-Generation in Stellung. Das Ziel: mehr Leistung pro Watt, mehr VMs pro Rackeinheit und deutlich niedrigere Betriebskosten für Cloud- und Scale-out-Workloads.
Clearwater Forest (Xeon 6+): Intels dichte E-Core-Plattform im Detail
Herzstück ist eine Architektur, die im Wortsinn «geschichtet» ist: bis zu 288 Darkmont-E-Cores auf 12 Compute-Tiles (Intel 18A), verbunden über Foveros Direct 3D und EMIB 2.5D mit drei aktiven Basiskacheln (Intel 3) und zwei I/O-Tiles (Intel 7). Dazu kommen 576 MB Last-Level-Cache auf dem Paket, 288 MB L2 über alle Module, und Speicher/IO auf Steroiden: 12-Kanal-DDR5 bis 8000 MT/s, 96 PCIe 5.0-Lanes, 64 CXL 2.0-Lanes und bis zu 6 UPI-Links mit 24 GT/s. Diese Kombination ist keine Fußnote im Xeon-Stammbaum – sie ist eine neue Klasse.

Warum E-Cores im Rechenzentrum Sinn ergeben

Bereits mit Sierra Forest hat Intel die Xeon-Familie in zwei Linien aufgespalten: P-Core-Modelle für maximale Single-Thread-Spitzen und E-Core-Varianten für breite, gleichmäßige Durchsatzlasten. Genau dort, wo moderne Cloud-Anwendungen leben – Microservices, Web-Frontends, API-Gateways, Datenpipelines, Caches, Stream-Verarbeitung, Telemetrie, Message-Broker und wachsende Anteile an KI-Inference im INT8-Bereich –, zählen nicht 2 % mehr Takt, sondern wie viele Threads man parallel mit akzeptabler Latenz und kleinem Energiebudget bedienen kann. Clearwater Forest setzt diese Logik fort, aber mit weit mehr Reife: neue Kerne, neues Packaging, neue Stromversorgung über die Rückseite des Wafers und ein Cache-/Speicher-Fundament, das Kerndichte in praktische Performance übersetzt.

Das Kachel-Prinzip: Compute, Base und I/O

Im Zentrum des Designs stehen drei «Kachelsorten», die gemeinsam wie ein modulare Baukasten arbeiten:

  • Compute-Tiles (Intel 18A): Davon gibt es bis zu zwölf. Jede Compute-Kachel umfasst sechs Module; jedes Modul trägt vier Darkmont-E-Cores. Das ergibt 24 Kerne pro Compute-Tile und im Vollausbau 288 Kerne pro Prozessor.
  • Aktive Basiskacheln (Intel 3): Drei Stück, die als «aktiver Si-Interposer» fungieren. Sie beherbergen den großen, geteilten LLC (je 192 MB pro Basiskachel, insgesamt 576 MB), die Speichercontroller sowie die On-Package-Fabrics.
  • I/O-Tiles (Intel 7): Zwei Kacheln für Außenanbindung und Offload-Engines: PCIe, CXL, UPI sowie integrierte Beschleuniger wie QAT, DSA, DLB und IAA.

Die Kacheln werden mittels Foveros Direct 3D (Kupfer-zu-Kupfer-Bonding mit ~9 µm Bump Pitch) übereinander und via EMIB 2.5D nebeneinander verbunden. Diese Hybridstrategie liefert kurze, energiearme Verbindungen im 3D-Stack und flexible, hochbandbreitige Bridges in der 2.5D-Ebene – ohne die Nachteile riesiger, teurer Interposer. Der Effekt: Daten bewegen sich mit extrem geringer Energie pro Bit durch den Chipverbund; Bandbreite und Latenz bleiben auch bei hoher Auslastung stabil.

Darkmont im Detail: breiter, tiefer, berechenbarer

Die Darkmont-E-Cores sind eine Server-Optimierung der E-Core-Linie (verwandt mit Skymont aus dem Client-Umfeld, aber deutlich ausgebaut). Architekturische Eckpunkte:

  • Breiter Frontend-Zugriff: 9-faches Decode (3×3 Cluster), verbesserte Branch-Prediction mit größeren Fetch-Blöcken (u. a. 128 B Prediction-Block, parallel 96 B Fetch). Ziel ist, uOps konstanter in die Maschine zu speisen, besonders bei verzweigten Microservice-Codes.
  • Mehr Out-of-Order-Tiefe: Das OoO-Fenster wächst auf rund 416 Einträge; die uOp-Warteschlange steigt auf etwa 96 Einträge. Allocation/Retire-Breiten werden hochgezogen, sodass mehr Arbeit in-flight gehalten und schneller abgeschlossen werden kann.
  • Reiches Port-Array: Bis zu 26 Dispatch-Ports, acht Integer-ALUs, mehrere Load/Store-AGUs und dedizierte Sprungpfade – flankiert von einem gestärkten Vektor-Pfad. Der Fokus liegt auf AVX2 + VNNI inklusive INT8, also genau dort, wo heute viel Inferenzarbeit in der Cloud passiert.
  • L2-Clusterung und Bandbreite: 4 MB L2 je 4-Kern-Modul (24 MB pro Compute-Tile; 288 MB L2 gesamt). Die L2-Bandbreite verdoppelt sich gegenüber Crestmont; L1-zu-L1-Transfers zwischen Kernen können über den L2-Weg effizienter erfolgen – das reduziert streckenweise die Abhängigkeit vom übergreifenden Fabric und senkt Jitter.

Unterm Strich nennt Intel einen IPC-Zuwachs von rund 17 % gegenüber Crestmont. Der eigentliche Hebel entsteht aber im Verbund aus Kerndichte, Cache-Fläche, Stromversorgung und Packaging: Viele kleine Optimierungen addieren sich in Hunderten Kernen zu einem spürbar höheren Durchsatz pro Paket und vor allem pro Watt.

18A, RibbonFET und PowerVia: die Prozess-Basis

Clearwater Forest ist die erste High-Volume-Xeon-Familie, die konsequent auf Intel 18A setzt – inklusive der zweiten RibbonFET-Generation (Gate-all-around) und des PowerVia-Ansatzes für Backside Power Delivery. Beides sind keine Buzzwords, sondern Antworten auf sehr konkrete Flaschenhälse:

  • RibbonFET: Der Gate umschließt den Kanal vollständig. Das verbessert die elektrostatistische Kontrolle, senkt Leckströme und erlaubt niedrigere Betriebsspannungen. Intel spricht von geringerer Gate-Kapazität, hoher Zelldichte (über 90 % Zellausnutzung) und besseren Signalleitbahnen, weil Stromschienen auf die Rückseite verlagert werden.
  • PowerVia: Statt die Stromversorgung mit den Signalmetallen oben zu verflechten, wird sie nach hinten verlegt. Das reduziert Routing-Konflikte, verbessert die Versorgung (weniger IR-Drop) und erhöht die nutzbare Dichte. Intel nennt ~4–5 % geringere Verlustleistung allein durch die neue Stromzufuhr, plus bis zu einige Prozent Iso-Power-Gewinn durch die freigewordenen Top-Metalle.

Zusammen schaffen RibbonFET und PowerVia die elektrische Grundlage, um 288 Kerne mit dicken Caches und kurzen, dichten Interconnects überhaupt stabil zu betreiben – ohne in unhaltbare TDP-Regionen zu rutschen.

Cache, Speicher, I/O: Daten am richtigen Ort

Der LLC mit 576 MB sitzt auf den drei Basiskacheln (je 192 MB) und dient als großer, gemeinsamer Puffer für die Compute-Tiles. Zusammen mit den 288 MB L2 entsteht ein On-Package-Cache-Budget von 864 MB (L3+L2). Für Scale-out-Dienste ist das Gold wert: Hotsets finden häufiger im Paket statt, und der Fabric muss seltener «nach draußen».

Die Speicheranbindung ist breit aufgestellt: 12 DDR5-Kanäle pro Sockel, mit offiziell angepeilten Geschwindigkeiten bis 8000 MT/s (abhängig von Plattform/Bestückung). Die I/O-Tiles liefern bis zu 96 PCIe 5.0-Lanes (x16/x8/x4/x2), bis zu 64 CXL 2.0-Lanes für Memory/Accelerator-Pooling sowie bis zu 6 UPI 2.0-Links mit 24 GT/s pro Lane. Im Dual-Sockel-Betrieb entsteht so reichlich Luft für NVMe-SSDs, schnelle Netzwerkkarten, CXL-Erweiterungen und eine kräftige Sockel-zu-Sockel-Kommunikation.

Foveros Direct 3D + EMIB 2.5D: Verbindung mit niedriger Energie pro Bit

Foveros Direct 3D verschweißt (Cu-zu-Cu) die Compute-Tiles mit den aktiven Basiskacheln bei sehr feinem Bump-Pitch (~9 µm). Ergebnis: hohe Verbindungsdichte, niedriger Widerstand und eine Energie pro Datenbit, die in Richtung femtojoule wandert. EMIB ergänzt dies als seitliche, verlustarme Brücke in 2.5D – flexibel, kosteneffizient und skalierbar. Der Clou ist nicht ein einzelner «dicker Bus», sondern ganz viele, sehr kurze Verbindungen, die zusammengenommen Datenströme mit wenig Störung und geringer Verlustleistung ermöglichen.

Leistungs- und Effizienz-Aussagen

Intel koppelt die Architektur mit klaren Vergleichszahlen zu Sierra Forest:

  • Gegenüber Xeon 6780E (144 Kerne, ~330 W) erreicht ein 288-Kern-Clearwater bei ~450 W rund +112,7 % Gesamtleistung und +54,7 % Leistung pro Watt, obwohl sich die TDP nominell erhöht. Entscheidend ist, wie viel Arbeit pro Watt erledigt wird – und hier skaliert Clearwater deutlich besser.
  • Gegenüber einer 288-Kern-Sierra-Konfiguration (~500 W) liefert Clearwater bei ~450 W etwa +17 % Performance und +30 % Effizienz pro Watt. Die 18A-Kerne, der Cache und die Interconnects machen den Unterschied.

Für Rechenzentrumsbetreiber übersetzt Intel das in bis zu 8:1 Konsolidierung gegenüber älteren Xeon-Plattformen: weniger Server, weniger Strom, weniger Fläche und geringere Kühlkosten – bei gleicher Servicequalität. Natürlich hängt der Multiplikator vom Workload ab; aber in typischen Cloud-Mustern mit vielen, gut parallelisierbaren Threads sind die Voraussetzungen gegeben.

Plattform, Sockel, Sicherheit

Clearwater Forest setzt auf den bestehenden LGA 7529-Sockel (1S/2S), den auch Granite Rapids AP und Sierra Forest verwenden. Das vereinfacht den Plattform-Rollout bei OEMs und Hyperscalern. Die TDP-Spanne liegt je nach SKU im Bereich ~300–500 W. Im unteren Spektrum sind Modelle mit 144 Kernen geplant, im Vollausbau 288 Kerne. Auf der Feature-Seite stehen Intel SGX und TDX für isolierte Ausführungsumgebungen, sowie Intel AET (Application Energy Telemetry) und ein Turbo Rate Limiter für feinere Energielenkung. Instruktionsseitig ist AVX2 mit VNNI/INT8 an Bord, was die Richtung «Web/Cloud/Inference» unterstreicht.

Workloads, die profitieren – und solche, die es weniger tun

Optimal: Microservices, Container-Orchestrierung (Kubernetes), Web-Frontends, API-Flotten, verteilte Caches (Redis/Memcached), Streaming-Ingestion, Telemetrie, Logging/Tracing-Analyse, Messaging (Kafka/RabbitMQ), Netzwerk-Funktionen (NFV), Edge-Skalierung und KI-Inference mit INT8/VNNI. In all diesen Bereichen sind viele leichtgewichtige Threads typisch; Cache-Trefferhäufigkeit, schmale Vektor-Operationen und «billige» Datenwege zählen mehr als maximale Single-Thread-Linienleistung.

Weniger optimal: HPC-Codes mit AVX-512-Schwerpunkt, extrem latenzkritische, schlecht parallelisierbare Abschnitte oder Workloads, die harte, lange Vektor-Register benötigen. Für diese Felder bleiben P-Core-Xeons oder Hybrid-Varianten die erste Wahl – Clearwater Forest will nicht alles ersetzen, sondern die dichte, effiziente Hälfte des Rechenzentrums dominieren.

Konkurrenz, Ökosystem, Risiken

Der Markt schläft nicht: AMDs EPYC-Familie skaliert bei Kernen, Speicherkanälen und PCIe-Lanes ebenfalls aggressiv und kommt in neueren Generationen mit sehr effizienter Fertigung. ARM-Server-CPUs punkten mit Leistungsaufnahme und Custom-Silicon-Anbindung. Clearwaters Trumpf ist das Paket aus 18A-Transistorik, riesigem On-Package-Cache, 3D + 2.5D-Packaging und einer klaren Ausrichtung auf Cloud-Durchsatz. Ob dieser Mix reicht, entscheidet sich in Benchmarks, beim Preis pro Core/VM und in der Stabilität im 24/7-Betrieb.

Risiken? Vor allem zwei: Fertigung und Packaging. 18A und Foveros Direct/EMIB sind High-End-Techniken, die in Volumen reifen müssen – Ausbeute (Yield), thermomechanische Zuverlässigkeit, Validierung mit Boards/Firmwares, sowie die Integration in Hypervisor-Stacks und Cloud-Orchestrierung. Intel peilt den Marktstart in der zweiten Jahreshälfte 2026 an. Das lässt Spielraum für Feinschliff – aber auch für Konkurrenz, die nicht wartet.

Architektur im Zusammenhang: warum das Ganze mehr ist als die Summe

Clearwater Forest ist nicht «nur» ein Kerndesign. Der eigentliche Fortschritt entsteht aus dem Zusammenspiel:

  • Viele, sparsame Kerne (Darkmont) mit guter IPC und breitem Frontend, die in Summe enormen Durchsatz liefern.
  • Großer On-Package-Cache, der Heißdaten nahe an hunderte Kerne bringt und SoC-externe Zugriffe reduziert.
  • Kurzweg-Interconnects (Foveros Direct 3D/EMIB) mit extrem niedriger Energie pro Bit, die den Traffic zwischen Tiles effizient halten.
  • Backside-Power (PowerVia) und RibbonFET, damit all das elektrisch «ruhig» bleibt – sprich: weniger Störfeuer, weniger Drop, mehr nutzbare Dichte.
  • Breites I/O und CXL, um externe Speicher/Accelerator-Pools anzubinden und heterogene Workloads zu ermöglichen.

Diese Bausteine adressieren exakt die Engpässe, die der Schritt von «einigen Dutzend» zu «mehreren Hundert» Kernen pro Sockel mit sich bringt. Anders gesagt: Die Architektur ist aus der Last rückwärts gedacht, nicht aus dem Datenblatt vorwärts.

Gegenüberstellung: Sierra Forest vs. Clearwater Forest

Merkmal Sierra Forest (Xeon 6, E-Core) Clearwater Forest (Xeon 6+)
Core-Architektur Crestmont Darkmont
Fertigung Kerne / Basis / I/O Intel 3 / Intel 3 / Intel 7 Intel 18A / Intel 3 / Intel 7
Max. Kerne pro Sockel bis 144 (geplante 288-Ableger verworfen) bis 288
L2-Cache 4 MB je 4-Kern-Cluster 4 MB je 4-Kern-Modul; 24 MB/Tile; 288 MB gesamt
LLC bis ~108–216 MB (je nach SKU) 576 MB (192 MB je Basiskachel)
Speicher bis 12-Kanal DDR5 (typ. DDR5-6400) 12-Kanal DDR5 bis 8000 MT/s
PCIe / CXL ~88 PCIe 5.0-Lanes / CXL 2.0 96 PCIe 5.0-Lanes / 64 CXL 2.0-Lanes
UPI-Links weniger Gesamtlinks bis 6 × UPI 2.0 @ 24 GT/s
Packaging EMIB 2.5D + Chiplet-Verbund Foveros Direct 3D + EMIB 2.5D
TDP-Rahmen bis ~330–500 W ~300–500 W (je SKU)
IPC / Effizienz Referenz ~+17 % IPC; ~+30–55 % perf/W je Vergleich

Praxisbeispiele: Was Betreiber erwarten können

Kubernetes-Cluster: Höhere Pod-Dichte pro Node, weniger «Noisy Neighbor» dank großem LLC und stabilen Latenzen. Horizontal skalierte Services profitieren, wenn sie in mehr, aber kleinere CPU-Scheiben zerteilt werden können. E-Cores sind prädestiniert für Sidecars, Proxies, Telemetrie-Agenten und Gateway-Layer.

Inference-Backends: Nicht alles läuft auf GPUs; viele Unternehmen machen Ranking, Personalisierung, Moderation, semantische Suche in INT8 auf CPUs – oft latenzsensitiv und massiv parallel. AVX2+VNNI, großer L3 und kurze Datenwege helfen, QoS-Grenzen einzuhalten, während die Node-Dichte steigt.

Datenpfade und Offload: QAT/DSA/DLB/IAA nehmen «Byte-Schubsen» (Kopie, Kompression, Kryptografie, Puffer-Flüsse, In-Memory-Aggregation) von den Cores. Damit bleiben die E-Cores für Applogik frei, und der Energie-Fußabdruck sinkt.

Thermik und Energie – warum TDP nicht alles ist

Die Nenn-TDPs von 300–500 W mögen hoch wirken, doch entscheidend ist Arbeit pro Watt. Wenn ein 450-W-Clearwater dieselbe Last wie zwei ältere 330-W-Systeme stemmt, reduziert sich die Rechenzentrumssicht auf Gesamtenergie pro Transaktion. Genau hier zielt die Architektur hin: «billige» Bits im Interconnect, geringer Leckstrom durch 18A, dichter Cache für weniger Leitung, Telemetrie und Turbo-Kontrolle, die Peaks zähmen. Für Betreiber zählt am Ende die Rechnung pro Monat – und die fällt bei höherer Dichte meist günstiger aus.

Roadmap und Ausblick

Intel positioniert Clearwater Forest für die zweite Jahreshälfte 2026. Bis dahin dürfte 18A weiter reifen, Foveros-/EMIB-Fertigungen skalieren und die Plattformvalidierung mit großen OEMs/Hyperscalern abgeschlossen sein. Mit Blick auf die Marktmechanik ist zu erwarten, dass die ersten Wellen in definierten Cloud-Flavors landen (Workloads mit klarer Parallelisierbarkeit), während Mischumgebungen sukzessive folgen. Erfolgsfaktor wird sein, wie glatt die ersten Generationen laufen, wie schnell die Toolchains (Hypervisor, Orchestrierung, Telemetrie) feinabgestimmt sind – und wie aggressiv Intel bei Preis/Leistung pro Kern auftritt.

FAQ in Kürze

  • Wie viele Kerne? Bis zu 288 Darkmont-E-Cores pro Sockel; 1S/2S-Systeme.
  • Wie viel Cache? 576 MB LLC + 288 MB L2 = 864 MB On-Package Cache.
  • Speicher & I/O? 12-Kanal DDR5 bis 8000 MT/s, 96 × PCIe 5.0, 64 × CXL 2.0, bis zu 6 × UPI 2.0 @ 24 GT/s.
  • Instruktionen? AVX2 + VNNI mit INT8-Support (Fokus auf Inferenz/Cloud).
  • Sicherheit? SGX und TDX für isolierte Ausführung; AET & Turbo-Limiter für Power-Kontrolle.
  • Wann verfügbar? Geplant H2 2026.

Fazit

Clearwater Forest ist mehr als eine weitere Xeon-Variante. Es ist eine Plattformidee: möglichst viele effizient arbeitende Kerne, eingebettet in ein Cache- und Packaging-Gefüge, das Daten dort hält, wo sie gebraucht werden – nahe an der Recheneinheit. Das Ergebnis ist eine Maschine, die genau die Art von Last liebt, welche moderne Clouds prägt: breit, parallel, skalierbar. Wer heute tausende kleine Anfragen pro Sekunde bedient, wer Microservices in großer Zahl orchestriert oder Inferenz breit über die Flotte verteilt, bekommt mit Xeon 6+ einen Baukasten, der Dichte, Effizienz und Durchsatz miteinander versöhnt. Die Voraussetzungen stimmen: 18A + RibbonFET + PowerVia, Foveros Direct 3D + EMIB, 288 Kerne, großer LLC und ein I/O-Subsystem, das die Außenwelt nicht zum Flaschenhals macht. Bleiben Yield, Validierung und Lieferfähigkeit im Rahmen, dürfte Clearwater Forest die Messlatte für dichte CPU-Compute-Knoten in den kommenden Jahren deutlich höher legen.

Das könnte Ihnen auch gefallen

4 kommentare

DevDude007 October 25, 2025 - 1:36 pm

Bitte diesmal ohne Launch-Verschiebung, Intel…

Antworten
Speculator3000 October 29, 2025 - 5:06 am

Für Cloud/Inference wirkt das wie ein Sweet Spot. Bin gespannt auf Preise

Antworten
CyberClown November 21, 2025 - 12:13 pm

Kein AVX-512? Für HPC schade, aber fürs Web völlig okay

Antworten
Byter November 23, 2025 - 12:44 pm

QAT/DSA ab Werk spart uns etliche Spezialkarten im Rack

Antworten

Einen Kommentar hinterlassen