Intel Clearwater Forest steht sinnbildlich für einen großen Kurswechsel im Rechenzentrum: weg von wenigen, hochgezüchteten Monolith-Kernen – hin zu enormer Kerndichte, konsequenter Effizienz und radikal neuer Verpackungstechnik. Unter dem Seriennamen Xeon 6+ bringt Intel seine zweite reine E-Core-Generation in Stellung. Das Ziel: mehr Leistung pro Watt, mehr VMs pro Rackeinheit und deutlich niedrigere Betriebskosten für Cloud- und Scale-out-Workloads. 
Herzstück ist eine Architektur, die im Wortsinn «geschichtet» ist: bis zu 288 Darkmont-E-Cores auf 12 Compute-Tiles (Intel 18A), verbunden über Foveros Direct 3D und EMIB 2.5D mit drei aktiven Basiskacheln (Intel 3) und zwei I/O-Tiles (Intel 7). Dazu kommen 576 MB Last-Level-Cache auf dem Paket, 288 MB L2 über alle Module, und Speicher/IO auf Steroiden: 12-Kanal-DDR5 bis 8000 MT/s, 96 PCIe 5.0-Lanes, 64 CXL 2.0-Lanes und bis zu 6 UPI-Links mit 24 GT/s. Diese Kombination ist keine Fußnote im Xeon-Stammbaum – sie ist eine neue Klasse.
Warum E-Cores im Rechenzentrum Sinn ergeben
Bereits mit Sierra Forest hat Intel die Xeon-Familie in zwei Linien aufgespalten: P-Core-Modelle für maximale Single-Thread-Spitzen und E-Core-Varianten für breite, gleichmäßige Durchsatzlasten. Genau dort, wo moderne Cloud-Anwendungen leben – Microservices, Web-Frontends, API-Gateways, Datenpipelines, Caches, Stream-Verarbeitung, Telemetrie, Message-Broker und wachsende Anteile an KI-Inference im INT8-Bereich –, zählen nicht 2 % mehr Takt, sondern wie viele Threads man parallel mit akzeptabler Latenz und kleinem Energiebudget bedienen kann. Clearwater Forest setzt diese Logik fort, aber mit weit mehr Reife: neue Kerne, neues Packaging, neue Stromversorgung über die Rückseite des Wafers und ein Cache-/Speicher-Fundament, das Kerndichte in praktische Performance übersetzt.
Das Kachel-Prinzip: Compute, Base und I/O
Im Zentrum des Designs stehen drei «Kachelsorten», die gemeinsam wie ein modulare Baukasten arbeiten:
- Compute-Tiles (Intel 18A): Davon gibt es bis zu zwölf. Jede Compute-Kachel umfasst sechs Module; jedes Modul trägt vier Darkmont-E-Cores. Das ergibt 24 Kerne pro Compute-Tile und im Vollausbau 288 Kerne pro Prozessor.
- Aktive Basiskacheln (Intel 3): Drei Stück, die als «aktiver Si-Interposer» fungieren. Sie beherbergen den großen, geteilten LLC (je 192 MB pro Basiskachel, insgesamt 576 MB), die Speichercontroller sowie die On-Package-Fabrics.
- I/O-Tiles (Intel 7): Zwei Kacheln für Außenanbindung und Offload-Engines: PCIe, CXL, UPI sowie integrierte Beschleuniger wie QAT, DSA, DLB und IAA.
Die Kacheln werden mittels Foveros Direct 3D (Kupfer-zu-Kupfer-Bonding mit ~9 µm Bump Pitch) übereinander und via EMIB 2.5D nebeneinander verbunden. Diese Hybridstrategie liefert kurze, energiearme Verbindungen im 3D-Stack und flexible, hochbandbreitige Bridges in der 2.5D-Ebene – ohne die Nachteile riesiger, teurer Interposer. Der Effekt: Daten bewegen sich mit extrem geringer Energie pro Bit durch den Chipverbund; Bandbreite und Latenz bleiben auch bei hoher Auslastung stabil.
Darkmont im Detail: breiter, tiefer, berechenbarer
Die Darkmont-E-Cores sind eine Server-Optimierung der E-Core-Linie (verwandt mit Skymont aus dem Client-Umfeld, aber deutlich ausgebaut). Architekturische Eckpunkte:
- Breiter Frontend-Zugriff: 9-faches Decode (3×3 Cluster), verbesserte Branch-Prediction mit größeren Fetch-Blöcken (u. a. 128 B Prediction-Block, parallel 96 B Fetch). Ziel ist, uOps konstanter in die Maschine zu speisen, besonders bei verzweigten Microservice-Codes.
- Mehr Out-of-Order-Tiefe: Das OoO-Fenster wächst auf rund 416 Einträge; die uOp-Warteschlange steigt auf etwa 96 Einträge. Allocation/Retire-Breiten werden hochgezogen, sodass mehr Arbeit in-flight gehalten und schneller abgeschlossen werden kann.
- Reiches Port-Array: Bis zu 26 Dispatch-Ports, acht Integer-ALUs, mehrere Load/Store-AGUs und dedizierte Sprungpfade – flankiert von einem gestärkten Vektor-Pfad. Der Fokus liegt auf AVX2 + VNNI inklusive INT8, also genau dort, wo heute viel Inferenzarbeit in der Cloud passiert.
- L2-Clusterung und Bandbreite: 4 MB L2 je 4-Kern-Modul (24 MB pro Compute-Tile; 288 MB L2 gesamt). Die L2-Bandbreite verdoppelt sich gegenüber Crestmont; L1-zu-L1-Transfers zwischen Kernen können über den L2-Weg effizienter erfolgen – das reduziert streckenweise die Abhängigkeit vom übergreifenden Fabric und senkt Jitter.
Unterm Strich nennt Intel einen IPC-Zuwachs von rund 17 % gegenüber Crestmont. Der eigentliche Hebel entsteht aber im Verbund aus Kerndichte, Cache-Fläche, Stromversorgung und Packaging: Viele kleine Optimierungen addieren sich in Hunderten Kernen zu einem spürbar höheren Durchsatz pro Paket und vor allem pro Watt.
18A, RibbonFET und PowerVia: die Prozess-Basis
Clearwater Forest ist die erste High-Volume-Xeon-Familie, die konsequent auf Intel 18A setzt – inklusive der zweiten RibbonFET-Generation (Gate-all-around) und des PowerVia-Ansatzes für Backside Power Delivery. Beides sind keine Buzzwords, sondern Antworten auf sehr konkrete Flaschenhälse:
- RibbonFET: Der Gate umschließt den Kanal vollständig. Das verbessert die elektrostatistische Kontrolle, senkt Leckströme und erlaubt niedrigere Betriebsspannungen. Intel spricht von geringerer Gate-Kapazität, hoher Zelldichte (über 90 % Zellausnutzung) und besseren Signalleitbahnen, weil Stromschienen auf die Rückseite verlagert werden.
- PowerVia: Statt die Stromversorgung mit den Signalmetallen oben zu verflechten, wird sie nach hinten verlegt. Das reduziert Routing-Konflikte, verbessert die Versorgung (weniger IR-Drop) und erhöht die nutzbare Dichte. Intel nennt ~4–5 % geringere Verlustleistung allein durch die neue Stromzufuhr, plus bis zu einige Prozent Iso-Power-Gewinn durch die freigewordenen Top-Metalle.
Zusammen schaffen RibbonFET und PowerVia die elektrische Grundlage, um 288 Kerne mit dicken Caches und kurzen, dichten Interconnects überhaupt stabil zu betreiben – ohne in unhaltbare TDP-Regionen zu rutschen.
Cache, Speicher, I/O: Daten am richtigen Ort
Der LLC mit 576 MB sitzt auf den drei Basiskacheln (je 192 MB) und dient als großer, gemeinsamer Puffer für die Compute-Tiles. Zusammen mit den 288 MB L2 entsteht ein On-Package-Cache-Budget von 864 MB (L3+L2). Für Scale-out-Dienste ist das Gold wert: Hotsets finden häufiger im Paket statt, und der Fabric muss seltener «nach draußen».
Die Speicheranbindung ist breit aufgestellt: 12 DDR5-Kanäle pro Sockel, mit offiziell angepeilten Geschwindigkeiten bis 8000 MT/s (abhängig von Plattform/Bestückung). Die I/O-Tiles liefern bis zu 96 PCIe 5.0-Lanes (x16/x8/x4/x2), bis zu 64 CXL 2.0-Lanes für Memory/Accelerator-Pooling sowie bis zu 6 UPI 2.0-Links mit 24 GT/s pro Lane. Im Dual-Sockel-Betrieb entsteht so reichlich Luft für NVMe-SSDs, schnelle Netzwerkkarten, CXL-Erweiterungen und eine kräftige Sockel-zu-Sockel-Kommunikation.
Foveros Direct 3D + EMIB 2.5D: Verbindung mit niedriger Energie pro Bit
Foveros Direct 3D verschweißt (Cu-zu-Cu) die Compute-Tiles mit den aktiven Basiskacheln bei sehr feinem Bump-Pitch (~9 µm). Ergebnis: hohe Verbindungsdichte, niedriger Widerstand und eine Energie pro Datenbit, die in Richtung femtojoule wandert. EMIB ergänzt dies als seitliche, verlustarme Brücke in 2.5D – flexibel, kosteneffizient und skalierbar. Der Clou ist nicht ein einzelner «dicker Bus», sondern ganz viele, sehr kurze Verbindungen, die zusammengenommen Datenströme mit wenig Störung und geringer Verlustleistung ermöglichen.
Leistungs- und Effizienz-Aussagen
Intel koppelt die Architektur mit klaren Vergleichszahlen zu Sierra Forest:
- Gegenüber Xeon 6780E (144 Kerne, ~330 W) erreicht ein 288-Kern-Clearwater bei ~450 W rund +112,7 % Gesamtleistung und +54,7 % Leistung pro Watt, obwohl sich die TDP nominell erhöht. Entscheidend ist, wie viel Arbeit pro Watt erledigt wird – und hier skaliert Clearwater deutlich besser.
- Gegenüber einer 288-Kern-Sierra-Konfiguration (~500 W) liefert Clearwater bei ~450 W etwa +17 % Performance und +30 % Effizienz pro Watt. Die 18A-Kerne, der Cache und die Interconnects machen den Unterschied.
Für Rechenzentrumsbetreiber übersetzt Intel das in bis zu 8:1 Konsolidierung gegenüber älteren Xeon-Plattformen: weniger Server, weniger Strom, weniger Fläche und geringere Kühlkosten – bei gleicher Servicequalität. Natürlich hängt der Multiplikator vom Workload ab; aber in typischen Cloud-Mustern mit vielen, gut parallelisierbaren Threads sind die Voraussetzungen gegeben.
Plattform, Sockel, Sicherheit
Clearwater Forest setzt auf den bestehenden LGA 7529-Sockel (1S/2S), den auch Granite Rapids AP und Sierra Forest verwenden. Das vereinfacht den Plattform-Rollout bei OEMs und Hyperscalern. Die TDP-Spanne liegt je nach SKU im Bereich ~300–500 W. Im unteren Spektrum sind Modelle mit 144 Kernen geplant, im Vollausbau 288 Kerne. Auf der Feature-Seite stehen Intel SGX und TDX für isolierte Ausführungsumgebungen, sowie Intel AET (Application Energy Telemetry) und ein Turbo Rate Limiter für feinere Energielenkung. Instruktionsseitig ist AVX2 mit VNNI/INT8 an Bord, was die Richtung «Web/Cloud/Inference» unterstreicht.
Workloads, die profitieren – und solche, die es weniger tun
Optimal: Microservices, Container-Orchestrierung (Kubernetes), Web-Frontends, API-Flotten, verteilte Caches (Redis/Memcached), Streaming-Ingestion, Telemetrie, Logging/Tracing-Analyse, Messaging (Kafka/RabbitMQ), Netzwerk-Funktionen (NFV), Edge-Skalierung und KI-Inference mit INT8/VNNI. In all diesen Bereichen sind viele leichtgewichtige Threads typisch; Cache-Trefferhäufigkeit, schmale Vektor-Operationen und «billige» Datenwege zählen mehr als maximale Single-Thread-Linienleistung.
Weniger optimal: HPC-Codes mit AVX-512-Schwerpunkt, extrem latenzkritische, schlecht parallelisierbare Abschnitte oder Workloads, die harte, lange Vektor-Register benötigen. Für diese Felder bleiben P-Core-Xeons oder Hybrid-Varianten die erste Wahl – Clearwater Forest will nicht alles ersetzen, sondern die dichte, effiziente Hälfte des Rechenzentrums dominieren.
Konkurrenz, Ökosystem, Risiken
Der Markt schläft nicht: AMDs EPYC-Familie skaliert bei Kernen, Speicherkanälen und PCIe-Lanes ebenfalls aggressiv und kommt in neueren Generationen mit sehr effizienter Fertigung. ARM-Server-CPUs punkten mit Leistungsaufnahme und Custom-Silicon-Anbindung. Clearwaters Trumpf ist das Paket aus 18A-Transistorik, riesigem On-Package-Cache, 3D + 2.5D-Packaging und einer klaren Ausrichtung auf Cloud-Durchsatz. Ob dieser Mix reicht, entscheidet sich in Benchmarks, beim Preis pro Core/VM und in der Stabilität im 24/7-Betrieb.
Risiken? Vor allem zwei: Fertigung und Packaging. 18A und Foveros Direct/EMIB sind High-End-Techniken, die in Volumen reifen müssen – Ausbeute (Yield), thermomechanische Zuverlässigkeit, Validierung mit Boards/Firmwares, sowie die Integration in Hypervisor-Stacks und Cloud-Orchestrierung. Intel peilt den Marktstart in der zweiten Jahreshälfte 2026 an. Das lässt Spielraum für Feinschliff – aber auch für Konkurrenz, die nicht wartet.
Architektur im Zusammenhang: warum das Ganze mehr ist als die Summe
Clearwater Forest ist nicht «nur» ein Kerndesign. Der eigentliche Fortschritt entsteht aus dem Zusammenspiel:
- Viele, sparsame Kerne (Darkmont) mit guter IPC und breitem Frontend, die in Summe enormen Durchsatz liefern.
- Großer On-Package-Cache, der Heißdaten nahe an hunderte Kerne bringt und SoC-externe Zugriffe reduziert.
- Kurzweg-Interconnects (Foveros Direct 3D/EMIB) mit extrem niedriger Energie pro Bit, die den Traffic zwischen Tiles effizient halten.
- Backside-Power (PowerVia) und RibbonFET, damit all das elektrisch «ruhig» bleibt – sprich: weniger Störfeuer, weniger Drop, mehr nutzbare Dichte.
- Breites I/O und CXL, um externe Speicher/Accelerator-Pools anzubinden und heterogene Workloads zu ermöglichen.
Diese Bausteine adressieren exakt die Engpässe, die der Schritt von «einigen Dutzend» zu «mehreren Hundert» Kernen pro Sockel mit sich bringt. Anders gesagt: Die Architektur ist aus der Last rückwärts gedacht, nicht aus dem Datenblatt vorwärts.
Gegenüberstellung: Sierra Forest vs. Clearwater Forest
| Merkmal | Sierra Forest (Xeon 6, E-Core) | Clearwater Forest (Xeon 6+) |
|---|---|---|
| Core-Architektur | Crestmont | Darkmont |
| Fertigung Kerne / Basis / I/O | Intel 3 / Intel 3 / Intel 7 | Intel 18A / Intel 3 / Intel 7 |
| Max. Kerne pro Sockel | bis 144 (geplante 288-Ableger verworfen) | bis 288 |
| L2-Cache | 4 MB je 4-Kern-Cluster | 4 MB je 4-Kern-Modul; 24 MB/Tile; 288 MB gesamt |
| LLC | bis ~108–216 MB (je nach SKU) | 576 MB (192 MB je Basiskachel) |
| Speicher | bis 12-Kanal DDR5 (typ. DDR5-6400) | 12-Kanal DDR5 bis 8000 MT/s |
| PCIe / CXL | ~88 PCIe 5.0-Lanes / CXL 2.0 | 96 PCIe 5.0-Lanes / 64 CXL 2.0-Lanes |
| UPI-Links | weniger Gesamtlinks | bis 6 × UPI 2.0 @ 24 GT/s |
| Packaging | EMIB 2.5D + Chiplet-Verbund | Foveros Direct 3D + EMIB 2.5D |
| TDP-Rahmen | bis ~330–500 W | ~300–500 W (je SKU) |
| IPC / Effizienz | Referenz | ~+17 % IPC; ~+30–55 % perf/W je Vergleich |
Praxisbeispiele: Was Betreiber erwarten können
Kubernetes-Cluster: Höhere Pod-Dichte pro Node, weniger «Noisy Neighbor» dank großem LLC und stabilen Latenzen. Horizontal skalierte Services profitieren, wenn sie in mehr, aber kleinere CPU-Scheiben zerteilt werden können. E-Cores sind prädestiniert für Sidecars, Proxies, Telemetrie-Agenten und Gateway-Layer.
Inference-Backends: Nicht alles läuft auf GPUs; viele Unternehmen machen Ranking, Personalisierung, Moderation, semantische Suche in INT8 auf CPUs – oft latenzsensitiv und massiv parallel. AVX2+VNNI, großer L3 und kurze Datenwege helfen, QoS-Grenzen einzuhalten, während die Node-Dichte steigt.
Datenpfade und Offload: QAT/DSA/DLB/IAA nehmen «Byte-Schubsen» (Kopie, Kompression, Kryptografie, Puffer-Flüsse, In-Memory-Aggregation) von den Cores. Damit bleiben die E-Cores für Applogik frei, und der Energie-Fußabdruck sinkt.
Thermik und Energie – warum TDP nicht alles ist
Die Nenn-TDPs von 300–500 W mögen hoch wirken, doch entscheidend ist Arbeit pro Watt. Wenn ein 450-W-Clearwater dieselbe Last wie zwei ältere 330-W-Systeme stemmt, reduziert sich die Rechenzentrumssicht auf Gesamtenergie pro Transaktion. Genau hier zielt die Architektur hin: «billige» Bits im Interconnect, geringer Leckstrom durch 18A, dichter Cache für weniger Leitung, Telemetrie und Turbo-Kontrolle, die Peaks zähmen. Für Betreiber zählt am Ende die Rechnung pro Monat – und die fällt bei höherer Dichte meist günstiger aus.
Roadmap und Ausblick
Intel positioniert Clearwater Forest für die zweite Jahreshälfte 2026. Bis dahin dürfte 18A weiter reifen, Foveros-/EMIB-Fertigungen skalieren und die Plattformvalidierung mit großen OEMs/Hyperscalern abgeschlossen sein. Mit Blick auf die Marktmechanik ist zu erwarten, dass die ersten Wellen in definierten Cloud-Flavors landen (Workloads mit klarer Parallelisierbarkeit), während Mischumgebungen sukzessive folgen. Erfolgsfaktor wird sein, wie glatt die ersten Generationen laufen, wie schnell die Toolchains (Hypervisor, Orchestrierung, Telemetrie) feinabgestimmt sind – und wie aggressiv Intel bei Preis/Leistung pro Kern auftritt.
FAQ in Kürze
- Wie viele Kerne? Bis zu 288 Darkmont-E-Cores pro Sockel; 1S/2S-Systeme.
- Wie viel Cache? 576 MB LLC + 288 MB L2 = 864 MB On-Package Cache.
- Speicher & I/O? 12-Kanal DDR5 bis 8000 MT/s, 96 × PCIe 5.0, 64 × CXL 2.0, bis zu 6 × UPI 2.0 @ 24 GT/s.
- Instruktionen? AVX2 + VNNI mit INT8-Support (Fokus auf Inferenz/Cloud).
- Sicherheit? SGX und TDX für isolierte Ausführung; AET & Turbo-Limiter für Power-Kontrolle.
- Wann verfügbar? Geplant H2 2026.
Fazit
Clearwater Forest ist mehr als eine weitere Xeon-Variante. Es ist eine Plattformidee: möglichst viele effizient arbeitende Kerne, eingebettet in ein Cache- und Packaging-Gefüge, das Daten dort hält, wo sie gebraucht werden – nahe an der Recheneinheit. Das Ergebnis ist eine Maschine, die genau die Art von Last liebt, welche moderne Clouds prägt: breit, parallel, skalierbar. Wer heute tausende kleine Anfragen pro Sekunde bedient, wer Microservices in großer Zahl orchestriert oder Inferenz breit über die Flotte verteilt, bekommt mit Xeon 6+ einen Baukasten, der Dichte, Effizienz und Durchsatz miteinander versöhnt. Die Voraussetzungen stimmen: 18A + RibbonFET + PowerVia, Foveros Direct 3D + EMIB, 288 Kerne, großer LLC und ein I/O-Subsystem, das die Außenwelt nicht zum Flaschenhals macht. Bleiben Yield, Validierung und Lieferfähigkeit im Rahmen, dürfte Clearwater Forest die Messlatte für dichte CPU-Compute-Knoten in den kommenden Jahren deutlich höher legen.
4 kommentare
Bitte diesmal ohne Launch-Verschiebung, Intel…
Für Cloud/Inference wirkt das wie ein Sweet Spot. Bin gespannt auf Preise
Kein AVX-512? Für HPC schade, aber fürs Web völlig okay
QAT/DSA ab Werk spart uns etliche Spezialkarten im Rack