Den Deckel von Intels Multichip Cascade Lake aufhebeln

Stellen Sie sich für eine Sekunde vor, Sie wären Intel.

Die wenigen Server-CPU-Hersteller, die noch auf dem Markt sind – AMD, IBM, Marvell und Ampere – haben mehr Speichercontroller in ihren Sockeln als Sie. Sie alle arbeiten an 7-Nanometer-Chips, die viele Kerne auf dem Chip unterbringen werden. Ihr 10-Nanometer-Prozess zum Ätzen von Chips, der der 7-Nanometer-Technologie entspricht, die von Taiwan Semiconductor Manufacturing Corp. angeboten und von drei dieser Anbieter (nicht IBM, die sich an Samsung angeschlossen hat) verwendet wird, liegt hinter dem Zeitplan zurück und hat einiges verschüttet Ihre Roadmap auf dem Weg durch das Seenland. Aber das Geschäft der Data Center Group boomt, auch wenn Hyperscaler und Cloud-Builder im vierten Quartal 2018 tatsächlich auf die Bremse getreten sind. Und es ist noch ein weiter Weg bis zur ersten Hälfte des Jahres 2020, wenn die „Ice Lake“-Xeon-SPs auf den Markt kommen hochfahren.

Was machst du?

Du machst das Beste daraus. Sie optimieren die Skylake-Architektur auf verschiedene Weise und in schneller Folge, um die Kunden in Bewegung zu halten. Genau das hat Intel heute mit seinen Cascade-Lake-Chips getan, worüber wir hier ausführlich berichtet haben. Intel nutzte einen verfeinerten 14-Nanometer-Prozess, um etwas mehr Taktgeschwindigkeit aus den Skylake-Kernen herauszuholen, fügte einige neue DL-Boost-Anweisungen hinzu, um die Inferenz durch maschinelles Lernen zu beschleunigen, beseitigte einige Sicherheitslücken aufgrund der spekulativen Ausführungsschwachstellen Spectre/Meltdown/Foreshadow und rüttelte der SKU-Stack, so dass ein Cascade Lake Xeon SP zu einem bestimmten Preis ein paar Kerne mehr für die ursprünglichen Skylake Xeon SP-Chips hatte, die vor fast zwei Jahren auf den Markt kamen.

Bei dieser Strategie gibt es jedoch nur ein Problem. Intel kann nicht von Leistungsführerschaft sprechen, wenn es nur das tut, was oben beschrieben wurde. Intel braucht etwas mehr. Genau wie AMD es vor einem Jahrzehnt mit dem Opteron 6100 tat, als Intel mit den „Nehalem“-Xeons, den Vorfahren der aktuellen Cascade Lakes, auf dem Vormarsch war. AMD platzierte zwei Sechs-Kern-Chips auf einem Chip und verfügte über einen Chipsatz, der auf acht Sockel skaliert werden konnte, und erstellte einen physischen Quad-Socket-Server aus acht Prozessoren, die über seine HyperTransport-NUMA-Verbindung logisch verbunden waren.

Damals hat AMD die Chips in einem Sockel verdoppelt, um ein Leistungs-Statement zu setzen, und Intel macht es jetzt. Mit dem Cascade Lake-AP-Prozessor koppelt Intel vier Cascade Lake-Chips mithilfe von UltraPath Interconnect, seinem eigenen NUMA-Kleber, kreuzweise und verpackt sie so, dass diese logische Maschine mit vier Sockeln wie ein physischer Server mit zwei Sockeln und monströsen Chips aussieht. Durch die Unterbringung von bis zu 56 Kernen in einem oberflächenmontierten Single-Ball-Grid-Array-Gehäuse (BGA) kann Intel vor der Markteinführung des Epyc-Serverprozessors „Rome“ von AMD immer noch von einer Leistungsführerschaft und vielleicht sogar einem angemessenen Preis-Leistungs-Verhältnis bei einem Zwei-Sockel-Gerät sprechen. was im Juni erwartet wird, wenn der Scuttlebutt stimmt.

Mit der Xeon SP 9200 Platinum-Prozessorserie, wie die Cascade Lake-AP-Chips offiziell genannt werden, sammelt Intel ein wenig Erfahrung im Design und der Herstellung von Multichip-Modulen, was gut ist und vielleicht eine Vorschau darauf ist, wie sich die Dinge letztendlich entwickeln werden in nicht allzu ferner Zukunft erledigt werden. Die Herstellung massiver monolithischer Prozessoren ist weitaus kostspieliger als die Herstellung vieler kleinerer Prozessoren, und genau wie sich die Welt an die Programmierung verteilter Systeme aus mehreren Servern gewöhnen musste, müssen sich auch Compiler und Programmierer an die Arbeit mit verteilten Systemen gewöhnen innerhalb eines einzelnen Servers.

Es besteht kein Zweifel daran, dass die zukünftige CPU nicht nur ein Sammelsurium von Chips sein wird, sondern Chips, die mit den optimalsten verfügbaren Prozessen für jede Funktion ausgestattet sind. Es ist sehr wahrscheinlich, dass I/O- und Kommunikationsschaltkreise nie unter 16 Nanometer (14 Nanometer nach der Intel-Methode zur Zählung von Transistor-Gate-Größen) gedrückt werden und dass die CPU-Kerne einfach so weit wie möglich schrumpfen, und dass diese Komponenten dies auch tun werden aus separaten Chips bestehen, die mit verschiedenen Arten von Verbindungen und Verpackungsmethoden wieder zusammengefügt werden. Es würde uns überhaupt nicht überraschen, wenn Ice-Lake-Xeon-SP-Chips dies in der Realität tun würden, und nicht nur auf die scheinbar überstürzte Art und Weise, die Intel mit den Cascade-Lake-AP-Chips eingeschlagen hat. Vielleicht hat Intel nicht geglaubt, dass TSMC seinen 7-Nanometer-Takt auf die Reihe kriegen könnte und AMD deshalb mit den Rome Epyc-Prozessoren keine Chance hatte? Es ist schwer zu sagen.

Aber im Moment gibt es keine Anzeichen dafür, dass TSMC nicht in der Lage sein wird, Chips für die vielen Anbieter herzustellen, die sich für die Nutzung seiner 7-Nanometer-Fabriken angestellt haben, und AMD scheint einen kleinen Vorsprung vor Rome zu haben Ice Lake – sicherlich im Hinblick auf die Markteinführungszeit und vielleicht im Hinblick auf die Anzahl der Kerne und die Gesamtheit. Wir werden sehen müssen.

Stellen Sie sich den Cascade Lake-AP also als einen Blick in die Zukunft vor, oder zumindest als einen, in dem es auf die Rechendichte ankommt und die Möglichkeit, Multichip-Module kostengünstig herstellen zu können, noch wichtiger ist.

Es gibt vier Chips der Xeon SP 9200-Serie, die wir hier mit dem Rest der Cascade Lake-Reihe verglichen haben. Wir haben Ihnen bereits letzten November von einem Zwei-Chip-Modul erzählt, das auf 24-Kern-Cascade-Lake-Chips basiert, und wir gingen davon aus, dass der Chip irgendwo zwischen 275 Watt und 350 Watt brennen würde, je nachdem, was Intel an den Taktraten der Prozessoren vorgenommen hat. Wie sich herausstellt, sind die Taktraten bei diesem 48-Kern-Teil, das jetzt Xeon SP-9242 Platinum heißt, mit 2,3 GHz Basis und einer Turbo-Boost-Geschwindigkeit von 3,8 GHz etwas höher als von vielen erwartet. Die unteren Cascade-Lake-AP-Chips, der Xeon SP-9221 und der Xeon SP-9222, verbrauchen beide 250 Watt und haben Basistaktraten von 2,1 GHz bzw. 2,3 GHz, mit einem Turbo von bis zu 3,7 GHz. Es gibt vier weitere Kerne und damit acht weitere Threads in diesen 32-Kern-Cascade-Lake-AP-Teilen, und das könnte für bestimmte Workloads wichtig sein, aber ein Xeon SP-8180 in der Skylake-Familie oder ein Xeon SP-8280 in der einfachen Cascade-Familie Die Lake-Familie bietet Ihnen 28 Kerne und 56 Threads, was nahe genug ist. Und wir glauben, dass der Preisunterschied pro Kern bei den AP-Varianten etwas höher ist als bei den regulären SKUs mit etwas weniger Kernen. (Auch hier gibt es nichts umsonst, wenn es um Chips geht, es sei denn, ein Konkurrent versucht, das Geschäft in Schwung zu bringen und die Reibung zu verringern, wie es AMD mit seinen Epyc-Chips sicherlich tut.)

Der Top-Bin Xeon SP-9282 verfügt über zwei 28-Kern-Cascade-Lake-Chips, die in einem BGA-Gehäuse untergebracht sind. Es läuft mit einer Basisfrequenz von 2,6 GHz und beschleunigt auf bis zu 3,8 GHz, wenn es möglich ist, und verbraucht 400 Watt. Wir glauben, dass dies der Chip ist, über den alle gesprochen haben, als wir Gerüchte über eine Cascade Lake-AP-Variante hörten, die mehr als 20.000 US-Dollar pro Stück kosten würde. Intel macht keine Listenpreise für die Xeon SP-9200-Modelle, da diese nur in einem von Intel entwickelten Komplettsystem einschließlich selbst entwickelter Motherboards erhältlich sind. Dies ist eine so andere Art von Maschine, dass sie eine besondere Behandlung rechtfertigt, sagt Kartik Ananth, der leitende Ingenieur von Intel, der für den S9200WK-Serverknoten und das Servergehäuse FC2000-Gehäuse verantwortlich ist, das ihn verwendet, gegenüber The Next Platform. (Nvidia verfolgt den gleichen Ansatz mit der NVSwitch-Verbindung und den Systemplatinen in seinen DGX-2-Hybrid-CPU-GPU-Komponenten, die nur von Nvidia selbst erhältlich sind.)

Eine thermische Hülle von 250 Watt ist keine so große Sache – Beschleuniger liegen schon seit einem Jahrzehnt in diesem Bereich, aber 350 Watt dehnen es ein wenig aus, und es ist keine Überraschung zu erfahren, dass der 400-Watt-Cascade Lake-AP dies nur tut als flüssigkeitsgekühlter Prozessor erhältlich. Wenn man zwei davon auf einem einzigen Rechnerschlitten und vier davon in einem 2-HE-Gehäuse unterbringt, ergibt sich eine ziemlich hohe Rechenleistung und Thermik. Das sind 3.200 Watt und 448 Kerne in der gleichen Größe wie ein normales 2U-Gehäuse, das im Rechenzentrum eines Unternehmens oft eine Größenordnung weniger Kerne enthält. Wenn Sie ein Rack davon mit voller Leistung ausstatten könnten, wären dafür möglicherweise zwischen 64 Kilowatt und 122 Kilowatt erforderlich, aber Sie hätten 8.960 Kerne pro Rack; Bei bescheidenen Speicherkonfigurationen könnte es etwa 2 Millionen US-Dollar kosten, bei einem leistungsstarken Setup eher 3 Millionen US-Dollar. (Das ist eine fundierte, aber zugegebenermaßen wilde Vermutung.)

Hier ist ein Blockdiagramm, das zeigt, wie die Xeon SP-9200 logisch zu einem Server mit zwei Sockeln verbunden sind:

Das Ball Grid Array für den Cascade Lake-AP verfügt über satte 5.903 Bälle und es gibt einen riesigen Wärmeverteiler, der die Wärme vom Gerät ableiten kann. Es gibt sechs Speicherkanäle auf jedem Cascade-Lake-Chip im BGA, also insgesamt 12 Speicherkanäle pro Sockel, sodass Intel zu diesem Zeitpunkt gewissermaßen den Kampf um Speicherkanäle und Speicherbandbreite auf „Sockel“-Ebene gewinnt. Aber zwei Dinge sind zu beachten. Erstens können Sie nur ein DDR4-DIMM pro Kanal haben, um den schnellen 2,93-GHz-Speicher zu betreiben, der von der Cascade-Lake-Architektur unterstützt wird, und die Verdoppelung dieser Chips und Controller im Sockel ändert die Speicherbandbreite pro Kerngleichung nicht im Geringsten. Wenn überhaupt, brauchen wir mehr Bandbreite pro Kern, und das wird nicht erreicht. Andere CPU-Architekturen müssen ein ähnliches Geschäft machen, da sie Kerne hinzufügen, aber keine Stromanschlüsse hinzufügen möchten, um mehr Speichercontroller anzutreiben, die viel Strom verbrauchen und viel Wärme erzeugen.

Jeder Cascade Lake-AP-Chiplet – können wir so ein Biest Chiplet nennen? – verfügt wie die anderen Cascade Lake-Teile über drei UPI-Links und läuft mit einer Höchstgeschwindigkeit von 10,4 GT/Sek. Die Verbindungen sind kreuzgekoppelt, sodass eine Spur dazu verwendet wird, jeden Chip in jedem BGA-Gehäuse mit dem anderen zu verbinden, und die restlichen vier zum Erstellen der NUMA-Verbindung zwischen den beiden logischen Sockeln verwendet werden. Die obige Topologie unterscheidet sich nicht von der Topologie, die Sie bei der Verwendung von UPI-Links in einem Quad-Socket-Server hätten. Ananth sagt, dass es etwa 70 Nanosekunden dauert, um vom anderen auf den an einen Prozessor innerhalb des BGA angeschlossenen Speicher zuzugreifen, aber es dauert etwa 130 Nanosekunden, um im NUMA-Stil zum anderen BGA-Paket zu springen. Es ist nicht klar, welche Auswirkungen dies auf die Leistung haben könnte, aber im Allgemeinen scheinen die Zahlen Ihren Erwartungen zu entsprechen, da doppelt so viele Prozessoren doppelt so viel Bandbreite ermöglichen. So schneidet ein Skylake Xeon SP-8180 im Vergleich zu einem Cascade Lake-AP Xeon SP-9282 ab:

Hier wird auf Speicherbandbreitentests eingegangen, da dies ein zentraler Aspekt des Cascade Lake-AP-Verkaufsgesprächs ist: Die folgende Grafik zeigt das Zusammenspiel der Bandbreite beim STREAM-Speichertest mit der Anzahl der Kerne in einem Cascade Lake mit zwei Sockeln. AP-System:

Die Xeon SP-9200 Platinum-Prozessoren unterstützen übrigens nicht die persistenten Optane 3D XPoint-Speichermodule, die als Speichererweiterung in der regulären „Purley“-Serverplattform mit regulären Cascade-Lake-Prozessoren angepriesen werden. Tatsächlich unterstützen diese Prozessoren nur maximal 768 GB pro Sockel, nicht einmal die größere DDR4-Speicherkapazität, die einige der anderen Prozessoren der Platinum- und Gold-Serie der Skylake- und Cascade-Lake-Familien bieten. Wir haben Anfang dieses Jahres Präsentationen gesehen, in denen darauf hingewiesen wurde, dass einige Kunden möglicherweise acht der zwölf Kanäle in einem Sockel für DDR4-Speicher und die restlichen vier für Optane-PMMs verwenden möchten, aber anscheinend muss es sich hierbei um eine benutzerdefinierte SKU handeln. Soweit wir wissen, gibt es keinen technischen Grund, warum die Cascade Lake-AP-Prozessoren Optane PMMs nicht unterstützen können.

Es ist für uns interessant, dass dies nicht als Suchmaschinen-SKU angepriesen wird, wenn man bedenkt, dass diejenigen, die Suchmaschinen betreiben, im Allgemeinen so viele Kerne wie möglich in einem einzigen System-Image haben möchten. (Es gibt eine spezielle Suchmaschinen-SKU, wie wir in unserer Berichterstattung über die generischen Cascade-Lake-Chips hervorgehoben haben, aber wir glauben, dass sie ein Zehntel so viel kostet wie dieser Top-Bin-Double-Chip und nur ein Drittel der Kerne hat.

Es ist noch nicht klar, wer Server auf Basis der Xeon SP 9200-Prozessoren verkaufen wird, aber diese Maschine ist das Design von Intel und OEMs und ODMs müssen sie praktisch so nehmen, wie sie ist, und ohne Platz für die Unterstützung ihrer selbst entwickelten Unternehmens- BMCs der Güteklasse. Möglicherweise sehen wir, dass einige OEMs kundenspezifische Maßnahmen ergreifen, aber wir erwarten hier keine großen Maßnahmen. Hier dürften ODMs den Verkauf abwickeln, insbesondere in China, wo Vier-Sockel-Maschinen bei Hyperscalern und Cloud-Buildern beliebt sind. Allerdings ist dieser nicht kompakter als ein seit vielen Jahren erhältlicher 2HE-Server mit vier Sockeln. Es wird alles auf die Preisgestaltung ankommen und darauf, wer Intel bis zu Ice Lake das Recht gibt, damit zu prahlen.

Hier sind auf jeden Fall die technischen Daten des S9200WK-Gehäuses:

Und hier sind die Spezifikationen für die Schlitten, die in das Gehege passen:

Die Rechendichte hängt davon ab, wie viel Peripherieverbindung und lokaler Speicher Sie auf den Knoten wünschen und ob Sie über die 400-Watt-Teile verfügen oder nicht. Wenn Sie die 250-Watt- oder 350-Watt-Teile nur aus Effizienzgründen mit Flüssigkeit kühlen möchten, können Sie das vermutlich tun.

Aber hier ist die Sache. Wenn der Softwarepreis nach Sockel berechnet wird und ein kommerzieller Softwareanbieter die Cascade Lake-AP-Maschine als Zwei-Sockel-Server behandelt, obwohl es sich logischerweise tatsächlich um einen Vier-Sockel-Server handelt, dann ist das großartig. Dadurch werden die VMware- und Red Hat-Rechnungen definitiv sinken, und bei Dingen mit Socket-basierten Preisen dürfte sich dieser Wert halbieren. Wenn der Preis für Software jedoch nach dem Kern berechnet wird, bringt die Umstellung auf die AP-Prozessoren überhaupt nichts, und bei selbst erstelltem Code macht es überhaupt keinen Unterschied.

Mit Highlights, Analysen und Geschichten der Woche direkt von uns in Ihren Posteingang, ohne dass etwas dazwischen liegt. Jetzt abonnieren