CLAIX / RWTH Compute Cluster

 

Das IT Center (ehemals Rechen- und Kommunikationszentrum) betreibt seit vielen Jahren Hochleistungsrechner (HPC-Systeme) zur Unterstützung der Forschung und Lehre an der RWTH Aachen University. Das aktuelle System trägt den Namen CLAIX (Cluster Aix-la-Chapelle) und besteht aus drei Teilen: dem Tier-2 Anteil aus den Beschaffungsphasen 2016 und 2018 sowie einen Tier-3 Anteil. Die technische Dokumentation zum Dienst RWTH Compute Cluster des IT Centers finden Sie hier: RWTH Compute Cluster.

Tier-2 System CLAIX-2016

Das IT Center hat für die RWTH Aachen University die Firma NEC als Lieferant für die erste Ausbaustufe des Hochleistungsrechners CLAIX (Cluster Aix-la-Chapelle) ausgewählt. In einem Beschaffungsverfahren, das besonders die Gesamtkostenoptimierung für eine Sammlung repräsentativer Rechenjobs, genannt RWTH Job-Mix, inklusive Anschaffungskosten, Ausführungszeit, Energie- und Kühlkosten bewertet hat, setzte NEC sich gegen die Mitbewerber durch. Das neue System besteht etwas über 600 Systemen mit 2x Intel Broadwell Prozessoren. Spezialisierte Knotentypen mit bis zu 144 Rechenkernen an 1 Terabyte Hauptspeicher oder integrierten GPGPUs oder NVRAM ergänzen das System für besondere Aufgaben. Alle Knoten sowie das parallele Lustre-Dateisystem mit einer Kapazität von 3 Petabytes werden mit einem Omni-Path-Netzwerk mit 100-GigaBit/s von Intel vernetzt. Das Gesamtsystem erreicht eine Rechenleistung von ca. 670 TeraFlop/s.

  Foto des Hochleistungsrechners CLAIX-2018 Urheberrecht: IT Center CLAIX-2018

Tier-2 System CLAIX-2018

Im Juli 2018 wurde wiederum die Firma NEC als Lieferant für die zweite Ausbaustufe ausgewählt. CLAIX-2018 besteht aus 1032 Rechenknoten mit 2x Intel Skylake Prozessoren mit jeweils 24 Kernen und 192 GB Arbeitsspeicher. Zusätzlich gibt es 48 Rechenknoten identischer Architektur, die mit jeweils zwei NVIDIA Volta V100 GPUs (inkl. NVLink) als Beschleunigern ausgestattet sind und für besondere Anwendungszwecke wie bspw. das maschinelle Lernen zur Verfügung stehen. Zum interaktiven Arbeiten mit dem System besitzt CLAIX zusätzlich acht weitere Dialogsysteme, die mit den gleichen CPUs bestückt sind, aber mit 384 GB mehr Arbeitsspeicher besitzen. Alle Knoten sind mit einem Intel Omni-Path 100-Gigabit/s-Netzwerk verbunden. Ein hochperformantes Lustre-basiertes Speichersystem bietet eine Dateisystem-Kapazität von 10 Petabyte und eine Bandbreite von 150 Gigabyte/s (lesend und schreibend) und das parallele Dateisystem ist als $HPCWORK verfügbar. CLAIX-2018 startete im November 2018 im Testbetrieb und seit Januar 2019 steht das System uneingeschränkt für die Nutzung durch Rechenzeitprojekte zur Verfügung. Als Tier-2 Cluster in der HPC-Versorgungspyramide der Gauß-Allianz in Deutschland können Wissenschaftlerinnen und Wissenschaftler aus ganz Deutschland Rechenzeit auf dem System beantragen.

An CLAIX-2018 wird die technologische Weiterentwicklung sichtbar. Für die Vielzahl der Simulationsanwendungen wird mit CLAIX-2018 eine deutliche Leistungsverbesserung gegenüber der ersten Stufe aus 2016 erzielt. Im Vergleich erhöht sich die durchschnittliche Pro-Core-Performance der Benchmarks des RWTH Job-Mix bei gleichbleibenden Datensätzen um 30%. In der Liste der weltweit 500 schnellsten Hochleistungsrechner belegte das System im November 2018 mit einer theoretische Rechenleistung von 3,55 Petaflops den Platz 92 und war damit der schnellste universitäre Rechner Deutschlands. Im Ranking der Green500 erreichte CLAIX-2018 die Position 51.

 

Tier-3 HPC an der RWTH Aachen University

Tier-2 Systeme sind aufgrund der Finanzierungsstruktur nicht für Rechenzeitbedarfe in der Lehre vorgesehen. Um diese Versorgungslücke zu schließen, wurde erfolgreich ein Antrag beim Land NRW gestellt und damit im Januar 2019 für ca. 2 Millionen Euro weitere 215 Rechenknoten mit 2x Intel Skylake CPUs (je 24 Kerne) sowie sechs Rechenknoten mit jeweils zwei NVIDIA Volta V100 GPUs (inkl. NVLink) beschafft und in den Hochleistungsrechner integriert. Diese zu CLAIX-2018 baugleichen Systeme bilden das Tier-3 Systeme für die RWTH Aachen University. Darauf steht allen Mitarbeitenden und Studierenden ein Basis-Rechenzeitkontingent zur Verfügung.