Garvan Institute verbessert Genomforschung mit HPC

Eine der führenden biomedizinischen Forschungseinrichtungen Australiens steigert mit Intel® HPC-Infrastruktur ihre Leistung und Kapazität.

Auf einen Blick:

  • Das Garvan Institute of Medical Research in Sydney, Australien ist eines der führenden Forschungsinstitute für Genomanalyse der nächsten Generation.

  • Garvan implementierte vor Ort einen HPC-Cluster, der auf den Intel® Select Solutions für die Genomanalyse basiert. Damit erzielte das Institut kosteneffektive Kapazität für seine verschiedenen Aufgaben und verdoppelte die Leistung im Vergleich zu seiner vorherigen Public-Cloud-Plattform bei identischen Workloads.

author-image

Von

Kurzübersicht:

Da Genom-Sequenzierung zunehmend finanziell tragbar wird, benötigte das Garvan Institute of Medical Research mehr Rechen- und Datenspeicherressourcen, um Forscher bei der Analyse der schnell wachsenden Mengen an Sequenzierungsdaten zu helfen. Garvan implementierte vor Ort einen High-Performance-Computing-Cluster (HPC-Cluster) mit Rechenknoten, die auf die Intel® Select Solutions für die Genomanalyse abgestimmt sind. Damit erzielte Garvan kosteneffektive Kapazität für seine verschiedenen Aufgaben und verzeichnet bei identischen Workloads eine Verdoppelung der Leistung seiner externen Cloud-Plattform.

Herausforderung

Als eines der größten biomedizinischen Forschungsinstitute Australiens steht das Garvan Institute of Medical Research an der Spitze der Genomanalyse der nächsten Generation. Zusätzlich zur Sequenzierung ganzer Genome und der zunehmenden Anzahl einzelner Zellen führen Garvans Wissenschaftler und Forscher anspruchsvolle Analysen der Genomdaten durch, um neue Erkenntnisse zu den Ursachen von Krebs, Immunstörungen und Entzündungen sowie von Krankheiten, die ein gesundes Altern beeinträchtigen, zu gewinnen. Garvan hat es sich zur Aufgabe gemacht, bedeutende Beiträge zur medizinischen Forschung zu leisten, die die Richtung von Wissenschaft und Medizin verändern und einen großen Nutzen für die menschliche Gesundheit bringen werden.

Garvan wurde 1963 gegründet und hat sich seit 2012 stärker darauf konzentriert, sich als Institut für Genomforschung zu etablieren. Am Institut sind rund 600 Forscher tätig, darunter mehr als 80 Informatiker. Garvans High-Performance-Computing-Infrastruktur (HPC-Infrastruktur) bewältigt eine Reihe anspruchsvoller Aufgaben, einschließlich der Produktionsabläufe für ganze menschliche Genome sowie des schnell wachsenden Bereichs der Einzelzellgenomik. Darüber hinaus unterstützt das System auch die interdisziplinäre Zusammenarbeit innerhalb des Instituts und mit Forschern in ganz Australien und auf internationaler Ebene.

Abb. 1. DNS-Methylierung in Nahaufnahme (winzige chemische Markierung, die als ein leuchtendes Teilchen gezeigt wird, das einer der DNS-Basen hinzugefügt wird), von Dr. Kate Patterson, Garvan Institute

Garvan begann den Aufbau seiner HPC-Infrastruktur 2012 mit einem Cluster, der nicht auf Intel Architektur basierte. Als das Institut 2015 für seine nächste Expansion bereit war, „war es klar, dass Intel der richtige Weg sein würde“, so Dr. Warren Kaplan, Leiter der Data Sciences Platform bei Garvan.

2018 nutzte Garvan sowohl externe Clouds als auch lokale Infrastruktur, benötigte aber noch mehr Kapazität, Leistung und Skalierungspotenzial, um mit dem wachsenden Workload-Volumen Schritt zu halten. Zusätzlich zu kosteneffektiver Infrastruktur, die verschiedene Genomik-Aufgaben bewältigen sollte, listete Kaplan drei kritische Anforderungen für neue Rechenknoten in seiner HPC-Infrastruktur auf.

„Die CPU ist unser Arbeitstier, und deshalb machen wir uns immer besonders viele Gedanken über die CPU“, so Kaplan. „Eine schnelle CPU ist gut, und eine schnellere ist immer besser. Die Welt der Bioinformatik und Genomforschung hat eine große Menge an ineffizientem Code. Daher gilt unser Interesse auch dem Arbeitsspeicher. Und schließlich schätzen wir eine hohe Kapazität an schnellem lokalem Datenspeicher, um unser Spark-Computing und auch Codes zu unterstützen, die eine große Anzahl sehr kleiner Dateien erzeugen.“

Lösung

Kaplan erörterte Garvans Anforderungen mit Intel Experten und sagte, diese Gespräche seien ein entscheidender Schritt bei der Auswahl von Technik, die die Bedürfnisse des Instituts auf skalierbare und kosteneffiziente Weise erfüllen würde. „Als wir anfingen, über eine Systemerweiterung zu sprechen, stellte unser Intel Team hier in Sydney den Kontakt zu Intels Genomik-Experten in den Vereinigten Staaten her“, erinnerte sich Kaplan. „Sie waren intensiv im Genomikbereich involviert und hatten extreme Kenntnisse über die Genomikbranche und die zugehörige Technik. Sie verstanden, was wir vorhatten, und die Gespräche, die wir mit ihnen hinsichtlich der Umsetzung unserer Ziele führten, waren extrem wertvoll.“ Das Intel Team demonstrierte auch wesentliche Verbesserungen bei Latenz und Durchsatz, die Intel und das Broad Institute bei der Ganzgenomsequenzierung (Whole Genome Sequencing, WGS) erzielt hatten.1

Als wir anfingen, über eine Systemerweiterung zu sprechen, stellte unser Intel Team hier in Sydney den Kontakt zu Intels Genomik-Experten in den Vereinigten Staaten her. Sie waren intensiv im Genomikbereich involviert und hatten extreme Kenntnisse über die Genomikbranche und die zugehörige Technik. Sie verstanden, was wir vorhatten, und die Gespräche, die wir mit ihnen hinsichtlich der Umsetzung unserer Ziele führten, waren extrem wertvoll. – Dr. Warren Kaplan, Leiter der Data Sciences Platform bei Garvan

Im Anschluss an diese Gespräche implementierte Garvan einen Dell-EMC-Cluster mit Rechenknoten, die auf Intel Select Solutions für die Genomanalyse abgestimmt sind. Intel® Select Solutions sind verifiziert Konfigurationen, die Workload-optimierte Leistungsmerkmale bieten und gleichzeitig die Bereitstellung der Rechenzentrumsinfrastruktur vereinfachen. Die Intel® Select Solution für die Genomanalyse basiert auf dem Broad-Institute Genomics Stack (BIGstack) 2.0, der von Intel und dem Broad Institute of MIT and Harvard entwickelt wurde. Der Cluster umfasst Rechenknoten, die auf der skalierbaren Intel® Xeon® Prozessorreihe mit dem Intel® Ethernet-Converged-Network-Adapter (Intel® Ethernet-CNA) X710-DA2 basieren. Dieser Ansatz bietet Optimierungen und eine ausgeklügelte Paketverarbeitung bieten, um die anspruchsvollen Anforderungen des agilen Rechenzentrums zu erfüllen.

Garvan verwendet Intel® Optane™ DC SSDs und Intel® 3D-NAND-SSDs, um den lokalen Arbeitsspeicher und die Datenspeicherkapazität im Cluster zu vergrößern. Die Rechenknoten, die mit Intel® Optane™ DC SSDs P4800X bestückt sind, bieten 24 TB Datenspeicher.

Kaplan zufolge ist die Leistung der Intel® Optane™ SSDs hervorragend und trägt dazu bei, einigen von Garvans Legacy-Codes neuen Auftrieb zu verleihen. „Traditionell führte die Verwendung rotierender Festplatten als Auslagerungsspeicher zu furchtbarer Leistung“, sagte er. „Mit den Intel® SSDs können wir die Datenträger als Auslagerungsspeicher verwenden, und die Leistung ist hervorragend. Dieser Ansatz gibt uns Zugang zu deutlich mehr Arbeitsspeicher und Leistung.“

„Wir haben einige GPGPUs, die nicht von Intel stammen, aber fast alles andere, einschließlich aller unserer Produktionscodes, läuft auf Technik von Intel“, fügte er hinzu.

Ergebnisse

Garvans neue HPC-Infrastruktur ist ein wichtiger Faktor für den verstärkten Fokus des Instituts auf medizinischer Forschung mit Hilfe der Genomik. „Wir stehen erst am Anfang dessen, was wir mit dieser Plattform erreichen werden und wohin wir mit ihr gehen werden, aber im Grunde führt sie zu vielen Veränderungen, die Garvan in die Lage versetzen, sich zu einem datengestützten medizinischen Forschungsinstitut zu entwickeln“, erklärte Kaplan. „Die Infrastruktur ist grundlegend für den Wandel unseres Unternehmens und unserer Arbeitsweise, und die Auswirkungen sind transformativ.“

Ein Teil dieser Auswirkungen ergibt sich aus den Leistungs- und Kostenvorteilen der Plattform im Vergleich zu den kommerziellen Cloud-Diensten, die Garvan nutzt. Kaplan erklärte, sein Team habe das Singularity-Container-System genutzt, um einige seiner containerisierten WGS-Workflows aus externen Cloud-Umgebungen auf die neue Infrastruktur zu portieren. „Der Workflow ist in jeder Hinsicht identisch, und die Leistung auf unserer Infrastruktur ist deutlich schneller als in kommerziellen Cloud-Umgebungen“, sagte Kaplan.

Die zusätzlichen Kapazität und Leistung halten Garvans Wissenschaftler an der Spitze neuer Forschungsgebiete wie der Einzelzellgenomik. „Mit diesem System sind wir in der Lage, mit der Nachfrage Schritt zu halten, während die Sequenzierungstechnik rasant voranschreitet“, so Kaplan. „Forscher verwenden zudem die Sprachen R und Python in Apache Zeppelin, das mit unserem Spark-Cluster verbunden ist, so dass sie auch dieses Scale-out-Backend zur Verfügung haben, um außergewöhnliche Berechnungen durchzuführen. Dies wird sich ebenfalls transformativ auswirken.“

Garvans neue Infrastruktur fördert auch die Zusammenarbeit des Instituts mit der National Computational Infrastructure in Australiens Capital Territory bei der Entwicklung von Workloads, die sich in großem Umfang ausführen lassen. „Die Möglichkeit, eine schöne Prototyping-Umgebung zu haben, wie sie uns mit dieser Infrastruktur zur Verfügung steht, in der Lage zu sein, Prototypen schnell entwickeln und bauen können, Lehren aus ihnen zu ziehen, das Gelernte mit anderen zu teilen und die entsprechenden Lösungen zu entwickeln – das ist extrem wertvoll“, sagte Kaplan.

Für die Zukunft, so Kaplan, werde er sich weiterhin bei Intel umsehen, wenn es um Technik und Erkenntnisse geht. „Als strategischen Partner kann man sich keinen besseren als Intel vorstellen“, erklärte er. „Wir fühlen uns privilegiert, mit diesem Unternehmen zusammenarbeiten zu können. Intel hat es uns ermöglicht, etwas ganz Besonderes aufzubauen – und all dies dient dem Wohle der medizinischen Forschung in Australien und der Welt.“

Lösungskomponenten

  • Dell EMC PowerEdge* Server
  • Skalierbare Intel® Xeon® Prozessoren
  • Intel® Optane™ SSDs der Produktreihe DC P4800X
  • Intel® 3D-NAND-SSDs der Produktreihen DC P4600 und P4500
  • Intel® Ethernet-Converged-Network-Adapter (Intel® Ethernet-CNA) X710-DA2

PDF herunterladen ›

Produkt- und Leistungsinformationen