Mit aktivierter Photon Abfrage-Engine übertrafen diese VMs mit skalierbaren Intel® Xeon® Prozessoren n2d-highmem-8 VMs mit AMD EPYC™ Prozessoren deutlich
Je schneller Datenanalyseabfragen beendet werden, desto schneller können Sie relevante Daten erhalten, um geschäftskritische Entscheidungen zu treffen. Die Lakehouse Plattform von Databricks kombiniert die Funktionen von Data Warehouse und Data Lake und ermöglicht es Unternehmen, strukturierte und unstrukturierte Daten zu speichern und zu analysieren. Photon, eine Funktion der Lakehouse Plattform ist eine vektorisierte Abfrage-Engine, die dazu beitragen kann, die Leistung von SQL-Abfragen zu beschleunigen. Einer Zusammenfassung von Databricks zufolge bietet Photon auch folgende Vorteile:
- „Unterstützt SQL- und entsprechende DataFrame-Operationen bei Delta- und Parquet-Tabellen.
- Es wird erwartet, dass die Abfragen, die eine erhebliche Datenmenge (100 GB+) verarbeiten und Aggregationen und Verbindungen umfassen, beschleunigt werden.
- Schnellere Leistung, wenn Daten wiederholt aus dem Delta-Cache abgerufen werden.
- Robustere Scan-Leistung bei Tabellen mit vielen Spalten und vielen kleinen Dateien.
- Schnellere Delta- und Parquet-Schreibleistung mit UPDATE, DELETE, MERGE INTO, INSERT und CREATE TABLE AS SELECT, insbesondere für breite Tabellen (Hunderte bis Tausende von Spalten).
- Ersetzt Sort-Merge-Joins mit Hash-Joins.“1
Wir haben zwei Arten von Google Cloud Plattform (GCP)-VMs getestet: n2-highmem-8 mit Intel Xeon Prozessoren der 2. Generation und Photon aktiviert, und n2d-highmem-8 mit AMD EPYC Prozessoren der 2. Generation. Photon war für die N2D-VMs nicht verfügbar. Um die Leistung des Data Warehousing zu messen, haben wir eine Entscheidungsunterstützungs-Benchmark ausgeführt, welche die Zeit für die Ausführung einer bestimmten Anzahl von Abfragen aufzeichnete. Die Ergebnisse zeigten auch, dass die N2-VMs mit Photon die Zeit für die Abwicklung von 1-TB- und 10-TB-Datensätzen verkürzt, was auch bedeutet, dass die N2-VMs einen besseren Wert lieferten.
Weniger Zeit bis zur Abfrage, schnellere Zeit bis zur Einsicht
Wir haben die Entscheidungsunterstützungs-Benchmark auf 8-vCPU n2-highmem-8 VMs mit Photon mit einem 1-TB-Datensatz und einem 10-TB-Datensatz durchgeführt, und wir haben das Gleiche für die 8-vCPU n2d-highmem-8 VMs getan. Wie Abbildung 1 zeigt, hat der N2-VM-Cluster mit skalierbaren Intel® Xeon® Prozessoren und Photon Abfragen 3,1-mal so schnell wie der N2D-Cluster auf dem 1-TB-Datensatz abgeschlossen; auf dem 10-TB-Datensatz liefen Abfragen 3,3-mal so schnell wie beim N2D-Cluster.
Weniger VM-Betriebszeit erforderlich, mehr Kosteneinsparungen
Ihr Unternehmen kann von den Leistungsverbesserungen für Entscheidungsunterstützungs-Workloads profitieren, aber Preis-Leistung ist ein weiterer wichtiger Faktor. Mit dem VM-Preis pro Stunde zum Zeitpunkt der Prüfung und der Zeit für die Abwicklung jedes Datensatzes berechneten wir den Preis pro TB für jeden Cluster über beide Datensätze hinweg. Abbildung 2 zeigt, dass die Ausführung von Databricks-Workloads auf N2-VMs einen besseren Wert lieferte als N2D-VMs auf beiden Datensatzgrößen. Für den 1-TB-Datensatz kosteten die n2d-highmem-8 VMs mit AMD EPYC Prozessoren 70 % mehr als die n2-highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren. Ebenso kosteten die n2d-highmem-8 VMs 80 % mehr als die n2-highmem-8 VMs für den Abschluss eines 10-TB-Datensatzes.
Fazit
Unterstützt von Intel Xeon Prozessoren der 2. Generation haben GCP n2-highmem-8 VMs mit der Photon Abfrage-Engine die Entscheidungsunterstützungs-Workloads bis zu 3,3-mal so schnell wie n2d-highmem-8 VMs abgeschlossen. Sie haben nicht nur die Leistung verbessert, sondern auch einen bessere Wertigkeit geboten, da n2d-highmem-8 VMs bis zu 80 % mehr kosten, um Datensatzabfragen abzuschließen. Um Ihrem Unternehmen Kosteneinsparungen und die schnellen Erkenntnisse zu bieten, die Sie für fundierte Entscheidungen benötigen, entscheiden Sie sich für n2-highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation und Photon.
Weitere Informationen
Um mit der Ausführung Ihrer Databricks-Cluster mit Photon auf GCP N2 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation zu beginnen, besuchen Sie https://cloud.google.com/compute/docs/general-purpose-machines.
Tests von Intel im März 2021 für Intel VM-Tests und März 2022 für AMD VM-Tests, beide auf GCP us-central1 (Iowa). Alle Konfigurationen: 21 Instanzen (20 Arbeiter + 1 Master), 8 vCPUs, 128 GB
RAM, 25 Gbit/s, 500 GB Remote-SSD+0,75 TB lokale SSD, 240-1200/240-1200 (R/W Remote-SSD), 9360/4680 (R/W lokale SSD) Ubuntu 20.04.3 LTS Kernel 5.4.170+, Databricks 10.3. Spark-Konfiguration:
spark.databricks.passthrough.enabled true, spark.databricks. adaptive.autoOptimizeShuffle.enabled true, spark.databricks.io.cache.maxMetaDataCache 10g, spark.databricks.io.cache.maxDiskUsage 100g, spark.databricks.delta.preview.enabled true. N2-highmem-8: Intel Cascade Lake CPU. N2d-highmem-8: AMD Rome CPU. Gesamtkosten des Clusters pro Ausführung Stand vom März 2022: m. Photon 1 TB
Intel: 6,44 USD; m. Photon 10 TB Intel: 33,11 USD; o. Photon 1 TB AMD: 11,17 USD; o. Photon 10 TB AMD: 61,53 USD.