Führen Sie Databricks-Abfragen in kürzerer Zeit aus und erzielen Sie mit Google Plattform n2-highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation einen besseren Mehrwert

Databricks

  • Reduzieren Sie die Zeit bis zum Abschluss der Entscheidungsunterstützungs-Workloads um das bis zu 3,3-Fache mit Photon und N2 VMs mit Intel Prozessoren im Vergleich zu N2D-VMs mit AMD Prozessoren.

  • Die Ausführung von Entscheidungsunterstützungs-Datenbanken auf N2D-VMs mit AMD-Prozessoren kostete bis zu 80 % mehr als N2-VM-Instanzen mit Intel Prozessoren und Photon aktiviert.

author-image

Von

Mit aktivierter Photon Abfrage-Engine übertrafen diese VMs mit skalierbaren Intel® Xeon® Prozessoren n2d-highmem-8 VMs mit AMD EPYC™ Prozessoren deutlich

Je schneller Datenanalyseabfragen beendet werden, desto schneller können Sie relevante Daten erhalten, um geschäftskritische Entscheidungen zu treffen. Die Lakehouse Plattform von Databricks kombiniert die Funktionen von Data Warehouse und Data Lake und ermöglicht es Unternehmen, strukturierte und unstrukturierte Daten zu speichern und zu analysieren. Photon, eine Funktion der Lakehouse Plattform ist eine vektorisierte Abfrage-Engine, die dazu beitragen kann, die Leistung von SQL-Abfragen zu beschleunigen. Einer Zusammenfassung von Databricks zufolge bietet Photon auch folgende Vorteile:

  • „Unterstützt SQL- und entsprechende DataFrame-Operationen bei Delta- und Parquet-Tabellen.
  • Es wird erwartet, dass die Abfragen, die eine erhebliche Datenmenge (100 GB+) verarbeiten und Aggregationen und Verbindungen umfassen, beschleunigt werden.
  • Schnellere Leistung, wenn Daten wiederholt aus dem Delta-Cache abgerufen werden.
  • Robustere Scan-Leistung bei Tabellen mit vielen Spalten und vielen kleinen Dateien.
  • Schnellere Delta- und Parquet-Schreibleistung mit UPDATE, DELETE, MERGE INTO, INSERT und CREATE TABLE AS SELECT, insbesondere für breite Tabellen (Hunderte bis Tausende von Spalten).
  • Ersetzt Sort-Merge-Joins mit Hash-Joins.“1

Wir haben zwei Arten von Google Cloud Plattform (GCP)-VMs getestet: n2-highmem-8 mit Intel Xeon Prozessoren der 2. Generation und Photon aktiviert, und n2d-highmem-8 mit AMD EPYC Prozessoren der 2. Generation. Photon war für die N2D-VMs nicht verfügbar. Um die Leistung des Data Warehousing zu messen, haben wir eine Entscheidungsunterstützungs-Benchmark ausgeführt, welche die Zeit für die Ausführung einer bestimmten Anzahl von Abfragen aufzeichnete. Die Ergebnisse zeigten auch, dass die N2-VMs mit Photon die Zeit für die Abwicklung von 1-TB- und 10-TB-Datensätzen verkürzt, was auch bedeutet, dass die N2-VMs einen besseren Wert lieferten.

Weniger Zeit bis zur Abfrage, schnellere Zeit bis zur Einsicht

Wir haben die Entscheidungsunterstützungs-Benchmark auf 8-vCPU n2-highmem-8 VMs mit Photon mit einem 1-TB-Datensatz und einem 10-TB-Datensatz durchgeführt, und wir haben das Gleiche für die 8-vCPU n2d-highmem-8 VMs getan. Wie Abbildung 1 zeigt, hat der N2-VM-Cluster mit skalierbaren Intel® Xeon® Prozessoren und Photon Abfragen 3,1-mal so schnell wie der N2D-Cluster auf dem 1-TB-Datensatz abgeschlossen; auf dem 10-TB-Datensatz liefen Abfragen 3,3-mal so schnell wie beim N2D-Cluster.

Abbildung 1: Die relative Verarbeitungszeit zur Ausführung der Entscheidungsunterstützungs-Benchmarkabfragen auf GCP n2-highmem-8 VMs und n2d-highmem-8 VMs auf 1-TB- und 10-TB-Datensätzen.

Weniger VM-Betriebszeit erforderlich, mehr Kosteneinsparungen

Ihr Unternehmen kann von den Leistungsverbesserungen für Entscheidungsunterstützungs-Workloads profitieren, aber Preis-Leistung ist ein weiterer wichtiger Faktor. Mit dem VM-Preis pro Stunde zum Zeitpunkt der Prüfung und der Zeit für die Abwicklung jedes Datensatzes berechneten wir den Preis pro TB für jeden Cluster über beide Datensätze hinweg. Abbildung 2 zeigt, dass die Ausführung von Databricks-Workloads auf N2-VMs einen besseren Wert lieferte als N2D-VMs auf beiden Datensatzgrößen. Für den 1-TB-Datensatz kosteten die n2d-highmem-8 VMs mit AMD EPYC Prozessoren 70 % mehr als die n2-highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren. Ebenso kosteten die n2d-highmem-8 VMs 80 % mehr als die n2-highmem-8 VMs für den Abschluss eines 10-TB-Datensatzes.

Abbildung 2: Normalisiertes Preis-Leistungs-Verhältnis zur Ausführung einer Entscheidungsunterstützungs-Workload für eine Databricks-Umgebung auf GCP n2-highmem-8 VMs und n2d-highmem-8 VMs sowohl bei 1-TB- als auch bei 10-TB-Datensätzen.

Fazit

Unterstützt von Intel Xeon Prozessoren der 2. Generation haben GCP n2-highmem-8 VMs mit der Photon Abfrage-Engine die Entscheidungsunterstützungs-Workloads bis zu 3,3-mal so schnell wie n2d-highmem-8 VMs abgeschlossen. Sie haben nicht nur die Leistung verbessert, sondern auch einen bessere Wertigkeit geboten, da n2d-highmem-8 VMs bis zu 80 % mehr kosten, um Datensatzabfragen abzuschließen. Um Ihrem Unternehmen Kosteneinsparungen und die schnellen Erkenntnisse zu bieten, die Sie für fundierte Entscheidungen benötigen, entscheiden Sie sich für n2-highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation und Photon.

Weitere Informationen

Um mit der Ausführung Ihrer Databricks-Cluster mit Photon auf GCP N2 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation zu beginnen, besuchen Sie https://cloud.google.com/compute/docs/general-purpose-machines.

Tests von Intel im März 2021 für Intel VM-Tests und März 2022 für AMD VM-Tests, beide auf GCP us-central1 (Iowa). Alle Konfigurationen: 21 Instanzen (20 Arbeiter + 1 Master), 8 vCPUs, 128 GB
RAM, 25 Gbit/s, 500 GB Remote-SSD+0,75 TB lokale SSD, 240-1200/240-1200 (R/W Remote-SSD), 9360/4680 (R/W lokale SSD) Ubuntu 20.04.3 LTS Kernel 5.4.170+, Databricks 10.3. Spark-Konfiguration:
spark.databricks.passthrough.enabled true, spark.databricks. adaptive.autoOptimizeShuffle.enabled true, spark.databricks.io.cache.maxMetaDataCache 10g, spark.databricks.io.cache.maxDiskUsage 100g, spark.databricks.delta.preview.enabled true. N2-highmem-8: Intel Cascade Lake CPU. N2d-highmem-8: AMD Rome CPU. Gesamtkosten des Clusters pro Ausführung Stand vom März 2022: m. Photon 1 TB
Intel: 6,44 USD; m. Photon 10 TB Intel: 33,11 USD; o. Photon 1 TB AMD: 11,17 USD; o. Photon 10 TB AMD: 61,53 USD.

Produkt- und Leistungsinformationen

1Databricks, „Photon“, auf dem am 12. April 2022 zugegriffen wurde, https://docs.databricks.com/runtime/photon.html.