Sparen Sie Zeit und Kosten, indem Sie sich für die Google Plattform N2 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation und Databricks Photon Query Engine entscheiden.

Databricks

  • N2-VMs mit aktiviertem Photon ermöglichten die Abfragen der Datenbank zur Entscheidungsunterstützung bis zu 3,6-mal so schnell wie N2-Instanzen ohne Photon.

  • Die Ausführung von Datenbanken zur Entscheidungsunterstützung auf N2-VM-Instanzen ohne Photon kostet bis zu 2,3-mal so viel wie N2-VMs mit Photon.

author-image

Von

Verwenden Sie Photon, um die Leistung Entscheidungsunterstützungs-Datenbank auf N2-Highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren zu maximieren.

Für Unternehmen, die große Mengen strukturierter und unstrukturierter Daten speichern, auf sie zugreifen und analysieren, bietet die Lakehouse Plattform von Databricks eine einzigartige Kombination aus Data-Warehouse- und Data-Lake-Funktionen. Die Plattform umfasst auch Photon, eine vektorisierte Abfrage-Engine, die für die Beschleunigung der SQL-Abfrageleistung entwickelt wurde. Einer Zusammenfassung von Databricks zufolge umfassen die Vorteile von Photon Folgendes:

  • „Unterstützt SQL- und entsprechende DataFrame-Operationen bei Delta- und Parquet-Tabellen.
  • Es wird erwartet, dass die Abfragen, die eine erhebliche Datenmenge (100 GB+) verarbeiten und Aggregationen und Verbindungen umfassen, beschleunigt werden.
  • Schnellere Leistung, wenn Daten wiederholt aus dem Delta-Cache abgerufen werden.
  • Robustere Scan-Leistung bei Tabellen mit vielen Spalten und vielen kleinen Dateien.
  • Schnellere Delta- und Parquet-Schreibleistung mit UPDATE, DELETE, MERGE INTO, INSERT und CREATE TABLE AS SELECT, insbesondere für breite Tabellen (Hunderte bis Tausende von Spalten).
  • Ersetzt Sort-Merge-Joins mit Hash-Joins.“1

Schnellere Abfragen führen zu schnelleren Geschäftseinblicken und weniger VM-Betriebszeiten, für die man bezahlen muss. Um Photon auf Google Plattform (GCP) N2 VMs zu testen, verwendeten wir eine Entscheidungsunterstützungs-Benchmark, das die Data-Warehousing-Leistung gemessen hat, indem eine bestimmte Anzahl von Abfragen durchgeführt und die Zeit für die Abwicklung aufgezeichnet wird. Als wir die Leistung von Photon-fähigen n2-highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation mit jener derselben VMs ohne Photon verglichen haben, stellten wir fest, dass die Photon-fähigen N2-VMs Abfragen bei 1 TB und 10 TB Datensätzen schneller abschlossen – und das alles während in beiden Szenarien die Kosten sanken.

Schneller Einblicke mit Photon

Um festzustellen, wie Photon die Abfrageleistung steigern kann, haben wir 8-vCPU n2-highmem-8 VMs mit und ohne Photon getestet. Abbildung 1 zeigt, wie der N2 VM-Cluster mit Photon einen 1 TB Datensatz 3,3-mal so schnell wie der gleiche Cluster ohne Photon abschloss und einen 10 TB Datensatz 3,6-mal so schnell abgeschlossen hat.

Abbildung 1: Die relative Verarbeitungszeit für die Entscheidungsunterstützungs-Benchmark-Abfragen mit Photon im Vergleich zu ohne Photon auf GCP n2-highmem-8 VMs mit 1 TB und 10 TB-Datensätzen.

Photon für einen besseren Wert aktivieren

Während die Leistungsverbesserung manchmal einen höheren Preis einschließt, fanden wir heraus, dass die schnelleren Verarbeitungszeiten mit Photon zu weniger VM-Betriebszeitkosten führen. Abbildung 2 zeigt, dass der Cluster ohne Photon im Vergleich zum N2-Cluster mit Photon 2,1-mal mehr kostet, wenn man einen 1-TB-Datensatz analysiert und 2,3 mal mehr bei der Analyse eines 10-TB-Datensatzes.

Abbildung 2: Normalisiertes Preis-Leistungs-Verhältnis zur Ausführung einer Entscheidungsunterstützungs-Workload für eine Databricks-Umgebung auf GCP n2-highmem-8 VMs sowohl bei 1-TB- als auch bei 10-TB-Datensätzen.

Fazit

Wenn Ihr Unternehmen Entscheidungsfindungs-Datenbanken mit Databricks unterstützt, kann die Photon Abfrage-Engine auf GCP n2-highmem-8 VMs die Abfragezeit reduzieren und einen besseren Wert bieten. Mit Photon haben diese 8-vCPU-VMs eine Datenbank-Workload für Entscheidungsunterstützung bis zu 3,6-mal so schnell wie ohne Photon abgeschlossen. Diese Leistungsverbesserungen führten zu einem besseren Wert, wobei N2-VMs ohne Photon bis zu 2,3-mal so viel kosteten wie ihre Photon-unterstützen Gegenstücke. Wählen Sie für schnellere Leistung und Kosteneinsparungen die GCP N2 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation und mit Photon aktiviert.

Weitere Informationen

Um mit der Ausführung Ihrer Databricks-Cluster mit Photon auf GCP N2 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation zu beginnen, besuchen Sie https://cloud.google.com/compute/docs/general-purpose-machines.

Tests von Intel im März 2021 auf GCP us-central1 (Iowa). Alle Konfigurationen: 21 Instanzen (20 Mitarbeiter + 1 Master), N2-highmem-8 Instanzen mit Intel Cascade Lake CPUs, 08 vCPUs, 128 GB RAM, 25 Gbit/s, 500 GB Remote-SSD+0,75 TB Local SSD, 240-1200/240-1200 (R/W Remote-SSD) 9360/4680 (R/W Local SSD) Ubuntu 20.04.3 LTS Kernel 5.4.170+, Databricks 10.3. Spark-Konfiguration: spark.databricks.passthrough.enabled true, spark.databricks.adaptive.autoOptimizeShuffle.enabled true, spark.databricks.io.cache.maxMetaDataCache 10g, spark.databricks.io.cache.maxDiskUsage 100g, spark.databricks.delta.preview.enabled true. Gesamtkosten pro Ausführung Stand vom März 2022: m. Photon 1 TB: 6,44 USD, m. Photon 10 TB: 33,11 USD, o. Photon 1 TB: 13,95 USD; o. Photon 10 TB: 78,10 USD.