Verwenden Sie Photon, um die Leistung Entscheidungsunterstützungs-Datenbank auf N2-Highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren zu maximieren.
Für Unternehmen, die große Mengen strukturierter und unstrukturierter Daten speichern, auf sie zugreifen und analysieren, bietet die Lakehouse Plattform von Databricks eine einzigartige Kombination aus Data-Warehouse- und Data-Lake-Funktionen. Die Plattform umfasst auch Photon, eine vektorisierte Abfrage-Engine, die für die Beschleunigung der SQL-Abfrageleistung entwickelt wurde. Einer Zusammenfassung von Databricks zufolge umfassen die Vorteile von Photon Folgendes:
- „Unterstützt SQL- und entsprechende DataFrame-Operationen bei Delta- und Parquet-Tabellen.
- Es wird erwartet, dass die Abfragen, die eine erhebliche Datenmenge (100 GB+) verarbeiten und Aggregationen und Verbindungen umfassen, beschleunigt werden.
- Schnellere Leistung, wenn Daten wiederholt aus dem Delta-Cache abgerufen werden.
- Robustere Scan-Leistung bei Tabellen mit vielen Spalten und vielen kleinen Dateien.
- Schnellere Delta- und Parquet-Schreibleistung mit UPDATE, DELETE, MERGE INTO, INSERT und CREATE TABLE AS SELECT, insbesondere für breite Tabellen (Hunderte bis Tausende von Spalten).
- Ersetzt Sort-Merge-Joins mit Hash-Joins.“1
Schnellere Abfragen führen zu schnelleren Geschäftseinblicken und weniger VM-Betriebszeiten, für die man bezahlen muss. Um Photon auf Google Plattform (GCP) N2 VMs zu testen, verwendeten wir eine Entscheidungsunterstützungs-Benchmark, das die Data-Warehousing-Leistung gemessen hat, indem eine bestimmte Anzahl von Abfragen durchgeführt und die Zeit für die Abwicklung aufgezeichnet wird. Als wir die Leistung von Photon-fähigen n2-highmem-8 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation mit jener derselben VMs ohne Photon verglichen haben, stellten wir fest, dass die Photon-fähigen N2-VMs Abfragen bei 1 TB und 10 TB Datensätzen schneller abschlossen – und das alles während in beiden Szenarien die Kosten sanken.
Schneller Einblicke mit Photon
Um festzustellen, wie Photon die Abfrageleistung steigern kann, haben wir 8-vCPU n2-highmem-8 VMs mit und ohne Photon getestet. Abbildung 1 zeigt, wie der N2 VM-Cluster mit Photon einen 1 TB Datensatz 3,3-mal so schnell wie der gleiche Cluster ohne Photon abschloss und einen 10 TB Datensatz 3,6-mal so schnell abgeschlossen hat.
Photon für einen besseren Wert aktivieren
Während die Leistungsverbesserung manchmal einen höheren Preis einschließt, fanden wir heraus, dass die schnelleren Verarbeitungszeiten mit Photon zu weniger VM-Betriebszeitkosten führen. Abbildung 2 zeigt, dass der Cluster ohne Photon im Vergleich zum N2-Cluster mit Photon 2,1-mal mehr kostet, wenn man einen 1-TB-Datensatz analysiert und 2,3 mal mehr bei der Analyse eines 10-TB-Datensatzes.
Fazit
Wenn Ihr Unternehmen Entscheidungsfindungs-Datenbanken mit Databricks unterstützt, kann die Photon Abfrage-Engine auf GCP n2-highmem-8 VMs die Abfragezeit reduzieren und einen besseren Wert bieten. Mit Photon haben diese 8-vCPU-VMs eine Datenbank-Workload für Entscheidungsunterstützung bis zu 3,6-mal so schnell wie ohne Photon abgeschlossen. Diese Leistungsverbesserungen führten zu einem besseren Wert, wobei N2-VMs ohne Photon bis zu 2,3-mal so viel kosteten wie ihre Photon-unterstützen Gegenstücke. Wählen Sie für schnellere Leistung und Kosteneinsparungen die GCP N2 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation und mit Photon aktiviert.
Weitere Informationen
Um mit der Ausführung Ihrer Databricks-Cluster mit Photon auf GCP N2 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation zu beginnen, besuchen Sie https://cloud.google.com/compute/docs/general-purpose-machines.
Tests von Intel im März 2021 auf GCP us-central1 (Iowa). Alle Konfigurationen: 21 Instanzen (20 Mitarbeiter + 1 Master), N2-highmem-8 Instanzen mit Intel Cascade Lake CPUs, 08 vCPUs, 128 GB RAM, 25 Gbit/s, 500 GB Remote-SSD+0,75 TB Local SSD, 240-1200/240-1200 (R/W Remote-SSD) 9360/4680 (R/W Local SSD) Ubuntu 20.04.3 LTS Kernel 5.4.170+, Databricks 10.3. Spark-Konfiguration: spark.databricks.passthrough.enabled true, spark.databricks.adaptive.autoOptimizeShuffle.enabled true, spark.databricks.io.cache.maxMetaDataCache 10g, spark.databricks.io.cache.maxDiskUsage 100g, spark.databricks.delta.preview.enabled true. Gesamtkosten pro Ausführung Stand vom März 2022: m. Photon 1 TB: 6,44 USD, m. Photon 10 TB: 33,11 USD, o. Photon 1 TB: 13,95 USD; o. Photon 10 TB: 78,10 USD.