Führen Sie Ihre Databricks-Abfragen in bis zu 38 % weniger Zeit aus und reduzieren Sie die Kosten um bis zu 30 %, indem Sie Microsoft® Azure® Edsv4-VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation auswählen

Databricks:

  • Führen Sie Abfragen zur Entscheidungsunterstützung in bis zu 38 % weniger Zeit mit E8ds_v4-VMs aus, die durch skalierbare Intel Xeon-Prozessoren der 2. Generation aktiviert sind, im Vergleich zu L8s_v2-VMs mit AMD EPYC-Prozessoren.

  • Geben Sie bis zu 30% weniger aus, um Abfragen zur Entscheidungsunterstützung mit E8ds_v4 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation auszuführen, im Vergleich zu L8s_v2 VMs mit AMD EPYC-Prozessoren.

author-image

Von

Mit aktivierter Photon Vectorized Query Engine lieferten diese VMs eine höhere Leistung bei der Entscheidungsunterstützung als speicheroptimiert L8s_v2 VMs mit AMD EPYC™ Prozessoren

Databricks und Databricks Lakehouse Platform speichern und analysieren die großen Mengen an strukturierten und unstrukturierten Daten, die Organisationen sammeln. Wenn Sie diese Workloads in der Cloud ausführen, können Sie die zum Durchführen von Abfragen erforderliche Zeit verkürzen, indem Sie Instanzen basierend auf Hardware mit guter Leistung auswählen. Schnellere Abfragen bedeutet die Implementierung der bereitgestellten Erkenntnisse.

Um Unternehmen bei der Auswahl von Cloud-VMs für Data Warehousing/Entscheidungsunterstützung zu unterstützen, haben wir zwei Microsoft Azure-VM-Serien getestet, die für solche Workloads gut geeignet sind: Edsv4-VMs mit skalierbaren Intel® Xeon®-Prozessoren der 2. Generation und speicheroptimierte Lsv2-VMs mit AMD EPYC-Prozessoren. Wir haben eine Workload zur Entscheidungsunterstützung auf Clustern dieser beiden VM-Reihen getestet, die von Databricks Runtime 9,0 aktiviert wurden. Wir haben Photon, eine vektorisierte Abfrage-Engine zur Verbesserung der SQL-Abfrageleistung, auf beiden aktiviert.

Die Edsv4-VMs mit Intel Xeon-Prozessoren der 2. Generation übertrafen die speicheroptimierten Lsv2-VMs, indem sie die Abfragen schneller abschlossen. Als wir außerdem das Preis-Leistungs-Verhältnis der beiden Serien für diese Workload berechneten, stellten wir fest, dass die Edsv4-VMs auch ein besseres Preis-Leistungs-Verhältnis lieferten.

Genießen Sie die Leistung von Speedier Data Warehouse mit Edsv4-VMs

Unsere Tests verwendeten einen auf TPC-DS basierenden Entscheidungsunterstützungs-Benchmark, der eine „Weniger ist besser“-Metrik liefert, die die Zeit widerspiegelt, die für die Durchführung einer bestimmten Reihe von Abfragen erforderlich ist. Kürzere Zeiten liefern Entscheidungsträgern nicht nur früher umsetzbare Erkenntnisse, sondern können auch zu Einsparungen führen, indem die VM-Betriebszeit und die damit verbundenen Kosten reduziert werden. Wie Abbildung 1 zeigt, haben E8ds_v4-VMs mit skalierbaren Intel Xeon-Prozessoren der 2. Generation Abfragen für einen 1-TB-Datensatz in 38 % weniger Zeit abgeschlossen als L8s_v2-VMs mit AMD EPYC-Prozessoren. Bei einem 10-TB-Datensatz war die Abfrageabschlusszeit des E8ds_v4-Clusters um 36 % kürzer als die des L8s_v2-Clusters.

Abbildung 1: Relative Verarbeitungszeit zum Abschließen einer Reihe von Benchmark-Abfragen auf einem Photon-fähigen E8ds_v4-VM-Cluster mit skalierbaren Intel Xeon-Prozessoren der 2. Generation und einem L8s_v2-Cluster mit AMD EPYC-Prozessoren auf Datensätzen mit 1 TB und 10 TB.

Eine schnellere Abfragezeit führt zu einem besseren Wert

Beim Kauf der richtigen VMs für Ihre Databricks-Workloads kann die Preisgestaltung ein wichtiger Faktor sein. Um den Preis für die Durchführung der auf der vorherigen Seite beschriebenen Testszenarien zu berechnen, haben wir mit dem Preis pro Stunde für jede VM zum Zeitpunkt des Tests begonnen. Wir haben diese Rate und die Zeiten in Abbildung 1 verwendet, um den Preis pro TB-Lauf für alle vier Szenarien zu bestimmen. Wie Abbildung 2 zeigt, könnten wir Workloads zur Entscheidungsunterstützung auf Edsv4-VMs zu geringeren Kosten für eine bestimmte Menge an Leistung ausführen. Bei dem Datensatz von 1 TB verfügte der E8ds_v4-Cluster mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation über ein um 30 % niedrigeres Preis-/Leistungsverhältnis als der speicheroptimierte L8s_v2-Cluster mit AMD EPYC-Prozessoren. Für den 10-TB-Datensatz lieferte der E8ds_v4-Cluster Preis-/Leistungseinsparungen von 22 %.

Abbildung 2: Normalisiertes Preis-/Leistungsverhältnis für die Ausführung einer Entscheidungshilfe-Workload in einer Databricks-Umgebung auf Photon-aktivierten Azure L8s_v2 VMs im Vergleich zu E8as_v4 VMs auf 1 TB und 10 TB Datensätzen.

Fazit

Wir haben zwei Metriken – die Zeit zum Abschließen einer Reihe von Databricks-Abfragen und das Preis-Leistungs-Verhältnis – für zwei verschiedene Datensatzgrößen auf Microsoft Azure E8ds_v4-VMs mit skalierbaren Intel Xeon-Prozessoren der 2. Generation und speicheroptimierten L8s_v2-VMs mit AMD EPYC-Prozessoren untersucht. Die E8ds_v4-VMs haben Abfragesätze in bis zu 38 % weniger Zeit abgeschlossen. In Kombination mit Stundenpreisen erzielten diese VMs Kosteneinsparungen von bis zu 30 %. Durch die Auswahl von E8ds_v4-VMs mit skalierbaren Intel Xeon-Prozessoren der 2. Generation könnte Ihr Unternehmen früher Erkenntnisse gewinnen und gleichzeitig weniger ausgeben.

Weitere Informationen

Wenn Sie Ihre Databricks-Cluster auf Photon-aktivierten Microsoft Azure Edsv4 VMs mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation betreiben möchten, besuchen Sie https://docs.microsoft.com/de-de/azure/virtual-machines/edv4-edsv4-series.

Die vollständigen Testdetails und Ergebnisse, die zeigen, wie diese mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation ausgestatteten VMs im Vergleich zu VMs mit Prozessoren der vorherigen Generation abgeschnitten haben, finden Sie in dem Bericht unter https://www.intel.de/content/www/de/de/partner/workload/microsoft/enhance-databricks-with-azure-vms-photon-benchmark.html.