Führen Sie Databricks-Abfragen in bis zu 76 % weniger Zeit aus und reduzieren Sie die Kosten mit Amazon® R5d-Instanzen mit skalierbaren Intel® Xeon® Prozessoren der 2. Generation

Databricks:

  • Führen Sie Decision Support Abfragen in bis zu 76 % kürzerer Zeit mit r5d.2xlarge Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation aus, wobei Photon aktiviert ist.

  • Verbringen Sie bis zu 51 % weniger für die Ausführung von Entscheidungsunterstützungsabfragen mit r5d.2xlarge Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation mit aktiviertem Photon.

author-image

Von

Da die Photon Vectorized Query Engine aktiviert ist, haben diese Instanzen r5a.2xlarge Instanzen mit AMD EPYC™ Prozessoren auf Entscheidungsunterstützungs-Workloads deutlich übertroffen und einen besseren Nutzen erzielt

Viele Unternehmen verlassen sich bei der Speicherung und Analyse von Daten, sowohl strukturiert als auch unstrukturiert, auf die Lakehouse-Plattform von Databricks. Um Ihre Entscheidungsunterstützungsabfragen schnell auszuführen, ist es wichtig, Cloud-Instanzen zu wählen, die auf leistungsstarker Hardware basiert. Die Bestimmung, welche Instanzen dieses Kriterien erfüllen, kann jedoch eine Herausforderung darstellen.

Wir haben Tests durchgeführt, um Unternehmen zu unterstützen, die für ihre Decision-Support-Workloads Cloud-Instanzen einkaufen. Insbesondere haben wir uns die AWS-Instanzreihe angesehen: R5d-Instanzen, die von skalierbaren Intel® Xeon® Prozessoren der 2. Generation und R5a-Instanzen mit AMD EPYC-Prozessoren aktiviert sind. Wir haben Databricks Runtime 9.0 Cluster dieser beiden Instanztypen erstellt, um eine Decision-Support-Workload auszuführen. Im R5d-Cluster haben wir VMs verwendet, die eine vektorisierte Abfrage-Engine namens Photon aktiviert haben, die zur Verbesserung der SQL-Abfrageleistung entwickelt wurde. Zum Zeitpunkt dieser Tests wird die Photon-Engine von Databricks in R5a-Instanzen nicht unterstützt.

R5d-Instanzen haben Decision-Support-Workloads in kürzerer Zeit abgeschlossen

Wir haben die beiden AWS-Instanzen mit einem Decision-Support-Benchmark getestet, der ein ergebnisoptimiertes Ergebnis generiert, das den Zeitaufwand für die Ausführung eines bestimmten Satz von Abfragen widerspiegelt. Die Auswahl einer Instanz, die weniger Zeit benötigt, kann Ihrem Unternehmen auf zwei Arten helfen: erstens, indem wertvolle Informationen früher und zweitens erhalten, die Instanzbetriebszeit und die damit verbundenen Kosten reduziert werden, was Ihnen helfen kann, weniger auszugeben. Wie Abbildung 1 zeigt, haben r5d.2xlarge-Instanzen mit skalierbaren Prozessoren der 2. Intel Xeon Generation und Photon-fähige abgeschlossene Abfragen auf einem 1 TB-Datensatz in 74 % weniger Zeit als r5a.2xlarge-Instanzen mit AMD EPYC-Prozessoren. Mit einem 10 TB Datensatz war die Abfragefertigstellungszeit des r5d.2xlarge Clusters 76 % kürzer als die des r5a.2xlarge Clusters.

Abbildung 1. Relative Verarbeitungszeit, um eine Reihe von Benchmark-Abfragen in einem Photon-fähigen r5d.2xlarge Instanzcluster mit skalierbaren Intel Xeon Prozessoren der 2. Generation und einem r5a.2xlarge-Cluster mit AMD EPYC-Prozessoren auf sowohl 1 TB als auch 10 TB Datensätzen abzuschließen.

Wie kürzere Abfragezeiten Ihrem Endergebnis helfen können

Wie bei jeder Ressource, in die Ihr Unternehmen investiert, ist es eine Priorität, einen guten Preis für Ihren Dollar zu erhalten. Wir haben berechnet, wie viel es einem Unternehmen kosten würde, die auf der vorherigen Seite besprochenen Testszenarien durchzuführen. Wir haben den Preis pro Stunde für jede Instanz, Datenspeicher- und Databricks-DBUs zum Zeitpunkt der Tests zusammen mit den Zeiten in Abbildung 1 verwendet, um den Preis pro TB für alle vier Szenarien zu bestimmen. Wie Abbildung 2 zeigt, würde ein Unternehmen viel weniger ausgeben, wenn es Entscheidungsunterstützungs-Workloads auf photon-fähigen r5d.2xlarge-Instanzen ausführen würde. Für das 1-TB-Dataset könnte der r5d.2xlarge Cluster, der von skalierbaren Intel® Xeon® Prozessoren der 2. Generation aktiviert wird, ein 46 % geringeres Preis-Leistungs-Verhältnis bieten als der r5a.2xlarge Cluster mit AMD EPYC-Prozessoren. Für den 10 TB-Datensatz würde der Photon-fähige r5d.2xlarge Cluster die Preis-Leistungs-Kosten um 51 % reduzieren.

Abbildung 2. Normalisiertes Preis-Leistungs-Verhältnis für die Ausführung einer Entscheidungsunterstützungs-Workload gegen eine Databricks-Umgebung auf photon-fähigen Amazon r5d.2xlarge-Instanzen im Vergleich zu r5a.2xlarge-Instanzen auf 1 TB- und 10 TB-Datensätzen.

Schlussfolgerung

Wir haben die Zeit zum Abschließen eines Satzes von Databricks-Abfragen für zwei verschiedene Datensatzgrößen in Photon-fähigen AWS r5d.2xlarge Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation und r5a.2xlarge Instanzen mit AMD EPYC Prozessoren gemessen. Die r5d.2xlarge-Instanzen haben Sätze von Abfragen in bis zu 76 % weniger Zeit abgeschlossen. Als wir diese Zeiten mit den Stundenpreisen für die beiden Instanzen kombinierten, fanden wir heraus, dass die r5d.2xlarge Instanzen erheblich weniger kosten, um die gleiche Arbeitsmenge auszuführen – eine Kosteneinsparung von bis zu 51 %. Wenn Ihr Unternehmen zu einem früheren Beginn verwertbare Erkenntnisse erhalten und die Ausgaben für AWS-Instanzen reduzieren möchte, wählen Sie Photon-fähige r5d.2xlarge-Instanzen mit skalierbaren Intel Xeon Prozessoren der 2. Generation.

Weitere Informationen

Besuchen Sie https://aws.amazon.com/quickstart/architecture/databricks/, um mit der Ausführung Ihrer Databricks-Cluster auf Photon-fähigen Amazon R5d-Instanzen mit skalierbaren Prozessoren der 2 Intel Xeon. Generation zu beginnen.

Um mehr über die Photon Vectorized Query Engine von Databricks zu erfahren, besuchen Sie https://databricks.com/product/photon und https://docs.databricks.com/runtime/photon.html.

Für alle Ergebnisse in diesem Bericht haben wir einen Decision-Support-Workload verwendet, der von TPC-DS abgeleitet wurde. Alle Tests wurden im Dezember 2021 in der AWS-Region US-East-1 durchgeführt. Alle Tests verwendeten 20-Knoten-Cluster mit Ubuntu 18.04.1, Kernel-Version 5.4.0-1059-AWS, Databricks 9.0, Apache Spark 3.1.2, Tutorial 2.12. Beide Instanztypen verfügten über 8 vCPUs und 64 GB RAM. Das r5d.2xlarge verfügte über ein 300-GB-NVMe-SSD, 10-Gbit/s-Netzwerk-BW und 4.750 Mbit/s Speicher-BW. Die r5a.2xlarge-Instanzen verfügten über ein 250 GB EBS-Volume, 10 Gbit/s Netzwerk-BW und 2.880 Mbit/s Speicher-BW.

Der Inhalt dieser Seite ist eine Kombination aus menschlicher und computerbasierter Übersetzung des originalen, englischsprachigen Inhalts. Dieser Inhalt wird zum besseren Verständnis und nur zur allgemeinen Information bereitgestellt und sollte nicht als vollständig oder fehlerfrei betrachtet werden. Sollte eine Diskrepanz zwischen der englischsprachigen Version dieser Seite und der Übersetzung auftreten, gilt die englische Version. Englische Version dieser Seite anzeigen.