Twitter steigert Hadoop*-Performance

Erfahren Sie, wie Intel und Twitter durch gemeinsame Speicheroptimierung die Performance der Twitter-Hadoop-Cluster steigern konnten. Durch Beseitigung von Speicherengpässen konnte Twitter die Laufzeiten verbessern und die Ressourcenanforderungen des Rechenzentrums – und somit auch die Gesamtbetriebskosten – minimieren.

Datenanalyse

Für die nächste Stufe der Business-Innovation ist eine schnellere Erkenntnisgewinnung unabdingbar. Produkte und Technik von Intel® sind der richtige Einstieg.

Weitere Infos

Transkript:

Täglich werden Hunderte Millionen von Tweets erstellt; d. h. das Rechenzentrum von Twitter muss über 1 Billion Ereignisse verarbeiten. Deshalb ist Twitter einer der größten Hadoop-Benutzer der Welt.

Hadoop unterstützt die Speicherung von Ereignissen und die Durchführung von Analysen dieser Daten. In einem typischen Hadoop-Cluster bei Twitter können ständig über 100.000 Festplattenlaufwerke im Einsatz sein. Die Festplatten lieferten jedoch nicht genügend IOPS, um den Anwendungen den schnellen Datenzugriff zu ermöglichen. Von YARN verwaltete HDFS-Daten und temporäre Daten fließen häufig gleichzeitig, was zu Leistungsengpässen führen kann. Etwas musste sich ändern.

Mit der Hilfe von Intel entwickelte Twitter eine neue Hadoop-Lösung unter Verwendung der Intel® Cache Acceleration Software (Intel® CAS), um die temporären YARN-Dateien selektiv auf einem schnellen Solid-State-Drive zwischenzuspeichern.

Die beiden Datenströme konkurrierten nicht mehr miteinander, sodass die Auslastung der Festplattenlaufwerke gesenkt wurde und Hadoop Daten schneller bereitstellen konnte.

Durch die Beseitigung des Engpasses beim Datenspeicher-I/O konnte Twitter die Gesamtzahl der Racks im Cluster reduzieren und den Platzbedarf im Rechenzentrum verringern. Durch die Verwendung weniger, aber größerer Festplatten wurde die Anzahl der Festplatten in einem Cluster um 75 Prozent reduziert, ohne die Leistung zu beeinträchtigen.

Dadurch konnte Twitter mehr CPU-Leistung nutzen und von 4-Kern-Prozessoren auf 24-Kern-Prozessoren umsteigen. Die Reduzierung der Anzahl der Systeme, Festplatten und Racks in den Hadoop-Clustern ermöglichte geringere Wartungskosten und weniger Stromverbrauch ohne Abstriche bei den Ergebnissen.

Die Optimierung der Datenspeicherleistung führte zu wesentlich schnelleren Laufzeiten und niedrigeren Gesamtbetriebskosten (TCO). So kann der Hadoop-Cluster von Twitter mit zunehmender Datenmenge weiter skaliert werden und gleichzeitig die großartige Erfahrung bieten, die die Benutzer erwarten.