Twitter steigert Leistung und Kosteneffizienz

Twitter erhöht die Leistung und Kosteneffizienz von Hadoop durch Caching, schnelle SSDs und mehr Rechenleistung.

Kurzübersicht
Datenspeicher-I/O kann für Hadoop* Cluster einen beträchtlichen Leistungsengpass darstellen, vor allem bei Hyperscale-Bereitstellungen wie auf Twitter, wobei ein einzelner Cluster bis zu 10.000 Knoten und fast 100 PB logischen Datenspeicher enthalten kann. Der typische Hadoop-Cluster bei Twitter enthält mehr als 100.000 Festplatten (HDDs) – aber diese Konfiguration hat ein I/O-Leistungslimit erreicht, denn obwohl die HDD-Kapazität im Laufe der Zeit gestiegen ist, hat sich die HDD-Leistung nicht deutlich geändert.2 Deshalb würden Twitters Skalierungsprobleme nicht einfach duch mehr und größere HDDs zu lösen sein – eigentlich würden sie sich noch verschlimmern, da der I/O-Wert pro GB sinken würde. Weitere Spindeln pro Knoten waren aufgrund von Einschränkungen bezüglich Platz und Energie nicht durchführbar.

In Zusammenarbeit mit einem Intel Engineering-Team führten bei Twitter Ingenieure eine Reihe von Experimenten durch, die zeigten, dass eine Speicherung von durch YARN* (Yet Another Resource Negotiator*) verwalteten temporären Dateien auf schnellen SSDs deutliche Leistungsverbesserungen auf der existierenden Hardware ermöglichten (bis zu 50 Prozent Reduzierung in Runtime).3 Das Team entdeckte auch, dass die Behebung des Engpasses beim Datenspeicher-I/O die Verwendung größerer Festplatten ermöglichte und gleichzeitig die Prozessorauslastung erhöhte, was wiederum die Verwendung von Prozessoren mit höherer Kernanzahl erlaubte. Dies hatte eine positive Auswirkung auf die Datenspeicherleistung und führte zu einer höheren Rechendichte im Rechenzentrum, da die Azahl der erforderlichen HDDs sank.

Höhere Dichte führt zu Einsparungen bei den Gesamtbetriebskosten (TCO) durch Energieeffizienz, weniger Racks und weniger Platzbedarf im Rechenzentrum. Insgesamt erwartet Twitter, dass das Caching von temporären Daten und die Erhöhung der Kernzahlen zu etwa 30 Prozent niedrigeren TCO-Werten und mehr als 50 Prozent schnelleren Laufzeiten führen wird.1

Lesen Sie das Whitepaper – Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute

Informationen über zugehörige Produkte und Lösungen

Skalierbare Intel® Xeon® Prozessorreihe

Mit der skalierbaren Intel® Xeon® Plattform lassen sich nutzbringende Erkenntnisse einfacher gewinnen. Darüber hinaus bietet die Plattform hardwarebasierte Sicherheit und ermöglicht die dynamische Bereitstellung von Diensten.

Weitere Infos

Intel® SSD DC-Serie

Intel® Rechenzentrums-SSDs sind für hohe Leistung, Zuverlässigkeit und Langlebigkeit optimiert.

Weitere Infos

Hinweise und Disclaimer

Durch Intel® Technik ermöglichte Funktionsmerkmale und Vorteile hängen von der Systemkonfiguration ab und können entsprechend geeignete Hardware, Software oder die Aktivierung von Diensten erfordern. Die Leistungsmerkmale variieren je nach Systemkonfiguration. Kein Computersystem bietet absolute Sicherheit. Informieren Sie sich beim Systemhersteller oder Einzelhändler oder auf https://www.intel.de. In Leistungstests verwendete Software und Workloads können speziell für die Leistungseigenschaften von Intel® Mikroprozessoren optimiert worden sein. Leistungstests wie SYSmark und MobileMark werden mit spezifischen Computersystemen, Komponenten, Softwareprogrammen, Operationen und Funktionen durchgeführt. Jede Veränderung bei einem dieser Faktoren kann abweichende Ergebnisse zur Folge haben. Für eine umfassende Bewertung Ihrer vorgesehenen Anschaffung, auch im Hinblick auf die Leistung des betreffenden Produkts in Verbindung mit anderen Produkten, sollten Sie zusätzliche Informationen und Leistungstests heranziehen.Ausführlichere Informationen finden Sie unter https://www.intel.de/benchmarks. Die Leistungsergebnisse basieren auf Tests, die zum Zeitpunkt, der in den Konfigurationen angegeben ist, durchgeführt wurden und berücksichtigen möglicherweise nicht alle öffentlich verfügbaren Sicherheitsupdates. Weitere Einzelheiten finden Sie in den veröffentlichten Konfigurationsdaten. Kein Produkt und keine Komponente bieten absolute Sicherheit. // Die beschriebenen Kostensenkungsszenarien sind als Beispiele dafür gedacht, wie ein bestimmtes Produkt mit Intel®-Technik unter den genannten Umständen und in der angegebenen Konfiguration zukünftige Kosten beeinflussen und Einsparungen ermöglichen kann. Die Umstände unterscheiden sich von Fall zu Fall. Intel übernimmt keine Gewähr für Kosten oder Kostensenkungen. // Intel hat keinen Einfluss auf und keine Aufsicht über die Benchmarkdaten Dritter oder die Websites, auf die in diesem Dokument Bezug genommen wird. Besuchen Sie die genannten Websites, um sich davon zu überzeugen, dass die angeführten Benchmarkdaten zutreffen. // Bei einigen Tests wurden die Ergebnisse unter Verwendung interner Analysen oder Architektursimulationen bzw. -modellen von Intel geschätzt oder nachempfunden. Sie dienen nur informatorischen Zwecken. Unterschiede in der Hardware, Software oder Konfiguration des Systems können die tatsächliche Leistung beeinflussen.

Produkt- und Leistungsinformationen

1

Baseline: Single-Socket Intel® Xeon® E3-1230 Prozessor v6 (4 Kerne); 32 bis 64 GB RAM, 1x 1 TB oder 2 TB HDDs, Intel S4500 240 GB Boot-Disk, 1 GbE bis 10 GbE Ethernet, kein Caching. Test: Single-Socket Intel® Xeon® Gold 6262 Prozessor (24 Kerne), 192 GB RAM, Intel S4500 240 GB Boot-Disk, 8x 6 TB HDDs; 1x Intel® SSDs DC P4610 6,4 TB; 25 GbE Ethernet, Caching unter Verwendung von Intel® Cache Beschleunigungs-Software (Intel® CAS). OS: Twitter CentOS* 6 Derivative, Kernel Version 2.6.74-t1.el6.x86_64 (basierend auf Upstream 4.14.12 Kernel), BIOS-Version: D3WWM11, Microcode-Version: 0xb000021.

2

Backblaze, September 2018, „Hard Disk Drive (HDD) vs. Solid State Drive (SSD): Was ist der Unterschied?" ​​​​​https://www.backblaze.com/blog/hdd-versus-ssd-whats-the-diff/

3

Baseline: Dual-Sockel Intel® Xeon® E5-2630 Prozessor v4 mit 2,2 GHz (10 Kerne/20 Threads pro Sockel); 128 GB RAM, 12x 6 TB 7200 RPM SATA HDD; 1x SATA SSD Boot-Disk; 25 GbE Ethernet; 102 Knoten verteilt auf 6 Racks. Workload: Gridmix* und Terasort*. Ergebnis von Gridmix: 3309 Sekunden, Ergebnis von Terasort: 5504 Sekunden Test: Dual-Sockel Intel® Xeon® E5-2630 Prozessor v4 mit 2,2 GHz (10 Kerne/20 Threads pro Sockel); 128 GB RAM; 12x 6 TB 7200 RPM SATA HDD; 1x SATA SSD Boot-Disk, 1x 750 GB Intel® Optane™ DC P4800X NVMe*-basierte SSD; 25 GbE Ethernet; 102 Knoten verteilt auf 6 Racks. Workload: Gridmix und Terasort. Ergebnis von Gridmix: 2396 Sekunden; Ergebnis von Terasort: 2640 Sekunden Betriebssystem: Twitter CentOS* 6 Derivative, Kernel.