Kurzübersicht
Datenspeicher-I/O kann für Hadoop* Cluster einen beträchtlichen Leistungsengpass darstellen, vor allem bei Hyperscale-Bereitstellungen wie auf Twitter, wobei ein einzelner Cluster bis zu 10.000 Knoten und fast 100 PB logischen Datenspeicher enthalten kann. Der typische Hadoop-Cluster bei Twitter enthält mehr als 100.000 Festplatten (HDDs) – aber diese Konfiguration hat ein I/O-Leistungslimit erreicht, denn obwohl die HDD-Kapazität im Laufe der Zeit gestiegen ist, hat sich die HDD-Leistung nicht deutlich geändert.2 Deshalb würden Twitters Skalierungsprobleme nicht einfach duch mehr und größere HDDs zu lösen sein – eigentlich würden sie sich noch verschlimmern, da der I/O-Wert pro GB sinken würde. Weitere Spindeln pro Knoten waren aufgrund von Einschränkungen bezüglich Platz und Energie nicht durchführbar.
In Zusammenarbeit mit einem Intel Engineering-Team führten bei Twitter Ingenieure eine Reihe von Experimenten durch, die zeigten, dass eine Speicherung von durch YARN* (Yet Another Resource Negotiator*) verwalteten temporären Dateien auf schnellen SSDs deutliche Leistungsverbesserungen auf der existierenden Hardware ermöglichten (bis zu 50 Prozent Reduzierung in Runtime).3 Das Team entdeckte auch, dass die Behebung des Engpasses beim Datenspeicher-I/O die Verwendung größerer Festplatten ermöglichte und gleichzeitig die Prozessorauslastung erhöhte, was wiederum die Verwendung von Prozessoren mit höherer Kernanzahl erlaubte. Dies hatte eine positive Auswirkung auf die Datenspeicherleistung und führte zu einer höheren Rechendichte im Rechenzentrum, da die Azahl der erforderlichen HDDs sank.
Höhere Dichte führt zu Einsparungen bei den Gesamtbetriebskosten (TCO) durch Energieeffizienz, weniger Racks und weniger Platzbedarf im Rechenzentrum. Insgesamt erwartet Twitter, dass das Caching von temporären Daten und die Erhöhung der Kernzahlen zu etwa 30 Prozent niedrigeren TCO-Werten und mehr als 50 Prozent schnelleren Laufzeiten führen wird.1
Lesen Sie das Whitepaper – Boosting Hadoop* Performance and Cost Efficiency with Caching, Fast SSDs, and More Compute