Titelaufnahme

Titel
Apache Hadoop – Performancetests hinsichtlich Verfügbarkeit
Weitere Titel
Apache Hadoop - performancetests regarding availability
VerfasserMohamed Abdarahmane, Isselmou
GutachterGöschka, Karl Michael
Erschienen2016
Datum der AbgabeAugust 2016
SpracheDeutsch
DokumenttypBachelorarbeit
Schlagwörter (DE)Benchmarks / Hadoop / HDFS / MapReduce / TestDFSIO / Verfügbarkeit / YARN
Schlagwörter (EN)Benchmarks / Hadoop / HDFS / MapReduce / TestDFSIO / Verfügbarkeit / YARN
Zugriffsbeschränkung
 _
Klassifikation
Zusammenfassung (Deutsch)

Der Begriff Big-Data umfasst die neue Herausforderung mit großen Datenmengen, die schnell wachsen und durch ihre große Datentyp-Vielfalt ausgezeichnet sind, effizient zu verarbeiten. Apache Hadoop wurde für das parallele Verarbeiten großer Datenmengen entwickelt. Da dieses System darauf ausgelegt ist, auf Tausenden von Knoten zu arbeiten, ist die Verfügbarkeit dieses verteilten Systems ein sehr interessanter Aspekt.

Diese Arbeit beschäftigt sich mit Performancetests eines Hadoop Clusters, in Zusammenhang mit der Verfügbarkeit des Systems. Der Cluster wurde in der Amazon Elastic Computing Cloud (EC2) realisiert. Als Benchmark für die Performancetests wurde TestDFSIO verwendet. Dieses Benchmark wurde nach dem MapReduce Programmiermodell implementiert und ermöglicht die Messung der durchschnittlichen I/O Rate, sowie des Datendurchsatzes.

Nachdem das System bezüglich seiner Performance getestet wurde, wurden die Messergebnisse als Basis für den Vergleich, ob das System unter Änderungen der Knoten-Verfügbarkeit, in seiner Leistung variiert bzw. ob es die anstehenden Jobs noch ausführt, verwendet.

Das Ergebnis der endgültigen Performancetests ergab, dass unter steigender Datengröße, das System immer schlechter den Verlust eines Knotens auskompensieren konnte, obwohl jegliche Daten repliziert wurden. Ab einer gewissen Größe ist die Verarbeitung jedes Mal fehlgeschlagen.

Jedoch bei ausreichender Rechenkapazität, bzw. bei nicht zu starker Auslastung des Systems, ist der Cluster in der Lage den Verlust einzelner Knoten zu kompensieren.

Zusammenfassung (Englisch)

Der Begriff Big-Data umfasst die neue Herausforderung mit großen Datenmengen, die schnell wachsen und durch ihre große Datentyp-Vielfalt ausgezeichnet sind, effizient zu verarbeiten. Apache Hadoop wurde für das parallele Verarbeiten großer Datenmengen entwickelt. Da dieses System darauf ausgelegt ist, auf Tausenden von Knoten zu arbeiten, ist die Verfügbarkeit dieses verteilten Systems ein sehr interessanter Aspekt.

Diese Arbeit beschäftigt sich mit Performancetests eines Hadoop Clusters, in Zusammenhang mit der Verfügbarkeit des Systems. Der Cluster wurde in der Amazon Elastic Computing Cloud (EC2) realisiert. Als Benchmark für die Performancetests wurde TestDFSIO verwendet. Dieses Benchmark wurde nach dem MapReduce Programmiermodell implementiert und ermöglicht die Messung der durchschnittlichen I/O Rate, sowie des Datendurchsatzes.

Nachdem das System bezüglich seiner Performance getestet wurde, wurden die Messergebnisse als Basis für den Vergleich, ob das System unter Änderungen der Knoten-Verfügbarkeit, in seiner Leistung variiert bzw. ob es die anstehenden Jobs noch ausführt, verwendet.

Das Ergebnis der endgültigen Performancetests ergab, dass unter steigender Datengröße, das System immer schlechter den Verlust eines Knotens auskompensieren konnte, obwohl jegliche Daten repliziert wurden. Ab einer gewissen Größe ist die Verarbeitung jedes Mal fehlgeschlagen.

Jedoch bei ausreichender Rechenkapazität, bzw. bei nicht zu starker Auslastung des Systems, ist der Cluster in der Lage den Verlust einzelner Knoten zu kompensieren.