Bibliographic Metadata

Title
Apache Hadoop – Performancetests hinsichtlich Verfügbarkeit
Additional Titles
Apache Hadoop - performancetests regarding availability
AuthorMohamed Abdarahmane, Isselmou
Thesis advisorGöschka, Karl Michael
Published2016
Date of SubmissionAugust 2016
LanguageGerman
Document typeBachelor Thesis
Keywords (DE)Benchmarks / Hadoop / HDFS / MapReduce / TestDFSIO / Verfügbarkeit / YARN
Keywords (EN)Benchmarks / Hadoop / HDFS / MapReduce / TestDFSIO / Verfügbarkeit / YARN
Restriction-Information
 _
Classification
Abstract (German)

Der Begriff Big-Data umfasst die neue Herausforderung mit großen Datenmengen, die schnell wachsen und durch ihre große Datentyp-Vielfalt ausgezeichnet sind, effizient zu verarbeiten. Apache Hadoop wurde für das parallele Verarbeiten großer Datenmengen entwickelt. Da dieses System darauf ausgelegt ist, auf Tausenden von Knoten zu arbeiten, ist die Verfügbarkeit dieses verteilten Systems ein sehr interessanter Aspekt.

Diese Arbeit beschäftigt sich mit Performancetests eines Hadoop Clusters, in Zusammenhang mit der Verfügbarkeit des Systems. Der Cluster wurde in der Amazon Elastic Computing Cloud (EC2) realisiert. Als Benchmark für die Performancetests wurde TestDFSIO verwendet. Dieses Benchmark wurde nach dem MapReduce Programmiermodell implementiert und ermöglicht die Messung der durchschnittlichen I/O Rate, sowie des Datendurchsatzes.

Nachdem das System bezüglich seiner Performance getestet wurde, wurden die Messergebnisse als Basis für den Vergleich, ob das System unter Änderungen der Knoten-Verfügbarkeit, in seiner Leistung variiert bzw. ob es die anstehenden Jobs noch ausführt, verwendet.

Das Ergebnis der endgültigen Performancetests ergab, dass unter steigender Datengröße, das System immer schlechter den Verlust eines Knotens auskompensieren konnte, obwohl jegliche Daten repliziert wurden. Ab einer gewissen Größe ist die Verarbeitung jedes Mal fehlgeschlagen.

Jedoch bei ausreichender Rechenkapazität, bzw. bei nicht zu starker Auslastung des Systems, ist der Cluster in der Lage den Verlust einzelner Knoten zu kompensieren.

Abstract (English)

Der Begriff Big-Data umfasst die neue Herausforderung mit großen Datenmengen, die schnell wachsen und durch ihre große Datentyp-Vielfalt ausgezeichnet sind, effizient zu verarbeiten. Apache Hadoop wurde für das parallele Verarbeiten großer Datenmengen entwickelt. Da dieses System darauf ausgelegt ist, auf Tausenden von Knoten zu arbeiten, ist die Verfügbarkeit dieses verteilten Systems ein sehr interessanter Aspekt.

Diese Arbeit beschäftigt sich mit Performancetests eines Hadoop Clusters, in Zusammenhang mit der Verfügbarkeit des Systems. Der Cluster wurde in der Amazon Elastic Computing Cloud (EC2) realisiert. Als Benchmark für die Performancetests wurde TestDFSIO verwendet. Dieses Benchmark wurde nach dem MapReduce Programmiermodell implementiert und ermöglicht die Messung der durchschnittlichen I/O Rate, sowie des Datendurchsatzes.

Nachdem das System bezüglich seiner Performance getestet wurde, wurden die Messergebnisse als Basis für den Vergleich, ob das System unter Änderungen der Knoten-Verfügbarkeit, in seiner Leistung variiert bzw. ob es die anstehenden Jobs noch ausführt, verwendet.

Das Ergebnis der endgültigen Performancetests ergab, dass unter steigender Datengröße, das System immer schlechter den Verlust eines Knotens auskompensieren konnte, obwohl jegliche Daten repliziert wurden. Ab einer gewissen Größe ist die Verarbeitung jedes Mal fehlgeschlagen.

Jedoch bei ausreichender Rechenkapazität, bzw. bei nicht zu starker Auslastung des Systems, ist der Cluster in der Lage den Verlust einzelner Knoten zu kompensieren.

Stats
The PDF-Document has been downloaded 0 times.