Titelaufnahme

Titel
Analyse und Design einer Architektur basierend auf Elasticsearch und Kibana zur Aufbereitung und Visualisierung von Fast-Echtzeit Daten / vorgelegt von Raphael Fakhir
Weitere Titel
Architecture Analysis and Design based on Elasticsearch and Kibana to Process and Visualize near Real-Time Data
AutorInnenFakhir, Raphael
GutachterRadinger-Peer, Wolfgang
Erschienen2018
Umfang77 Blatt : Diagramme
HochschulschriftWien, FH Campus Wien, Masterarb., 2018
Datum der AbgabeMai 2018
SpracheEnglisch
DokumenttypMasterarbeit
Schlagwörter (DE)Big Data / CURL / Elastic-Stack / Elasticsearch / ELK-Stack / Kibana / Logstash / MongoDB / NoSQL / Open Data / Value / Variety / Velocity / Veracity / Volume
Schlagwörter (EN)Big Data / CURL / Elastic-Stack / Elasticsearch / ELK-Stack / Kibana / Logstash / MongoDB / NoSQL / Open Data / Value / Variety / Velocity / Veracity / Volume
Schlagwörter (GND)Massendaten
URNurn:nbn:at:at-fhcw:1-3550 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Analyse und Design einer Architektur basierend auf Elasticsearch und Kibana zur Aufbereitung und Visualisierung von Fast-Echtzeit Daten [3.28 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Mit einem exponentiellen Wachstum an verfügbaren Daten, entstehen laufendneue Open-Source-Lösungen, welche sich den Big Data Herausforderungen stellen. Der Fokus dieser Arbeit liegt auf dem Entwerfen und der Implementierung einer Architektur, zur Analyse und Visualisierung eines großen open data Datensatzes, mittels Elasticsearch und Kibana. Zur Durchführung einer Datenanalyse, wurden die Daten der öffentlichen Verkehrsmittel, der Wiener Linien API und die Wetterdaten der Dark Sky API über einen Zeitraum von sieben Wochen gesammelt. Anschließend wurden diese formatiert, umstrukturiert und in Elasticsearch importiert. Nachdem die Daten indexiert waren, wurden sie mittels Kibana analysiert und visualisiert. Die Analyse der fast 131 Millionen Einträge zeigt eine durchschnittliche Verzögerung von 66.5 Sekunden. Die durchschnittliche Verspätung wurde auf einer täglichen Basis, sowie für den Wochentag und die Tageszeit ausgewertet. Die Auswirkungen der urbanen Aktivität auf das Verkehrsnetz brachten deutlich Höhen während den Stoßzeiten und Trögen zu ruhigen Zeiten zum Vorschein. Die Ergebnisse zeigten auch Varianzen bei dem Durchschnittswert der Verspätung je nach Art des Transportmittels. Vergleicht man die Verzögerungen mit den Wetterdaten, scheint die kurze Zeitspanne der gesammelten Daten keine Korrelation nachzuweisen. Die praktische Anwendung spiegelt sehr gut die Herausforderungen von Big Data wieder, hinsichtlich Volume, Velocity und Variety. Ein hoher Aufwand war bei der Vorbereitung notwendig, bevor jegliche Analysen stattfinden konnten, dennoch war die Lösung effizient und schnell, sobald die Installation abgeschlossen wurde. In weiterer Voraussicht könnten die Vorteile von Kibana in Bezug auf Visualisierung und Dashboard Features untersucht werden, um anhand der Forschungsergebnisse eine echtzeitnahe Übersicht aller relevanten Transportnetzwerkskennzahlen und Key Performance Indicators zu Erstellen und Auszuführen.

Zusammenfassung (Englisch)

With the amount of data growing at an exponential rate, new open source solutions are constantly emerging to tackle the challenges associated with big data. The purpose of this master thesis is to design and implement an architecture to analyze and visualize a large open data set, using Elasticsearch and Kibana. In order to perform any data analysis, the public transportation data from the Wiener Linien API and the weather data from the Dark Sky API were collected over a period of seven weeks, then formatted, restructured and imported into Elasticsearch. Once indexed, the data was analyzed and visualized using Kibana. The analysis of almost 131 million entries reveal an overall average delay of 66.5 seconds. The average delay was plotted on a daily basis, as well as for the day of the week and hour of the day, visualizing the effects of urban activity on the transportation network, with peaks during busy periods and troughs during calm periods. The results also show varying averages depending on the transportation type. When comparing the delays to the weather condition, the short time span of the collected data seems to show no support for any correlation. The practical application reflected very well the big data challenges regarding Volume, Velocity and Variety. Extensive preparation was needed before any analysis could be carried out, yet the solution was efficient and fast once the setup was complete. The next step, would be to benefit from Kibanas visualization and dashboard features, to create and run a near real-time overview on all the relevant transportation network metrics and key performance indicators.

Statistik
Das PDF-Dokument wurde 50 mal heruntergeladen.
Lizenz
CC-BY-Lizenz (4.0)Creative Commons Namensnennung 4.0 International Lizenz