Titelaufnahme

Titel
Cloud Machine Learning Services - Qualitative und quantitative Analyse von Cloud basierten Machine Learning Lösungen
Weitere Titel
Cloud Machine Learning Services - Qualitative and quantitative analysis of cloud-based machine learning solutions
VerfasserLucha, Wilfried
Betreuer / BetreuerinGöschka, Karl Michael
Erschienen2017
Datum der AbgabeJuni 2017
SpracheDeutsch
DokumenttypBachelorarbeit
Schlagwörter (DE)Maschinelles Lernen / Künstliche Intelligenz / Data Mining / Regression / Neuronales Netz / Entscheidungsbaum
Schlagwörter (EN)Machine Learning / Artificial Intelligence / Data Mining / Regression / Neural Network / Decision trees / Bagging / Boosting
Zugriffsbeschränkung
 _
Klassifikation
Zusammenfassung (Deutsch)

Ein Trend, welcher sich in den letzten Jahren kontinuierlich weiterentwickelt, stellt die Migration von ehemals klassischen Desktop-Applikationen in, oftmals von großen IT-Konzernen betriebenen, Cloud-Plattformen dar. Betrachtet man darüber hinaus Entwicklungen des vergangenen Jahres, so zeigt sich, beispielsweise durch Betrachtung des „Hype Cycles“ des Jahres 2016, dass sich eine Technologie besonders im Mittelpunkt der medialen Aufmerksamkeit befindet: das „Machine Learning“, kurz ML. Diese mediale Aufmerksamkeit ist u.a. auf offensive und umfangreiche Marketing-Kampagnen großer IT-Konzerne wie z.B. IBM, Google und Amazon zurückzuführen, welche ihre cloud basierten Machine Learning Dienste mithilfe verschiedenster Anwendungsfälle einer breiten Öffentlichkeit näher bringen wollen. Betrachtet man die einzelnen Machine Learning Dienste großer IT-Konzerne jedoch näher, so stellt man fest, dass sich die umfangreich vermarkteten Dienste zum Zeitpunkt des Verfassens dieser Arbeit oftmals noch in einer späten Entwicklungs- oder frühen Produktivphase befinden.

Das Ziel der vorliegenden Arbeit ist es, dem Leser einen Einblick in Konzepte des Machine Learnings zu bieten, sowie diese auch anhand einer praktischen Umsetzung weiter zu vertiefen. Konkret untersucht der praktische Teil der vorliegenden Arbeit cloud-basierte Machine Learning Dienste der Anbieter „IBM Watson“, „Amazon Webservices“, „Microsoft Azure“ und „BigML“. Besonderer Wert wird hierbei auf die Untersuchung der Fähigkeit eines Machine Learning Dienstes gelegt, den Wert einer Zielvariablen einer Beobachtung durch Erstellung eines geeigneten Vorhersagemodells zu bestimmen, also vorherzusagen. Zur Durchführung der Messungen wurde ein Java-basiertes Messframework entwickelt, das in der Lage ist, Trainings- und Testdaten mithilfe eines realen Szenarios zu erstellen sowie Prognose-Abfragen für alle genannten Machine Learning Anbieter durchzuführen und diese grafisch aufzubereiten. Konkret handelt es sich bei dem realen Szenario um die Vorhersage von Gebühren, welche bei der Durchführung von Wertpapiergeschäften anfallen. Um mögliche Unterschiede in den Ergebnissen der ML-Dienste festzustellen, wurden im Zuge der praktischen Umsetzung insgesamt 56.000 Messungen mithilfe des umgesetzten Messframeworks durchgeführt.

Die Ergebnisse der Messungen ergaben, dass die Mehrheit der untersuchten Machine Learning Dienste durchaus in der Lage ist, Vorhersagen mit einer geringen Abweichung zu erstellen. Im Durchschnitt über alle Messungen kann der ML-Anbieter „BigML“ die akkuratesten Vorhersagen mit den geringsten Abweichungen erzeugen. Die mit Abstand höchsten Abweichungen weisen die Ergebnisse des ML-Anbieters „Amazon Web Services“ auf. Die gemessenen Abweichungen des ML-Anbieters „Amazon Web Services“ sind dermaßen hoch, dass sich der ML-Dienst dieses Anbieters im Rahmen der gegebenen Aufgabenstellung nicht für die Vorhersage von Zielvariablen eignet. Auf dem zweiten Platz findet sich der Anbieter „Azure Machine Learning“, welcher zwar für viele Messungen die besten Ergebnisse liefert, jedoch bei vereinzelten Messungen Schwierigkeiten in der akkuraten Vorhersage von Zielvariablen hat. Durchwegs konstante Ergebnisse erzeugt der ML-Anbieter „IBM“ auf dem dritten Platz.

Zusammenfassung (Englisch)

A trend that has been continually evolving over the past few years is the migration of formerly desktop applications into cloud platforms, often operated by large IT companies. Looking at developments from the past year, we see, for example, by inspecting at the “Hype cycle” of 2016, that one particular technology is presently in the focus of the media: „Machine Learning”, ML for short. This medial attention is, inter alia, due to offensive and extensive marketing campaigns of large IT corporations, e.g., IBM, Google, and Amazon, who intend to bring their cloud-based machine learning services to a broader public by means of various applications. However, if one inspects the individual machine learning services of large IT companies more closely, one realizes that, at the time of the writing of this work, the extensively marketed services are often still in a late development or early productive phase.

The aim of this thesis is to provide the reader with an insight into the concepts of machine learning as well as to deepen this effort by means of a practical implementation. Specifically, the practical part of this work examines cloud-based machine learning services from the vendors “IBM Watson”, “Amazon Webservices”, “Microsoft Azure” and “BigML”. Particular emphasis is placed on the ability of a machine learning service to determine (i.e., predict) the value of a target variable of observation by creating an appropriate prediction model. To carry out the measurements, a Java-based measurement framework was developed, which is able to create training and test data using a real scenario, as well as to carry out prognosis queries for all mentioned machine learning providers and to present them in graphical format. Specifically, the real scenario is the prediction of fees incurred in the execution of securities transactions. In order to determine possible deviations in the results of the ML services, a total of 56,000 measurements were carried out with the help of the implemented measurement framework.

The results of the measurements show that the majority of the investigated machine learning services are capable of predicting with rather small deviations. On average, the ML vendor “BigML” provides the most accurate predictions with the least deviations. The results of the ML provider “Amazon Web Services” exhibit the by far largest deviations. The measured deviations of the ML provider “Amazon Web Services” are so huge that the ML service of this provider is not capable of predicting target variables of the given task.