Titelaufnahme

Titel
XML Datenspeicherungsoptimierung in RDBMS
Weitere Titel
XML Data Storage Optimization in RDBMS
AutorInnenFügl, Heinz
GutachterGöschka, Karl Michael
Erschienen2015
Datum der AbgabeJuni 2015
SpracheEnglisch
DokumenttypBachelorarbeit
Schlagwörter (DE)MySQL / XML
Schlagwörter (EN)MySQL / XML
Zugriffsbeschränkung
 _
Klassifikation
Zusammenfassung (Deutsch)

Aufgrund der enorm gestiegen Datenflut, getrieben durch den starken Anstieg bei unstrukturierten bzw. semi-strukturierten Daten, sind effizient arbeitende Backendsysteme Ziel vieler Forschungsarbeiten. Meist werden diese Arten von Daten in NoSQL Datenbanken bzw. auf Hadoop File Systemen gespeichert. Diese Arbeit beschäftigt sich mit der Repräsentation von XML Daten in relationalen Datenbanken, da traditionell der Großteil der strukturierten Daten in relationalen Datenbanken gespeichert werden. Es wird auf verschiedene Darstellungen eingegangen und Algorithmen diskutiert. Im praktischen Teil werden XML Daten in einer generischen Tabelle gespeichert und Abfragen auf diese, hinsichtlich Performance mit der von MySQL standardmäßig zur Verfügung gestellten Funktionen, verglichen. Zusätzlich wird ein gleichwertiger und transparenter Ersatz von „Extract_Value“ (der standardmäßigen Abfragemöglichkeit) entwickelt, so dass zwischen beiden Alternativen verglichen werden kann. Zum Abschluss erfolgt noch ein Leistungsvergleich mit einer nativen XML-Datenbank.

Zusammenfassung (Englisch)

Due to the enormous increase of semi-structured data over the last decade generated by services like Twitter, Google, Facebook or Instagram efficient ways of processing are necessary to fulfill the needs. Traditionally structured data are stored in relational databases, for storing semi-structured and unstructured data NoSQL databases or Hadoop solutions are the most performant way to do it. Bridging those two worlds is often necessary. Therefore semi-structured data like XML in conjunction with a relational database is still a hot topic in computer science. This thesis analyses XML storage and retrieval possibilities within the open source database MySQL. MySQL is chosen as RDBMS because it is free, popular and offers free and well documented interfaces for extension. A data set with one million XML documents (~149MB) is set up for testing purpose. First, the built in functionality of storing XML of MySQL is investigated. The limitations of XML processing through MySQL are listed and discussed. In order to support full XPath 1.0 functionality under MySQL and to improve XML processing performance a generic table approach is introduced. For two XPath expressions a sample mapping to SQL were presented and explained. Therefore all possible XPath axis are shown and discussed first, because for each of those another mapping would be needed. Data retrieve time is compared with the standard MySQL approach and BaseX, a native XML database. As a result it is shown that the generic table approach is the most performant solution for the specifically discussed XPath expression.