Titelaufnahme

Titel
Implementierung eines Datenimports von delimited Dateien ohne Metadaten
Weitere Titel
Implementing a file import for delimited files without using metadata
VerfasserPemsel, Thomas
GutachterRadinger-Peer, Wolfgang
Erschienen2016
Datum der AbgabeAugust 2016
SpracheDeutsch
DokumenttypBachelorarbeit
Schlagwörter (DE)CSV Dateien / Automatisierter Import / Datenbank Import / Datentyp Erkennung
Zugriffsbeschränkung
 _
Klassifikation
Zusammenfassung (Deutsch)

Um CSV Dateien in eine Datenbank zu importieren gibt es verschiedene Möglichkeiten.

Was aber alle Methoden gleich haben ist, dass sogenannte Metadaten, also

Informationen über die Daten, wie viele Spalten die CSV Datei beinhaltet oder welchen

Datentypen diese Spalten haben. Dadurch ist der Import genau auf die Datei

zugeschnitten. Dafür, dass diese Lösungen genau auf eine CSV Struktur eingerichtet

wurden, sind diese Lösungen unflexibel gegenüber neuen Dateien, beziehungsweise

muss jede neue Dateistruktur eingerichtet werden.

Diese Arbeit beschäftigt sich damit, ein Programm zu entwickeln, welches CSV Dateien

ohne Metadaten in eine Datenbank importiert. Dabei sollen alle Informationen wie

Datentypen oder Spaltennamen aus der CSV Datei erkannt werden, beziehungsweise

sinnvolle Annahmen getroffen werden.

Das Programm wurde mit einer Reihe von Testdateien getestet. Diese wurden zum Teil

generiert, zum Teil wurden dafür reale CSV Dateien hergenommen.

Dadurch zeigt sich, dass es möglich ist aus den Daten alleine alle wichtigen Metadaten zu

finden, beziehungsweise diese ordnungsgemäß in eine Datenbank zu schreiben.

Zusammenfassung (Englisch)

There are many ways to import CSV files into a database. But what all of them have in

common is that they need some sort of metadata, whether it is how many columns the file

contains or what datatype the data columns have. But now that this import is tailored to

this one file, it is not possible to use it on another one with another structure. If you want to

import other files, for example to analyse them, you have to set up everything again.

This thesis presents an implementation of a program that makes it possible to import CSV

files into a database without the use of metadata. It infers every piece of information

needed to load the data as correctly as possible into the database, like datatypes and

column names. If it is not possible to infer crucial information, sensible defaults will be

chosen.

Tests were carried out with generated data files as well as data from real sources.

The results show that it is possible to infer enough metadata from the raw data alone to be

able to properly import this data into a database.