Bibliographic Metadata

Title
Implementierung eines Datenimports von delimited Dateien ohne Metadaten
Additional Titles
Implementing a file import for delimited files without using metadata
AuthorPemsel, Thomas
Thesis advisorRadinger-Peer, Wolfgang
Published2016
Date of SubmissionAugust 2016
LanguageGerman
Document typeBachelor Thesis
Keywords (DE)CSV Dateien / Automatisierter Import / Datenbank Import / Datentyp Erkennung
Restriction-Information
 _
Classification
Abstract (German)

Um CSV Dateien in eine Datenbank zu importieren gibt es verschiedene Möglichkeiten.

Was aber alle Methoden gleich haben ist, dass sogenannte Metadaten, also

Informationen über die Daten, wie viele Spalten die CSV Datei beinhaltet oder welchen

Datentypen diese Spalten haben. Dadurch ist der Import genau auf die Datei

zugeschnitten. Dafür, dass diese Lösungen genau auf eine CSV Struktur eingerichtet

wurden, sind diese Lösungen unflexibel gegenüber neuen Dateien, beziehungsweise

muss jede neue Dateistruktur eingerichtet werden.

Diese Arbeit beschäftigt sich damit, ein Programm zu entwickeln, welches CSV Dateien

ohne Metadaten in eine Datenbank importiert. Dabei sollen alle Informationen wie

Datentypen oder Spaltennamen aus der CSV Datei erkannt werden, beziehungsweise

sinnvolle Annahmen getroffen werden.

Das Programm wurde mit einer Reihe von Testdateien getestet. Diese wurden zum Teil

generiert, zum Teil wurden dafür reale CSV Dateien hergenommen.

Dadurch zeigt sich, dass es möglich ist aus den Daten alleine alle wichtigen Metadaten zu

finden, beziehungsweise diese ordnungsgemäß in eine Datenbank zu schreiben.

Abstract (English)

There are many ways to import CSV files into a database. But what all of them have in

common is that they need some sort of metadata, whether it is how many columns the file

contains or what datatype the data columns have. But now that this import is tailored to

this one file, it is not possible to use it on another one with another structure. If you want to

import other files, for example to analyse them, you have to set up everything again.

This thesis presents an implementation of a program that makes it possible to import CSV

files into a database without the use of metadata. It infers every piece of information

needed to load the data as correctly as possible into the database, like datatypes and

column names. If it is not possible to infer crucial information, sensible defaults will be

chosen.

Tests were carried out with generated data files as well as data from real sources.

The results show that it is possible to infer enough metadata from the raw data alone to be

able to properly import this data into a database.

Stats
The PDF-Document has been downloaded 0 times.