Titelaufnahme

Titel
Genvorhersage und Alternative Startcodons
Weitere Titel
Gene Prediction and Sequence Objects
AutorInnenFrind, Angelika
GutachterAuer, Norbert ; Graf, Alexandra
Erschienen2018
Datum der AbgabeJuni 2018
SpracheDeutsch
DokumenttypBachelorarbeit
Schlagwörter (DE)Genvorhersage / Start Stopp Codon / Hidden Markov Modell / Intrinsisch / Extrinsisch / Python
Schlagwörter (EN)Gene prediction / Start / Stop Codon / Hidden Markov Model / Intrinsic / Extrinsic / Python
Zugriffsbeschränkung
 _
Klassifikation
Zusammenfassung (Deutsch)

Meine Bachelorarbeit beginnt in der Introduction mit kurzen Erklärungen allgemeiner Begriffe zum Thema Genetik. Dieser Teil ist für Laien gedacht, sodass auch diese das folgende Hauptthema „Genvorhersage“ besser verstehen können.

In der Genvorhersage werden hauptsächlich intrinsische (ab initio) und extrinsische (auf Homologie basierende) Methoden verwendet. Mit Hilfe der Hidden Markov Modelle können zukünftige Zustände vorhergesagt werden.

Die intrinsischen und extrinsischen Methoden werden detailliert erklärt. Danach wird kurz auf deren Anwendungen eingegangen.

Der Hauptteil der Abschlussarbeit machte das Schreiben eines Programms in Python (Version 3.6.) aus. Die Aufgabenstellung lautete, die Sequenzen in einem zur Verfügung gestelltem fasta File nach Start- und Stopp-Codons abzusuchen und mit Hilfe derer Gene in den Sequenzen zu finden.

Im ersten Schritt unterterteilt das Programm die Sequenz in Chromosome, dies geschieht mit der Hilfe des Biopython Pakets. Danach werden die Chromosome in Reading Frames untergliedert, im Anschluss daran sucht das Programm nach Start- und Stopp-Codons. Diese werden in einem Dictionary gespeichert. Im zweiten Schritt werden diese Codons nochmal untersucht, um Gene zu definieren. Ein Gen ist gefunden, wenn Start- und Stopp- Codon mehr als 90 Nukleotide auseinanderliegen. Die Positionen der verschiedenen Start- und Stopp-Codons, welche die einzelnen Gene definieren, werden in einem zweiten Dictionary gespeichert. Diese Ergebnisse werden in einem Output File ausgegeben. Das Programm wurde in einen Argparser eingegliedert, mit dessen Hilfe der Code von einem Terminal aus gestartet werden kann.

Zusammenfassung (Englisch)

The title of my Bachelor Thesis is Gene Prediction and Sequence Objects. Main part was to write a program in Python (version 3.6). The introduction has been grouped into two parts in order to understand this program better.

First some general terms of genetics are explained, this is most of all for people who are no experts in genetics. They should also be able to understand what the program is about. In the second part of the introduction gene prediction is explained. There is an intrinsic (ab initio) and an extrinsic (homology based) method. These two methods are defined, followed by short examples of possible applications like the Hidden Markov Model.

Main part of the project to achieve the Bachelor in Science was to write a program in Python. Task was to screen a sequence in a given fasta file for codons. At first the program subdivides, with the help of the Biopython package, the sequence in to chromosomes. After that the program splits the chromosoms into frames and codons. All this information is saved into a dictionary. The next step in the code is to define the genes. The program defines a gene by a gap of minimum 90 nucleotides inbetween the start and the stop codon. These positions which define the genes are saved into a second dictionary. The results are printed into an output file to see how many genes the program found in the fasta file.