Titelaufnahme

Titel
Skript zum Zusammenfügen von GFF Dokumenten
Weitere Titel
GFF File CombineTool for Annotation Pipeline
VerfasserGaidziza, Anna
Betreuer / BetreuerinHeinzl, Rene ; Graf, Alexandra
Erschienen2015
Datum der AbgabeJuni 2015
SpracheEnglisch
DokumenttypBachelorarbeit
Schlagwörter (DE)Python / GFF Format / Pipeline / Annotation / CombineTool / GFF Dokumente zusammen fügen / Skript verbinden von GFF Format Dokumente
Schlagwörter (EN)Python / GFF Format / Pipeline / Annotation / CombineTool
Zugriffsbeschränkung
 _
Klassifikation
Zusammenfassung (Deutsch)

Das in dieser Arbeit beschriebene Python-Skript wird verwendet, Dokumente

im GFF-Format zu einem einzigen Dokument zusammen zu fügen.

Als erstes werden alle IDs aus den verschiedenen Dokumenten gesammelt.

Aus diesen IDs kann der Anwender die bevorzugte ID auswählen. Weiters

werden aus allen Dokumenten nur jene Zeilen als "body" abgespeichert,

welche mit einer der gespeicherten IDs beginnen. Alle diese Zeilen haben

nun die gleiche vom Anwender bereits ausgewählte ID. Um die Information

aus dem "header" zu bekommen, werden alle Zeilen welche mit einer ’#’

beginnen gespeichert. Diese bekommt der Anwender zur Auswahl. Bei

diesem Menü können so viele ’#’ -Zeilen gewählt werden wie benötigt. Das

resultierende Dokument speichert die gewählten header-Zeilen, sowie die

Zeilen des Bodys als GFF Format ab und kann somit mit dem biopython

GFF-parser bearbeitet werden.

Zusammenfassung (Englisch)

The below python script is used to combine Generic Feature Format (GFF)

files to a single one. In the first section the IDs of all GFF files are going to

be extracted and the user can choose one of them. Later, all lines which

start which one of the extracted IDs will be saved and written out as the

"body" sequence-information. All those lines have now the same ID which

the user chose above. Than all lines which start with a ’#’ are going to be

extracted and again the user can choose. This time there is the option to

choose as many ’#’ -lines as the user wants. The end the user gets a file

where all the ’#’ -lines will be on the top of the file. They are building the

header. Under the header the body starts with the sequence information.

This file has the GFF file structure and can still be parsed with the biopython

GFF-parser.