Bibliographic Metadata

Title
Vergleich von verschiedenen Methoden zur Berechnung von Sequenz Alignments
Additional Titles
Comparison of Different Methods for the Creation of Sequence Alignments
AuthorPruggnaller, Sandra
Thesis advisorGerstl, Matthias ; Graf, Alexandra
Published2018
Date of SubmissionJune 2018
LanguageEnglish
Document typeBachelor Thesis
Keywords (DE)BLAST / ClustalOmega / ClustalW / DECIPHER / Multiple Sequenz Alignments / MUSCLE / Needleman-Wunsch / Phylogenetische Stammbäume / R / Sequenz Alignments / Smith-Waterman
Keywords (EN)BLAST / ClustalOmega / ClustalW / DECIPHER / Multiple sequence alignment / MUSCLE / Needleman-Wunsch / Phylogenetic trees / R / Sequence alignments / Smith-Waterman
Restriction-Information
 _
Classification
Abstract (German)

Es werden mehr und mehr Methoden und Algorithmen für die Kalkulation von Sequenz-Alignments entwickelt. Die BLAST, Smith-Waterman, und Needleman-Wunsch Algorithmen sind die am häufigsten verwendeten Algorithmen für paarweise Sequenz-Alignments. Für multiple Sequenz-Alignments sind zahlreiche Methoden verfügbar und diese Arbeit fokussiert sich darauf vier dieser Methoden (ClustalW, ClustalOmega, MUSCLE und DECIPHER) zu testen und zu vergleichen.

Dazu wurde ein R-Package erstellt, welches sowohl diese Methoden als auch zusätzliche Funktionen zur weiteren Verarbeitung der berechneten Alignments und der bildlichen Darstellung dieser mit Hilfe von phylogenetischen Bäumen enthält.

Die durchgeführten Tests zeigten, dass die Leistung und die Ergebnisse dieser Methoden variieren. Einer der größten Unterschiede, welcher für das Arbeiten mit großen Sequenz-sets vermutlich der wichtigste Faktor ist, war die für die Berechnungen benötigte Zeit. Aber es gab auch unterschiedliche Ergebnisse für das Konsensalignment und die Entfernung zwischen den Sequenzen, was immer auffälliger wird, je höher die Anzahl an zu verarbeitenden Sequenzen ist.

Abstract (English)

There are more and more methods and algorithms getting developed for the calculation of sequence alignments. For pairwise sequence alignments BLAST, Smith-Waterman, and Needleman-Wunsch algorithms are the most commonly used ones. For multiple sequence alignment there are various methods available and this work focuses on testing and comparing four of them (ClustalW, ClustalOmega, MUSCLE and DECIPHER).

To do this an R-package including these methods as well as more functions to further process the calculated alignments and visually portray them through the creation of a phylogenetic tree was created.

The executed tests showed that the performance and results of these methods vary. One of the biggest differences which may be the most important one when working with big sets of sequences was the time needed for the calculations. However, there were also diverse results for the consensus alignment and distance between the sequences which get more apparent the higher the number of aligned sequences is.