Bibliographic Metadata

Title
SISSI in Evolution : Interweaving a Complex Framework in silico / Vorgelegt von: Michael Lehrach
Additional Titles
SISSI in Evolution : Verflechtungen eines komplexen Framework in silico
AuthorLehrach, Michael
Thesis advisorGesell, Tanja
Published2019
Institutional NoteWien, FH Campus Wien, Masterarb., 2019
Annotation
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers
Date of SubmissionJanuary 2019
LanguageEnglish
Document typeMaster Thesis
Keywords (DE)Sequenzen / Substitutionsmodell / Softwarearchitektur
Keywords (EN)sequences / substition-models / software architecture
URNurn:nbn:at:at-fhcw:1-4571 Persistent Identifier (URN)
Restriction-Information
 The work is publicly available
Files
SISSI in Evolution [19.85 mb]
Links
Reference
Classification
Abstract (German)

Gesell beschrieb in ihrer Doktorarbeit "A phylogentic definition of structure" die komplette Arbeitsumgebung von SISSI. Ziel dieser Arbeit ist nun die Erweiterung und breitere Ausschöpfung des beschriebenen Rahmens. Eine Grundlegende Entscheidung war der Wechsel der Programmiersprachen von ANSI C zu C++, welche durch ihre Objektorientierung und der resultierenden Datenkapselung viele Vorteile bietet. Einer der Vorteile ist die sehr leichte Erweiterbarkeit und Austauschbarkeit der einzelnen Fragmente. Durch das Neuaufsetzen des Projektes wurde auch eine Testumgebung mit aufgebaut. Diese Testumgebung besteht aus einem Regressionstest der Software sowie dem Ergebnisvergleich mit den analytischen Lösungen der Substitutionsmodelle. Ferner wurden auch die Frequenzen und die Verteilungen der Zufallszahlen geprüft.

Im Speziellen wurde die Benutzerfreundlichkeit bei dieser Version stark verbessert. Der Funktionsumfang wurde dahin erweitert, dass nun mehrere Ausgabeformate generiert werden können. Durch die Integration einer Bibliothek ist es nun auch möglich die Parameter der Substitutionsmodelle aus Sequenzalignments zu schätzen, oder diese weiterhin von außen einzugeben. Dies wird durch die erweiterte Option der Sequenz-Eingabe ermöglicht, welche aus verschiedenen Dateiformaten Sequenzen oder Alignments einlesen kann. In Abhängigkeit der übergebenen Anzahl an Sequenzen entscheidet SISSI, natürlich von außen beeinflussbar, wie die Start-Sequenz für die Simulation generiert wird. Auch müssen die Parameter, welche von manchen Modellen verwendet werden, nicht mehr manuell eingegeben werden, da diese intern ausgewertet werden können.

Zusätzlich wird eine Simulationspipeline mit der neuen Version erstellt, mit dem Ziel die aktuellen Shuffle-Algorithmen für Sequenzalignments zu prüfen, wobei der Dinukleotidgehalt im Kontext der RNA-Genvorhersage erhalten bleiben soll. Werden die Positionen nicht korrekt gemischt, bleiben konservierte Strukturelemente im Alignment erhalten, welche später mit Programmen zur Genvorhersage gefunden werden können.

Durch diese Arbeit können in Folge Erweiterungen und Änderungen des Funktionsumfanges sehr schnell und leicht umgesetzt werden.

Abstract (English)

One of the main aims of this work is the extension of the prior work on SISSI by Gesell. In her thesis "A phylogenetic definition of structure" the full framework is described, which was the starting point for reimplementation. The programming language was changed from the originally used ANSI C to C++, which is object-orientated and thus advantageous for any further program extension. A software test framework was also implemented and the functionality of the new version was tested with analytical solutions for substitution models.

Existing functionality was extended with functions providing more user friendliness, for example providing a wide variety of output formats. By integrating a library, it now is possible to estimate model parameters from a given alignment. This option is extended by a file read option, which allows input of a single sequence or a full alignment. Depending on the amount of parseable sequences, SISSI decides how to generate a sequence that is the starting point for a simulation. Of course, model parameters can also be entered via external commands. The parameters required for the substitution models can either be entered manually or processed internally from the alignment data.

Additionally, a simulation pipeline is constructed in the new version. This allows one to verify the algorithm for the randomized multiple sequence alignments that is currently in use, while preserving the dinucleotide content in the context of RNA gene prediction. If there is any error in this process, the conserved structural elements remain in the alignment, which may be found afterwards with gene finding programs.

Stats
The PDF-Document has been downloaded 2 times.