Bibliographic Metadata

Title
Workflow für die Mikrosatellite Genotypisierung von Illumina Amplicon-Sequenzdaten von wenig untersuchten Säugetieren
Additional Titles
Workflow for microsatellite genotyping from Illumina amplicon sequencing for non-model mammal species
AuthorWinter, Silvia
CensorGraf, Alexandra
Published2018
Date of SubmissionApril 2018
LanguageEnglish
Document typeMaster Thesis
Keywords (DE)Amplicon-Sequenzierung / Illumina / Mikrosatelliten / automatisierte Genotypisierung / Igel / Erinaceus europaeus / Erinaceus roumanicus / R / Python / bash / Multiplex PCR
Keywords (EN)amplicon-sequencing / Illumina / microsatellites / automated genotyping / hedgehogs / Erinaceus europaeus / Erinaceus roumanicus / R / Python / bash / Multiplex PCR
Restriction-Information
 _
Classification
Abstract (German)

Mikrosatelliten werden aufgrund ihrer hohen Häufigkeit, ihres Polymorphismus und der Kodominanz immer noch häufig in populationsgenetischen Studien von wenig untersuchten Organismen verwendet. Säugetiergenome enthalten besonders hohe Dichten von Mikrosatelliten. Die traditionelle Mikrosatelliten-Genotypisierung ist ein mühsamer Prozess, der zahlreiche Ressourcen sowohl im Labor als auch für die manuelle Editierung von automatisch erstellen Matrizen bedarf. Die häufigsten Genotypisierungsfehler sind Amplifikationsartefakte aufgrund von Stotterbanden und geteilten Peaks, ungenaue Größenbestimmung aufgrund von inkorrekter Längenzuordnung („Binning“), Nullallele, die entweder zu vollständigen Fehlen von Genotypen oder zu falschen Heterozygoten führen können und längenbedingte Homoplasie. Die hier vorgestellte Illumina-Amplicon-Sequenzierungs-Pipeline für zwei europäische Igelarten (Erinaceus europaeus und E. roumanicus) konnte aufgrund der unterschiedlichen Sequenzierungsmethodik und des automatisierten Genotypisierungsverfahrens mehrere Fehlerquellen bei der Genotypisierung vermeiden bzw. reduzieren.

Diese Arbeit evaluierte 31 und 28 Mikrosatellitenmarker, die aus den gesamtgenomischen Daten von jeweils einem E. europaeus und E. roumanicus Individuum entwickelt wurden. Hauptziel war die Erstellung einer (semi-)automatisierten Pipeline mit Open Source Softwaretools, die zuverlässige Ergebnisse für Längen- und Sequenz-basierte Mikrosatelliten-Genotypisierung erstellt. Die Pipeline startet mit einem Bash-Wrapper-Skript, das die paired-end Illumina reads sortiert, mit PEAR zusammenfügt und anschließend entsprechend der Probennamen umbenennt. Ein Python-Skript trennt die reads nach ihren Primersequenzen in unterschiedliche Dateien auf, die mit den verschiedenen Mikrosatelliten-Markern korrespondieren. Diese Dateien werden für die Erstellung der Mikrosatelliten-Längenstatistik verwendet und als Input in R eingelesen. In verschiedenen Varianten des R Skripts wurden verschiedene Parametereinstellungen und zusätzliche Stotter- und Filtercode-Abschnitte hinsichtlich der Genotypisierungsfehlerrate und des Anteils der für die manuelle Kontrolle markierten Genotypen ausgewertet. Die Ausgabe des R-Skripts ist eine kodominante Matrix, die die Allellängen für jeden Marker und Probe enthält, sowie eine pdf-Datei mit den zugrundeliegenden farbcodierten Balkendiagrammen für jede Probe und Marker. Diese Diagramme dienen zur Überprüfung der Allelauswahl und zur Erleichterung der manuellen Kontrolle der do-dominanten Matrix. Die nachfolgende sequenzbasierte Genotypisierung verwendet die aufbereitete co-dominante Matrix, um die reads die mit den entsprechenden Allellängen zu extrahieren und um Konsensussequenzen mit Python-Skripten zu erzeugen (entwickelt von M. Curto). Das Ergebnis dieser Genotypisierung ist eine co-dominante Matrix, die die Allelindexe enthält, welche in einer zusätzlichen Textdatei mit den dazugehörigen Allelsequenzen auflistet werden.

Dank der Illumina-Sequenzierungstechnologie konnten Fehler aufgrund inkorrekter Längenzuordnung der Allele („Binning“) und geteilter Peaks vermieden werden. Die Auswertung der längenbasierten Genotypisierung zeigte, dass die Fehlerrate durch die Erhöhung des Schwellenwert an reads pro Datei (von 10 auf 20) und eine Stotterbanden-Kontrolle in Kombination mit einem dynamischen Ansatz zur Unterscheidung von homo- und heterozygoten Genotypen mit baryzentrischen Methoden signifikant reduziert werden konnte. Die Optimierung der Algorithmen reduzierte Fehler aufgrund von Stotterbanden und fehlender Allele. Folglich nahm der Anteil falscher Heterozygoten (insbesondere in dimeren Mikrosatelliten) signifikant ab. Im Durchschnitt führte die sequenz- gegenüber der längenbasierten Genotypisierung zu einem Anstieg von 6 Allelen pro Marker und zu einem 1,8-8,8 %igen Anstieg der beobachteten Heterozygotie für die beiden Mikrosatellitensets und Igelarten. Die höhere Anzahl an Allelen erhöht die genetische Auflösung und verringert die nachweisbare langenbasierte Homoplasie.

Dennoch ist ein sorgfältiges anfängliches Marker-Screening notwendig, um den Anteil fehlender Allele und die Fehlerrate bei der automatisierten längen- und sequenzbasierten Genotypisierung zu reduzieren. Zukünftige Entwicklungen der hier vorgestellten Pipeline sollten eine Datenbankanwendung mit Mikrosatelliten-Allelen integrieren, um die Allel-Call-Genauigkeit und die Kompatibilität zwischen den Labors zu erhöhen.

Abstract (English)

Microsatellites are still frequently used in population genetics studies of non-model organisms due to their high abundance, co-dominant nature and polymorphism. Mammal genomes contain especially high densities of microsatellites. Traditional microsatellite genotyping is a laborious process, both in the laboratory and for manual editing of allele calling. Main reasons for genotyping errors are amplification artefacts due to stutter bands and split peaks, imprecise sizing due to incorrect binning, null alleles resulting in full allelic dropouts or false heterozygotes and length homoplasy. The currently presented Illumina amplicon sequencing pipeline for two European hedgehog species (Erinaceus europaeus and E. roumanicus) was able to address several problems in genotyping due to the different sequencing methodology and automated genotyping procedure.

This thesis evaluated 31 and 28 microsatellite markers developed from whole-genome sequencing data of E. europaeus and E. roumanicus. Main goal was the creation of an (semi-)automated length- and sequence-based microsatellite genotyping pipeline with open-source software tools. The pipeline starts with a bash wrapper script, which sorts, merges paired-end reads with PEAR and renames the files according to the correct sample names. A Python script separates the reads in several files according to the different microsatellite markers. Fragment count statistics were created for each file as input for the length-based genotyping with R. Different parameter settings and additional stutter and filtering code sections were evaluated regarding the error rate and the proportion of genotypes marked for manual control. The output of the R script is a co-dominant matrix which contains two allele lengths per sample and marker. In addition, one pdf file is created, which includes all colour-coded read count bar plots for each sample and marker for reviewing the allele calling process and optional manual editing. Subsequent sequence-based genotyping used the edited co-dominant matrix to extract reads of the corresponding allele lengths to create consensus sequences with Python scripts (developed by M. Curto). The final output is a co-dominant matrix which includes the allele indices corresponding to a text file listing all allele sequences.

Due to the Illumina sequencing technology, imprecise sizing/binning and split peak errors could be avoided. The evaluation of the length-based genotyping showed that error rate could be significantly reduced by increasing the minimum read count threshold per file from 10 to 20 and by implementing a stutter control in combination with a dynamic approach for distinguishing homo- from heterozygous genotypes with barycentric coordinates. The optimization of the algorithms reduced stutter band and missing allele errors. Consequently, the proportion of false heterozygotes (especially in dimeric repeats) decreased significantly. On average, sequence- vs. length-base genotyping resulted in an increase of 6 alleles per marker and between 1.8-8.8 % increase in observed heterozygosity across the two marker sets and hedgehog species. This higher allelic richness increases genetic resolution and decreases detectable size homoplasy.

Nevertheless, careful initial marker screening is necessary to reduce the proportion of missing alleles and error rate in automated length- and sequence-based genotyping. Future developments should integrate an allelic database to increase allele call accuracy and interlaboratory portability.