Titelaufnahme

Titel
Evaluation and improvement of CNV calling on WGS data / Vorgelegt von: Shelley Brauneis
Weitere Titel
Evaluierung und Verbesserung der CNV Aufruf von WGS Daten
AutorInnenBrauneis, Shelley
GutachterPabinger, Stephan
Erschienen2018
HochschulschriftWien, FH Campus Wien, Masterarb., 2018
Anmerkung
Abweichender Titel laut Übersetzung der Verfasserin/des Verfassers
Datum der AbgabeJuni 2018
SpracheEnglisch
DokumenttypMasterarbeit
Schlagwörter (DE)kopientahlvariationen / ctDNA / Flüssigbiopsie / Python Pipeline / Gesamtgenomdaten / Duplikation / Deletion / niedriger Abdeckung / CNV konservierung / Bingrößen
Schlagwörter (EN)copy number variation / ctDNA / liquid biopsy / Python pipeline / Whole Genome Sequencing data / duplication / deletion / low coverage / CNV conservation / bin sizes
URNurn:nbn:at:at-fhcw:1-4345 Persistent Identifier (URN)
Zugriffsbeschränkung
 Das Werk ist frei verfügbar
Dateien
Evaluation and improvement of CNV calling on WGS data [3.31 mb]
Links
Nachweis
Klassifikation
Zusammenfassung (Deutsch)

Krebs ist weltweit eine der Haupttodesursachen und entsteht durch Akkumulation von Mutationen in einer Zelle über Jahre hinweg. Ein Weg um Krebs zu detektieren und überwachen ist über Flüssigbiopsien, die Fragmente von Tumor-DNA (ctDNA) enthalten. Diese Fragmente können dann sequenziert und die Kopienzahlvariationen (copy number variations, CNVs), die durch den Krebs hervorgerufen werden, analysiert werden.

Das Hauptziel dieser Arbeit ist das Erzeugen einer Pipeline für die Verarbeitung von Gesamtgenomdaten mit niedriger Abdeckung um die Anzahl der Kopienzahlvariationen und deren Position in einer Probe bei unterschiedlichen Bedingungen zu analysieren um eine hohe Flexibilität zu ermöglichen. Die vorgesehene Probenart sind Flüssigbiopsiedaten mit einer Abdeckung von 0.1.

Um dieses Ziel zu erreichen wurde eine bereits existierende Pipeline adaptiert. Der erste Schritt war die Erzeugung von simulierten Reads um die Leistung der Pipeline zu evaluieren. Danach wurde die Pipeline moduliert und eine zusätzliche Funktion für das Erzeugen von benutzerdefinierten Kontrolldateien integriert. Zusätzlich wurde Bowtie hinzugefügt und die Pipeline um multiple Referenzgenome erweitert. Die resultierende Pipeline erlaubt dadurch Variationen in Bingröße, Referenzegenom, Mapping-Algorithmen und das Verwenden einer Kontrolldatei.

Um die vorgesehene Zielprobenart planmäßig verwenden zu können wurden die optimale Anzahl der Reads pro Bin sowie der Einfluss von niedriger Abdeckung in Flüßigbiopsieproben auf die CNV-Konservierung untersucht. Die optimale Anzahl von Reads in einem Bin wurde mit 35 festgelegt, sodass Proben mit unterschiedlichen Abdeckungen sowie verschiedenen Bingrößen durch die Pipeline gelaufen und evaluiert wurden. Die resultierende, optimale Bingröße für die Zielabdeckung von 0.1 wurde auf 60.000 Bins festgelegt.

Die Einwirkung von niedriger Abdeckung auf CNV-Konservierung wurde durch Proben mit hoher Abdeckung evaluiert, bei denen zufällig Reads entfernt wurden um die vorgesehene Abdeckung zu erreichen. Der daraus resultierende Vergleich zwischen den Originaldaten und den reduzierten (downsampled) Daten zeigten sehr ähnliche CNV-Muster mit einer Konservierung zwischen 26% und 64%.

Die Unterschiede zwischen den beiden integrierten Referenzgenomen wurde untersucht und, wie erwartet, zeigt das neuere Referenzgenom bessere Ergebnisse durch die Reduktion von Ns und die im früheren Referenzgenom fehlenden Centromere.

Zusammenfassend wurde eine flexible Pipeline zur Detektion von Kopienanzahlvarationen in Flüßigbiopsieproben entwickelt, die zusätzlich einfach an verschiedene Anwendungsfälle für den klinischen Gebrauch adaptierbar ist.

Zusammenfassung (Englisch)

Cancer, one of the leading causes of death worldwide and is an accumulation of mutations in a cell over the course of years. One way in which to detect and monitor cancer is through liquid biopsies which contain fragments of tumor DNA (ctDNA). These fragments can be sequenced and the copy number variations (CNVs) caused by the cancer can be analyzed.

The main aim of this thesis is the creation of a pipeline for processing low-coverage whole-genome data files to identify the number of copy number variations and their positions in a sample under different parameter conditions, allowing for high flexibility. The target sample type is liquid biopsy data with a coverage around 0.1.

In order to achieve this goal, a preexisting pipeline was adapted. The first step was the creation of simulated reads to evaluate the performance of the pipeline. Once completed, the pipeline was modulated and a function for the creation of custom control files was integrated. Additionally, Bowtie was added and the pipeline was expanded to include multiple reference genomes. This resulted in the pipeline allowing for variation in bin size, reference genome, mapping algorithm, and a control file.

In order to properly fulfil the main goal for the target sample type, the optimal number of reads per bin was studied as well as the effects of low coverage liquid biopsy samples on CNV preservation. The optimal number of reads per bin is 35; therefore samples with different coverages were run with varying bin sizes and evaluated. The resulting optimal bin size for the target coverage of 0.1 is 60.000 bins.

As for the results of low coverages on CNV preservation, a number of high-coverage samples were downsampled to a specified coverage and the results were studied. The resulting comparison between the original file and the downsampled showed very similar CNV patterns with a CNV conservation between 26% and 64%.

The differences between the two integrated reference genomes were studied and showed better results from the newer reference genome as expected due to the reduction of Ns and addition of centromeres.

In summary, a flexible pipeline for CNV detection in liquid biopsies that can be easily adapted to various use-cases for clinical usage was achieved.

Statistik
Das PDF-Dokument wurde 4 mal heruntergeladen.