Bibliographic Metadata

Title
Die Anwendung von machine learning-Algorithmen zur Detektion von Carotis-Stenosen
Additional Titles
Application of Machine-Learning Methods for the Prediction of Carotid Artery Disease
AuthorTolios, Alexander
CensorScharl-Hirsch, Theresa
Published2019
Descriptionkein Volltext verfügbar
Date of SubmissionApril 2019
LanguageEnglish
Document typeMaster Thesis
Keywords (DE)maschinelles Lernen / data science
Keywords (EN)machine learning / data science
Restriction-Information
 _
Classification
Abstract (German)

Hintergrund

Monozyten spielen eine entscheidende Rolle bei der Entstehung von Atherosklerose, was wiederum die Hauptursache für die meisten kardiovaskulären Erkrankung wie Schlaganfall, Herzinfarkt und Carotis-Stenosen ist. Ihr Eindringen in die Blutgefäßmuskulatur und die anschließende Umwandlung in Schaumzellen ist für die Entwicklung von atherosklerotischen Plaques zentral. Obwohl die Relevanz von Monozyten hinreichend bekannt ist, spielt das Profiling der monozytären Genexpression derzeit keine Rolle bei der klinischen Entscheidungsfindung.

Um komplexe Muster innerhalb des Transkriptoms von Monozyten zu identifizieren könnten machine learning-Algorithmen angewendet werden. Derzeit wurde machine learning noch nie in Monozyten-mRNA-Expressionsdatensätzen angewandt, um das Vorliegen einer Carotis-Stenose vorherzusagen.

Methoden

Ein publizierter Datensatz mit monozytärer mRNA-Expression wurde für diese Analyse verwendet (E-GEOD-23746). Dieser Datensatz besteht aus 95 Individuen in zwei Gruppen (mit und ohne Carotis-Stenose, Ratio 4:1), bei denen die monozytäre mRNA-Expression jeweils mittels eines Microarray-Assays analysiert wurde. Die Samples wurde mittels Box-Cox-Transformation und z-value-Transformation normalisiert. Für die Auswahl der verwendeten Features wurde anhand des ersten Drittels der Daten die Kullback-Leibler (KL) -divergence zwischen den beiden Gruppen berechnet. Euklidisches Clustering, PCA und tSNE wurde zur Messung der Ähnlichkeit der Daten verwendet.

Für das supervised machine learning wurden verschiedene Algorithmen (neuronale Netze, random forests, k-nearest neighbors und support vector machines) unter Verwendung des vollständigen Datensatzes sowie eines reduzierten Datensatzes mit nur den relevantesten features gemäß des Ergebnisses der KL-divergence trainiert. Für das Training wurde nur das zweite Drittel der Datenpunkte verwendet. Eine 5-fache Kreuzvalidierung wurde angewandt, um die Genauigkeit der Modellierung zu verbessern. Die performance wurde anhand des letzten Drittels des Datensatzes getestet.

Ergebnisse

Anhand der KL-divergence was es möglich, den Informationsgehalt der Variablen für die Zuteilung der beiden Gruppen zu berechnen. Die 16 informativsten Variablen wurden ausgewählt, um daraus einen reduzierten Datensatz zu erstellen. Die Analyse der Ähnlichkeit der Daten zeigte ein deutliches Clustering bei Verwendung des reduzierten Datensatzes, jedoch nicht bei Verwendung des gesamten Datasets. Mit dem reduzierten Datensatz zeigten die meisten machine learning-Algorithmen eine gute performance (Cohen's Kappa 50% oder höher) bei den Trainingsdaten, während dies bei Verwendung des vollständigen Datensatzes nicht der Fall war. Unter Verwendung des Algorithmus, welcher bei den Trainingsdaten am Besten abgeschnitten hat (random forest), konnten 30/31 Proben des unabhängigen Testsets korrekt klassifiziert werden.

Schlussfolgerungen

In unserem Datensatz konnten wir machine learning-Algorithmen verwenden, um das Vorhandensein einer Carotis-Stenose mit einer Genauigkeit von ca. 97% korrekt vorherzusagen (1/31 falsche Gruppenzuordnung). In dieser Proof-of-Concept-Studie konnten wir zeigen, dass machine learning zur Unterstützung klinischer Entscheidungen eingesetzt werden könnte. Techniken wie diese könnten die Genauigkeit bei der Analyse komplexer Datensätze mit weniger Beobachtungen als Variablen erheblich verbessern, was insbesondere bei Studien im Bereich der personalisierten Medizin wertvoll sein kann.

Abstract (English)

Background

Monocytes play a crucial role in the development of atherosclerosis, which is the underlying cause for most cardiovascular diseases like stroke, myocardial infarction and carotid artery disease. Their invasion of the blood vessel musculature and subsequent transformation into foam cells is detrimental for the development of atherosclerotic plaques. Although the importance of their is well-understood, profiling of monocyte gene expression does currently not play a role in clinical decision making.

To identify complex patterns within the transcriptome of monocytes, machine learning (ml) algorithms could be applied. To the best of our knowledge, ml has until now never been used on monocyte mRNA expression datasets to predict the presence or absence of carotid artery disease.

Methods

A published dataset of monocyte mRNA expression was used for this analysis (E-GEOD-23746). This dataset consists of 95 individuals in two groups (with and without carotid artery disease, ratio 4:1), each of which had their monocytes' mRNA analyzed using a microarray assay. The dataset was preprocessed using a box-cox-transformation and a z-value-normalization. Feature selection was performed on the first third of the data by calculating Kullback-Leibler (KL) divergence between the two groups. Euclidean clustering, PCA and tSNE were used for data similarity measures.

For supervised machine learning, different algorithms (neural networks, random forests, k-nearest neighbors and support vector machines) were trained using the full dataset as well as a reduced dataset containing only the most informative features as measured by KL. For training only the second third of the data points were used. A 5-fold cross validation was applied for enhancing modeling precision. Performance was tested using the last third of the dataset.

Results

KL revealed a subset of features with higher information gain, of which the 16 most important where chosen to create a reduced dataset. Data similarity analyses revealed extensive clustering after feature selection, but not on the whole dataset. On the reduced dataset most machine learning algorithms displayed a good performance (Cohen’s kappa 50% or higher) on the training data, whereas this was not the case when the full dataset was used. Using the highest performing algorithm (random forest) on the test dataset, classification performance was measured with 30/31 correct classifications.

Conclusions

Machine learning techniques can be used for predicting the presence or absence of carotid artery disease with an accuracy of approx. 97% (1/31 misclassification) according to this dataset. We were able to show in this proof-of-concept study that machine learning can be applied for supporting clinical decision making. Techniques like these could greatly increase accuracy when analyzing complex datasets with less observations than variables, which is especially useful in the context of personalized medicine.